1、简单描述一下数据挖掘的过程(P9-P10)(1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据(2)数据集成:将来自多个数据源中的相关数据组合到一起(3)数据选择:根据数据挖掘的目标选取待处理的数据(4)数据转换:将数据转换为易于进行数据挖掘的数据存储形式(5)数据挖掘:其作用是利用智能方法挖掘数据模式或规律知识(6)模式评估:其作用是根据一定评估标数据准,从数据挖掘结果中筛选出有意义的相关知识(7)知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识从商业应用的角度可以把整个数据挖掘过程描述为三个步骤:首先是数据收集,然后利用数据挖掘相关方法提取出有用的知识,最后以提取出来的知识来辅助相应决策者进行决策。2、计算均值、中位数、截断均值,并简单说明它们在反应数据中心方面的特点(P24-P25)(1)均值:是描述数据集的最常用的单个度量方法。但通常不是度量数据中心的最好方法。(2)中位数:对于倾斜的(非对称的)数据,中位数是数据中心的一个较好度量(3)截断均值:均值对极端值很敏感,截断均值可以避免少量极端值影响均值3、噪声的概念?在数据预处理的时候可以发现并清除噪音数据吗?噪音数据一般有哪些处理方法(P27)1)噪声是测量变量的随机错误或偏差。噪声是测量误差的随机部分,包含错误或孤立点值。导致噪声产生的原因有多种,可能是数据收集的设备故障,也可能是数据录入过程中人的疏忽或者数据传输过程中的错误等。2)可以。数据清理的目的就是试图填充缺失值、去除噪声并识别利群点、纠正数据中的不一致值。3)1、分箱:通过考察周围的值来平滑有序数据的值2、聚类:聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常值3、回归:通过回归(线性回归、非线性回归)让数据适合一个函数来平滑数据4、规范化,MIN-MAX规范化(P29-P30),公式比较难打,举例子吧最小-最大规范化保持原有数据之间的联系,如果今后的输入落在原始数据值之外,该方法面临“越界错误”。例如,假定电信客户的年龄属性(year)的最小值和最大值分别为10岁和83岁。用最小-最大规范化将年龄属性映射到区间[0,1],那么year值52岁将变换为(52-10)/(83-10)=0.5835、举例说明什么是分类挖掘任务(第三章)分类是数据挖掘的中的主要分析手段,其任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,把类标号未知的样本映射到某个预先给定的类标号中。例如,预测某个病人的病情为“癌症”或“非癌症”,这里的“癌症”和“非癌症”是预先给定的类标号。6、举例说明什么是聚类挖掘任务。(第四章)聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。如电子商务网站中的客户群划分。根据客户的个人信息、消费习惯、浏览行为等信息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基于得到的客户群信息,相关的店主可以制定相应的营销策略,如交叉销售,根据某个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。7、举例说明什么是数据挖掘的关联分析任务(第五章)例:通过对数据集进行关联分析,发现关联规则A→B,表示购买产品A的顾客通常都会购买产品B。关联规则中的前件和后件不存在必然的因果关系,只是表示如果前件出现了,后件也很有可能出现。