12014~2015学年第二学期期末考试数据挖掘技术试卷(A卷)参考答案使用班级1250411/12/13/14答题时间_120分钟_一、填空题(共10空,每空1分,共10分)1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。2.数据集的三个重要特性:_维度、稀疏性、分辨率。二、判断题(共10小题,每小题1分,共10分)判断下列3~7小题的描述是否正确?3.ID3算法不仅可以处理离散属性,还可以处理连续属性。(F)4.决策树方法通常用于关联规则挖掘。(F)5.先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。(T)6.Clementine是IBM公司的专业级数据挖掘软件。(T)7.具有较高的支持度的项集具有较高的置信度。(F)判断下列8~12小题的描述是否属于数据挖掘任务?8.利用历史数据预测公司将来的股价。(T)9.监测病人心率的异常变化。(F)10.监测地震活动的地震波。(F)11.提取声波的频率。(F)12.根据顾客喜好摆放商品位置。(T)三、简答题(6个小题,每小题5分,共30分)13.什么是信息熵?答:信息熵(entropy)是用来度量一个属性的信息量(1分)。假定S为训练集,S的目标属性C具有m个可能的类标号值,C={C1,C2,…,Cm},假定训练集S中,Ci在所有样本中出现的频率为(i=1,2,3,…,m),则该训练集S所包含的信息熵定义为:(3分)熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。(1分)14.什么是文本挖掘?答:文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。(2分)对其进行深入的研究可以极大地提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。(1分)包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。(2分)15.什么是主成份分析?答:主成份分析(PCA)是一种用于连续属性的线性变换技术,找出新的属性(主成份),(1分)这些新属性是原属性的线性组合,(1分)是相互正交的,(1分)使得原来数据投影到较小的集合中,并且捕获数据的最大变差。(1分)PCA通常揭示先前未曾觉察的联系,解释不寻常的结果。(1分)16.简述k-最近邻算法过程。答:KNN分类算法的基本描述如下:算法名:KNN输入:最近邻数目K,训练集D,测试集Z(1分)输出:对测试集Z中所有测试样本预测其类标号值(1分)(1)for每个测试样本(1分)do(2)计算z和每个训练样本之间的距离(1分)(3)选择离z最近的k最近邻集合(1分)(4)返回中样本的多数类的类标号(1分)(5)endfor17.简述Apriori算法原理。答:Apriori性质:一个项集是频繁的,那么它的所有子集都是频繁的。(1分)一个项集的支持度不会超过其任何子集的支持度。(1分)该算法采用逐层的方法找出频繁项集,(1分)首先找出1频繁-项集,通过迭代方法利用频繁k-1-项集生成k候选项集,(1分)扫描数据库后从候选k-项集中指出频繁k-项集,直到生成的候选项集为空。(1分)18.什么是离群点?答:离群点是在数据集中偏离大部分数据的数据,(2分)使人怀疑这些数据的偏离并非由随机因素产生,(1分)而是产生于完全不同的机制。(2分)四、计算题(共2题,每小题20分,共40分)1221()(,,...,)logmmiiiEntropySEntropyppppp(',')zxyZ(,)xyDzDD(',)dxxzD219.数据集如下表:A1A2A3B1B2B3B4C1C2C3x1975962728y2598294713以A1、B1、C1为初始簇中心,利用曼哈顿距离的k-means算法计算:(1)第一次循环后的三个簇中心;(2)最后的三个簇中心,以及各簇包含的对象。(要有计算步骤)解:(1)计算其他7个数据点到三个中心的曼哈顿距离:M(A2,A1)=11M(A2,B1)=7M(A2,C1)=4M(A3,A1)=13M(A3,B1)=3M(A3,C1)=2M(B2,A1)=8M(B2,B1)=10M(B2,C1)=7M(B3,A1)=12M(B3,B1)=2M(B3,C1)=3M(B4,A1)=3M(B4,B1)=7M(B4,C1)=8M(C2,A1)=2M(C2,B1)=10M(C2,C1)=11M(C3,A1)=8M(C3,B1)=8M(C3,C1)=5经过本次循环,属于A1簇的数据点为(A1,B4,C2),(1分)中心为X1(1.67,2.33);(1分)属于B1簇的数据点为(B1,B3),(1分)中心为X2(5.5,8.5);(1分)属于C1簇的数据点为(C1,A2,A3,B2,C3),(1分)中心为X3(8,5.2);(1分)(2)计算10个点到三个新中心的距离:M(A1,X1)=1M(A1,X2)=11M(A1,X3)=10.2M(A2,X1)=10M(A2,X2)=7M(A2,X3)=1.2M(A3,X1)=12M(A3,X2)=2M(A3,X3)=4.8M(B1,X1)=9M(B1,X2)=1M(B1,X3)=5.8M(B2,X1)=7.66M(B2,X2)=10M(B2,X3)=4.2M(B3,X1)=11M(B3,X2)=1M(B3,X3)=5.8M(B4,X1)=2M(B4,X2)=8M(B4,X3)=7.2M(C1,X1)=10M(C1,X2)=3M(C1,X3)=2.8M(C2,X1)=1.66M(C2,X2)=11M(C2,X3)=10.2M(C3,X1)=7M(C3,X2)=8M(C3,X3)=2.2经过本次循环,属于X1簇的数据点为(A1,B4,C2),(1分)中心为Y1(1.67,2.33);(1分)属于X2簇的数据点为(A3,B1,B3),(1分)中心为Y2(6,8.67);(1分)属于X3簇的数据点为(A2,B2,C1,C3),(1分)中心为Y3(8.25,4.25);(1分)再次计算10个数据点到三个新中心的距离:M(A1,Y1)=1M(A1,Y2)=11.67M(A1,Y3)=9.5M(A2,Y1)=10M(A2,Y2)=6.67M(A2,Y3)=1.5M(A3,Y1)=12M(A3,Y2)=1.33M(A3,Y3)=6M(B1,Y1)=9M(B1,Y2)=1.67M(B1,Y3)=7M(B2,Y1)=7.66M(B2,Y2)=9.67M(B2,Y3)=3M(B3,Y1)=11M(B3,Y2)=0.33M(B3,Y3)=7M(B4,Y1)=2M(B4,Y2)=8.67M(B4,Y3)=6.5M(C1,Y1)=9M(C1,Y2)=2.67M(C1,Y3)=4M(C2,Y1)=1.66M(C2,Y2)=11.67M(C2,Y3)=9.5M(C3,Y1)=7M(C3,Y2)=7.67M(C3,Y3)=1.5经过本次循环,属于Y1簇的数据点为(A1,B4,C2),(1分)中心为Y1(1.67,2.33);(1分)属于Y2簇的数据点为(A3,B1,B3,C1),(1分)中心为Y2(6.25,8.25);(1分)属于Y3簇的数据点为(A2,B2,C3),(1分)中心为Y3(8.67,3.33);(1分)可以看到,已经不变了。(2分)20.已知数据集如下表:使用朴素Bayes算法预测气候状况为雨天,高温,湿度中等,微风时,是否适合户外运动?解:即求X={下雨,高,中等,微风}的户外运动为可以的后验概率P(Y=y|X)和X在户外运动为不可以的后验概率P(Y=n|X),其中概率最大者为X的预测值。(3分)根据Bayes定理,P(Y=y|X)=P(X|Y=y)*P(Y=y)=P(x1|Y=y)*P(x2|Y=y)*P(x3|Y=y)*P(x4|Y=y)*P(Y=y)(2分)天气情况x1温度情况x2湿度情况x3风力情况x4户外运动Y晴朗高大微风不适合n晴朗高大强风不适合n阴天高大微风适合y下雨中大微风适合y下雨低中等微风适合y下雨低中等强风不适合n阴天低中等强风适合y晴朗中大微风不适合n晴朗低中等微风适合y下雨中中等微风适合y3这里,P(x1|Y=y)=P(x1=下雨|Y=y)=3/6(1分)P(x2|Y=y)=P(x2=高|Y=y)=1/6(1分)P(x3|Y=y)=P(x3=中等|Y=y)=4/6(1分)P(x4|Y=y)=P(x4=微风|Y=y)=5/6(1分)P(Y=y)=6/10(1分)因此,P(Y=y|X)=3/6*1/6*4/6*5/6*6/10=1/36(1分)同理,计算P(Y=n|X)=P(X|Y=n)*P(Y=n)=P(x1|Y=n)*P(x2|Y=n)*P(x3|Y=n)*P(x4|Y=n)*P(Y=n)(1分)其中,P(x1|Y=n)=P(x1=下雨|Y=n)=1/4(1分)P(x2|Y=n)=P(x2=高|Y=n)=2/4(1分)P(x3|Y=n)=P(x3=中等|Y=n)=1/4(1分)P(x4|Y=n)=P(x4=微风|Y=n)=2/4(1分)P(Y=n)=4/10(1分)因此,P(Y=n|X)=1/4*2/4*1/4*2/4*4/10=1/160(1分)因为P(Y=y|X)P(Y=n|X),故气候状况为雨天,高温,湿度中等,微风时,户外运动应为适合。(2分)五、应用题(共1题,共10分)21.你作为银行信息中心工作人员,请阐述数据挖掘技术在银行业务中的应用,并写出相关的数据分析流程。参考答案:利用数据预处理技术进行数据清洗、整理、集成等;(1分)利用分类方法对客户进行分类,预测客户需要的服务;(2分)利用聚类方法分析客户详细类别,有针对性地开展服务推广;(2分)利用关联分析分析客户相关服务,方便推介服务;(1分)利用离群点挖掘技术分析数据异常,防止入侵。(1分)流程:原始数据预处理数据挖掘结果模式评估与表示知识。(3分)