数据挖掘复习题集1.名词解释及简答数据矩阵闭频繁项集,极大频繁项集四分位数极差聚类分析聚类算法DBSCAN中的密度可达与密度相连简述数据清理的任务简述k-means聚类与k-中心点聚类的相似与不同之处2.填空题(1)计算sin(45o)的Matlab命令是(2)假设x=10,计算0.521xe的Matlab命令是(3)Matlab中清除显示内容的命令是(4)Matlab中清除变量y的命令是(5)Matlab中有矩阵a=[123;456;789],执行a(2,:)=[]后,a的值为。(6)Matlab中绘制曲线的基本命令是。(7)数据质量涉及许多因素,包括,,,时效性,可信性和可解释性。(8)属性的类型由该属性可能具有的值的集合决定,属性类型包括,,序数的或数值的。(9)KDD过程包括:,数据集成,数据选择,数据变换,数据挖掘,模式评估,和。(10)一个模式是有趣的,如果它是,在某种程度上在新的或测试数据上是有效的,,新颖的,或验证了用户希望证实的某种假设。(11)数据对象又称为样本、、数据点、或。(12)数值属性可以被分为属性和属性(13)常见的数据的可视化技术有基于的技术,几何投影技术,基于的技术以及层次的和基于图形的技术。(14)支持度和是规则兴趣度的两种度量。3.选择题:1)Matlab中,执行a=-4:4;b=reshape(a,3,3)后b的值是()。2)在MATLAB中,列出当前工作空间变量名的函数是A.[-4-3-2;-101;234]B.[-4-12;-303;-214]C.[-4-4-4;444;444]D.报错(A)who(s)(B)clc(C)path(D)draw3)已知462837A,则在MATLAB中调用命令A(3)的结果为(A)3(B)2(C)无结果(D)74)MATLAB对图形窗口进行灵活分割的命令为(A)plot(B)subplot(C)aplot(D)ploval5)[363]A,[211]B,则A.*B=(A)运算不执行,因有错(B)683(C)574(D)6636)MATLAB中保持图形窗口不关闭的命令为(A)alter(B)holdon(C)holdoff(D)cd7)MATLAB中a=[2,3,1],则b=a.^2的结果为(A)b=[4,6,1](B)b=[4,9,1](C)b=[4,6,2](D)执行出错,无结果8)MATLAB中给变量w赋空矩阵的语句为(A)w=zeros()(B)w=[](C)w=zeros(0,0)(D)clearw9)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A.关联规则发现B.聚类C.分类D.自然语言处理10)假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A第一个B第二个C第三个D第四个11)上题中,等宽划分时(宽度为50),15又在哪个箱子里?()12)下面哪个不属于数据的属性类型:()A标称B序数C区间D相异13)在上题中,属于定量的属性类型是:()14)只有非零值才重要的二元属性被称作:()A计数属性B离散属性C非对称的二元属性D对称属性15)以下哪种方法不属于特征选择的标准方法:()A嵌入B过滤C包装D抽样16)熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:()A1比特B2.6比特C3.2比特D3.8比特17)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()A0.821B1.224C1.458D0.71618)假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()A18.3B22.6C26.8D27.919)考虑值集{12243324556826},其四分位数极差是:()A31B24C55D320)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()A一年级B二年级C三年级D四年级21)下列哪个不是专门用于可视化时间空间数据的技术:()A等高线图B饼图C曲面图D矢量场图22)在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样23)以下哪些算法是分类算法,()A,DBSCANB,C4.5C,K-MeanD,EM24)以下哪些分类方法可以较好地避免样本的不平衡问题,()A,KNNB,SVMC,BayesD,神经网络25)以下哪项关于决策树的说法是错误的()A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题26)决策树分类方法中,ID3算法使用的分裂准则是:A.信息增益B.增益比率C.基尼指数D.分类错误率27)决策树分类方法中,C4.5算法使用的分裂准则是:A.信息增益B.增益比率C.基尼指数D.分类错误率28)决策树分类方法中,CART算法使用的分裂准则是:A.信息增益B.增益比率C.基尼指数D.分类错误率4.判断题1.Matlab程序要编译后才能运行。()2.Matlab中变量名不区分大小写。()3.Matlab中对2维矩阵的下标与C语言一样,是行优先存储。()4.Matlab的执行效率比C语言低,但是Matlab的开发难度通常比C语言低。()5.聚类算法运行的条件需要所有的训练样本都有类别标签。()6.决策树中基于信息增益分裂准则的一个缺陷是它趋向于多值属性。()7.分类算法中,随着分类模型的复杂度增加,训练集和测试集上的准确率通常都会提高。()8.DBSCAN是一种基于密度的聚类方法。()9.分位数图是一种观察单变量数据分布的简单有效方法。()10.分位数-分位数图可以观察从一个分布到另一个分布是否有漂移。()11.k-中心点聚类算法比k-均值算法对离群点更鲁棒。()12.频繁项集的关联规则挖掘中,闭频繁项集和极大频繁项集都包含了频繁项集的完整支持度信息()13.频繁模式增长FP-growth是一种比Aprior算法更高效的关联规则挖掘算法。()5.计算题:1.给定两个元组(10,20,30,10)和(20,0,36,8)表示的对象,求以下距离:(1)计算这两个对象间的欧几里得距离(2)计算这两个对象间的曼哈顿距离(3)使用q=3,计算这两个对象之间的闵可夫斯基距离(4)计算这两个对象之间的上确界距离2.在决策树分类中,依据分裂规则的不同提出了不同决策树算法,信息增益准则在ID3分类方法中采用。我们希望能够学习出一个贷款申请的决策树,当新的客户提出申请贷款时,根据申请人的特征利用决策树决定是否批准申请贷款。请完成如下的计算。ID年龄有工作有自己的房子信贷情况是否批准贷款申请1青年否否一般否2青年否否好否3青年是否好是4青年是是一般是5青年否否一般否6中年否否一般否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14老年是否非常好是15老年否否一般否1)假设目前在根节点,包含所有15个样本点,请计算根节点分类所需的期望信息。2)计算年龄属性分裂的信息增益。3)计算用是否有工作属性分裂的信息增益。4)计算分别用是否有自己的房子和信贷情况属性分裂的信息增益,并说明基于信息增益准则,应该选择什么属性作为分裂属性。3.朴素贝叶斯分类方法是一种简单但高效的分类方法,有如下关于顾客是否买计算机的训练数据集,请依据朴素贝叶斯分类方法,写出计算过程,判断属性信息为x=(年龄=青年,收入中等,信用等级=良好)的顾客是否会购买计算机。RID年龄收入信用等级是否买计算机1青年高良否2青年高优否3中年高良是4老年中等良是5老年低良是6老年低优否7中年低优是8青年中等良否9青年低良是10老年中等良是4.有如下混淆矩阵,请计算指标分类准确率,灵敏度,特效性,精度,召回率和F1度量。预测类别实际类别Class=YesClass=NoClass=Yes90210Class=No14095605.假设我们对购买计算机游戏和录像带的事务感兴趣。设game表示包含计算机游戏的事务,而video表示包含录像的事务。在所分析的1000个事务中,数据显示有600个顾客事务包含计算机游戏,750个事务包含录像,而400个事务同时包含计算机游戏和录像。假设发现关联规则的数据挖掘程序在该数据上运行,计算如下关联规则的支持度和置信度:buys(X,”游戏”)buys(X,“录像”)假设事务数据库只有2个事务:{𝑎1,𝑎2,…,𝑎100},{𝑎1,𝑎2,…,𝑎50}.设最小支持度计数阈值min_sup=1.则我们有2个闭频繁项集和它们的支持度,C={{a1,a2,…,a100}:1;{a1,a2,..,a50}:2}。只有一个极大频繁项集:M={{a1,a2,…,a100}:1}。