数据挖掘试卷题集

vivanjs
1 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘复习题集1.名词解释及简答数据矩阵闭频繁项集，极大频繁项集四分位数极差聚类分析聚类算法DBSCAN中的密度可达与密度相连简述数据清理的任务简述k-means聚类与k-中心点聚类的相似与不同之处2.填空题（1）计算sin(45o)的Matlab命令是（2）假设x=10，计算0.521xe的Matlab命令是（3）Matlab中清除显示内容的命令是（4）Matlab中清除变量y的命令是（5）Matlab中有矩阵a=[123;456;789]，执行a(2,:)=[]后，a的值为。（6）Matlab中绘制曲线的基本命令是。（7）数据质量涉及许多因素，包括，，，时效性，可信性和可解释性。（8）属性的类型由该属性可能具有的值的集合决定，属性类型包括，，序数的或数值的。（9）KDD过程包括：,数据集成,数据选择,数据变换,数据挖掘,模式评估,和。（10）一个模式是有趣的，如果它是,在某种程度上在新的或测试数据上是有效的,,新颖的,或验证了用户希望证实的某种假设。（11）数据对象又称为样本、、数据点、或。（12）数值属性可以被分为属性和属性（13）常见的数据的可视化技术有基于的技术，几何投影技术，基于的技术以及层次的和基于图形的技术。（14）支持度和是规则兴趣度的两种度量。3.选择题：1)Matlab中，执行a=-4:4；b=reshape(a,3,3)后b的值是（）。2)在MATLAB中，列出当前工作空间变量名的函数是A.[-4-3-2;-101;234]B.[-4-12;-303;-214]C.[-4-4-4；444；444]D.报错(A)who(s)(B)clc(C)path(D)draw3)已知462837A，则在MATLAB中调用命令A(3)的结果为(A)3(B)2(C)无结果(D)74)MATLAB对图形窗口进行灵活分割的命令为(A)plot(B)subplot(C)aplot(D)ploval5)[363]A，[211]B，则A.*B=(A)运算不执行，因有错(B)683(C)574(D)6636)MATLAB中保持图形窗口不关闭的命令为(A)alter(B)holdon(C)holdoff(D)cd7)MATLAB中a=[2,3,1]，则b=a.^2的结果为(A)b=[4,6,1](B)b=[4,9,1](C)b=[4,6,2](D)执行出错，无结果8)MATLAB中给变量w赋空矩阵的语句为(A)w=zeros()(B)w=[](C)w=zeros(0,0)(D)clearw9)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？()A.关联规则发现B.聚类C.分类D.自然语言处理10)假设12个销售价格记录组已经排序如下：5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？()A第一个B第二个C第三个D第四个11)上题中，等宽划分时（宽度为50），15又在哪个箱子里？()12)下面哪个不属于数据的属性类型：()A标称B序数C区间D相异13)在上题中，属于定量的属性类型是：()14)只有非零值才重要的二元属性被称作：()A计数属性B离散属性C非对称的二元属性D对称属性15)以下哪种方法不属于特征选择的标准方法：()A嵌入B过滤C包装D抽样16)熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是：()A1比特B2.6比特C3.2比特D3.8比特17)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：()A0.821B1.224C1.458D0.71618)假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70,问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。第二个箱子值为：()A18.3B22.6C26.8D27.919)考虑值集{12243324556826}，其四分位数极差是：()A31B24C55D320)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是：()A一年级B二年级C三年级D四年级21)下列哪个不是专门用于可视化时间空间数据的技术：()A等高线图B饼图C曲面图D矢量场图22)在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：()A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样23)以下哪些算法是分类算法，（）A，DBSCANB，C4.5C,K-MeanD,EM24)以下哪些分类方法可以较好地避免样本的不平衡问题，（）A，KNNB，SVMC，BayesD，神经网络25)以下哪项关于决策树的说法是错误的()A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题26)决策树分类方法中，ID3算法使用的分裂准则是：A.信息增益B.增益比率C.基尼指数D.分类错误率27)决策树分类方法中，C4.5算法使用的分裂准则是：A.信息增益B.增益比率C.基尼指数D.分类错误率28)决策树分类方法中，CART算法使用的分裂准则是：A.信息增益B.增益比率C.基尼指数D.分类错误率4.判断题1.Matlab程序要编译后才能运行。（）2.Matlab中变量名不区分大小写。（）3.Matlab中对2维矩阵的下标与C语言一样，是行优先存储。（）4.Matlab的执行效率比C语言低，但是Matlab的开发难度通常比C语言低。（）5.聚类算法运行的条件需要所有的训练样本都有类别标签。（）6.决策树中基于信息增益分裂准则的一个缺陷是它趋向于多值属性。（）7.分类算法中，随着分类模型的复杂度增加，训练集和测试集上的准确率通常都会提高。（）8.DBSCAN是一种基于密度的聚类方法。（）9.分位数图是一种观察单变量数据分布的简单有效方法。（）10.分位数-分位数图可以观察从一个分布到另一个分布是否有漂移。（）11.k-中心点聚类算法比k-均值算法对离群点更鲁棒。（）12.频繁项集的关联规则挖掘中，闭频繁项集和极大频繁项集都包含了频繁项集的完整支持度信息（）13.频繁模式增长FP-growth是一种比Aprior算法更高效的关联规则挖掘算法。（）5.计算题：1.给定两个元组(10,20,30,10)和(20,0,36,8)表示的对象，求以下距离：（1）计算这两个对象间的欧几里得距离（2）计算这两个对象间的曼哈顿距离（3）使用q=3，计算这两个对象之间的闵可夫斯基距离（4）计算这两个对象之间的上确界距离2.在决策树分类中，依据分裂规则的不同提出了不同决策树算法，信息增益准则在ID3分类方法中采用。我们希望能够学习出一个贷款申请的决策树,当新的客户提出申请贷款时,根据申请人的特征利用决策树决定是否批准申请贷款。请完成如下的计算。ID年龄有工作有自己的房子信贷情况是否批准贷款申请1青年否否一般否2青年否否好否3青年是否好是4青年是是一般是5青年否否一般否6中年否否一般否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14老年是否非常好是15老年否否一般否1）假设目前在根节点，包含所有15个样本点，请计算根节点分类所需的期望信息。2）计算年龄属性分裂的信息增益。3）计算用是否有工作属性分裂的信息增益。4）计算分别用是否有自己的房子和信贷情况属性分裂的信息增益，并说明基于信息增益准则，应该选择什么属性作为分裂属性。3.朴素贝叶斯分类方法是一种简单但高效的分类方法，有如下关于顾客是否买计算机的训练数据集，请依据朴素贝叶斯分类方法，写出计算过程，判断属性信息为x=(年龄=青年，收入中等，信用等级=良好)的顾客是否会购买计算机。RID年龄收入信用等级是否买计算机1青年高良否2青年高优否3中年高良是4老年中等良是5老年低良是6老年低优否7中年低优是8青年中等良否9青年低良是10老年中等良是4.有如下混淆矩阵，请计算指标分类准确率，灵敏度，特效性，精度，召回率和F1度量。预测类别实际类别Class=YesClass=NoClass=Yes90210Class=No14095605.假设我们对购买计算机游戏和录像带的事务感兴趣。设game表示包含计算机游戏的事务，而video表示包含录像的事务。在所分析的1000个事务中，数据显示有600个顾客事务包含计算机游戏，750个事务包含录像，而400个事务同时包含计算机游戏和录像。假设发现关联规则的数据挖掘程序在该数据上运行，计算如下关联规则的支持度和置信度：buys(X,”游戏”)buys(X,“录像”)假设事务数据库只有2个事务：{𝑎1,𝑎2,…,𝑎100},{𝑎1,𝑎2,…,𝑎50}.设最小支持度计数阈值min_sup=1.则我们有2个闭频繁项集和它们的支持度，C={{a1,a2,…,a100}:1;{a1,a2,..,a50}:2}。只有一个极大频繁项集：M={{a1,a2,…,a100}:1}。