参考答案of数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章下列属于数据挖掘任务的是()根据性别划分公司的顾客计算公司的总销售额预测一对骰子的结果利用历史记录预测公司的未来股价可以在不同维度合并数据,从而形成数据立方体的是()数据库数据源数据仓库数据库系统目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是()数据清洗数据集成数据变换数据归约下述四种方法哪一种不是常见的分类方法()决策树支持向量K-Means(聚类)朴素贝叶斯分类下列任务中,属于数据挖掘技术在商务智能方面应用的是()欺诈检测垃圾邮件识别根据因特网的搜索引擎查找特定的Web页面定向营销异常检测的应用包括()网络攻击预测某股票的未来价格计算公司的总销售额根据性别划分公司顾客将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务()频繁模式挖掘分类和预测数据预处理数据流挖掘KDD是(数据挖掘与知识发现)下列有关离群点的分析错误的是()一般情况下离群点会被当作噪声而丢弃离群点即是噪声数据在某些特殊应用中离群点有特殊的意义信用卡在不常消费地区突然消费大量金额的现象属于离群点分析范畴下列关于模式识别的相关说法中错误的是()模式识别的本质是抽象出不同事物中的模式并由此对事物进行分类医疗诊断属于模式识别的研究内容之一手机的指纹解锁技术不属于模式识别的应用自然语言理解也包含模式识别问题()不属于数据挖掘的应用领域。商务智能信息识别搜索引擎医疗诊断目前数据分析和数据挖掘面临的挑战性问题不包括()数据类型的多样化高维度数据离群点数据分析与挖掘结果可视化常见的机器学习方法有监督学习、无监督学习、半监督学习数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。频繁模式是指数据集中频繁出现的模式离群点是指全局或者局部范围内偏离一般水平的观测对象联机分析处理是数据仓库的主要应用分类是指通过建立模型预测离散标签,回归是通过建立连续值模型推断新的数据的某个数值型属性。数据库是面向事务,数据仓库是面向主题数据挖掘主要侧重解决的四类问题:分类、聚类、关联、预测数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结。特征化是一个目标类数据的一般特性或特性的汇总。无监督学习可以在没有标记的数据集上进行学习。对聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比较相似而不同组对象间差异较大。对事务数据库的每个记录代表一个事务。对数据仓库和数据库其实是相同的,都是数据或信息的存储系统。错区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。对离群点因偏离一般水平而不需要考虑和研究。错聚类过程的输入对象有与之关联的目标信息。错数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。对数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。对数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。错数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息的过程。对数据分析的定义:数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。对数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。错(说的是数据仓库)第二章下面哪个不属于数据的属性类型()标称序数区间相异属于定量的属性类型是()标称序数区间相异一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是()一年级二年级三年级四年级假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为()0.8211.2241.4580.716考虑数据集{12243324556826},其四分位数极差是()3124553光年所属的属性类型为()标称属性序数属性区间标度属性比率标度属性某班数学期末考成绩分组数据如下,则数据的中位数区间是()60至69分70至79分80至89分90至100分军衔所属的属性类型为()标称属性序数属性二元属性数值属性计算p1(2,1,4,10)和p2(3,0,3,8)两个对象之间的曼哈顿距离()4253用AM和PM表示的时间的属性类型是()标称序数二元区间属性可分为标称、序数、二元和数值四类中心趋势度量包括众数、均值、中位数和中列数假设给定的数据集的值已经分组为区间。区间和对应的频率如下。则数据的近似分组中位数是____。32.94某部门的月薪情况如下(单位:千元),30,33,48,50,53,53,57,60,64,68,70,70,90,则该部门员工的月薪的均值为____。57.38数据集{5,10,11,13,15,15,35,50,55,72,92,204,215}的中位数为____,众数为____。3515假设小明某一学期的考试成绩及每门课的学分如下表所示,则小明本学期的加权平均成绩为81.45。给定两个对象的元组x=(4,3,5,1)与y=(1,6,7,3),它们之间的余弦相似度为____。0.86小明参加数学竞赛选拔赛,他十次测试成绩为:76,84,90,86,81,87,86,82,85,83。则小明同学十次测试成绩的方差是____。13.20已知点A的空间坐标为(6,30,9),点B的空间坐标为(10,35,2),则A与B之间的切比雪夫距离为____。7只有非零值才重要的二元属性被称作____。非对称二元属性某组同学的成绩评定结果如下,则A与B,A与C,B与C之间的相异性是____、____和____。1.060.820.82给定两个词向量元祖A(6,2,5,8)和B(4,5,2,6),则这两个对象之间的闵可夫斯基距离(其中h=4)是____。3.73假定用于分析的数据包含属性age,数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,45,52,70。则该组数据的中列数是41.50。人的血型属于标称属性。对酒店的星级属于数值属性。错(序列)某品种玉米苗中抽取10株,测得它们的株高为:21,42,39,14,19,22,37,41,40,25(单位:cm),则玉米苗株高的标准差为10.21。对离散属性总是具有有限个值。错标称属性的值提供了足够的信息用于区分对象。对数值属性的值提供足够的信息确定对象的顺序。错欧几里得距离、曼哈顿距离、闵可夫斯基距离和切比雪夫距离均满足非负性、同一性和三角不等式。对余弦相似性利用向量空间中两个向量夹角的余弦值来衡量两个个体间的差异。余弦值越接近0,夹角越大,向量之间匹配越大(小)。余弦值越接近1,夹角越小,向量之间匹配越小。错二元属性的相异性有两种,一种是对称的二元相异性,另一种是非对称的二元相异性。对已知点X的空间坐标为(3,4,2),点Y的空间坐标为(1,6,1),则X与Y的欧几里得距离为3。对计算由不对称的二元变量描述的对象间的相异度可以使用Jaccard系数;计算用分类变量描述的对象间的相异度可以采用属性值匹配的方法(属性值匹配,相似度为1,否则为0);对第三章下面属于维归约常用的线性代数技术的有()主成分分析特征提取特征加权离散化将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务()频繁模式挖掘分类和预测数据预处理数据流挖掘假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内()第一个第二个第三个第四个数据清理不包括以下哪些处理()缺失值的处理噪声的处理重复数据的处理不一致数据的处理数据规范化方法包括()数据归约数据泛化数据集成最小最大规范化给定一组二维样本S,S={S1,S2,S3,S4,S5}={(1,2),(3,0),(4,3),(5,7),(1,6)},在距离阈值d大于等于4、非邻点样本的阈值部分p大于等于3时的噪声数据为()欧几里得距离S4,S5S1,S4S2,S5S1,S5两组向量x={6,4,7,10,8},y={5,6,1,4,12}的协方差为()cov(x,y)=Exy-ExEy=E[(x-Ex)(y-Ey)]0.10.20.30.4假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。对age值35进行小数定标规范化转换,转换后的值为()0.320.380.350.40已知某工厂车间工人的年终奖,其均值为34349元,标准差为16928元,对于观测值为57000元,使用z-score方法对其进行规范化为()1.341.430.350.57假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。使用min-max规范化,将age值35转换d到[0.0,1.0]区间的值为()0.350.700.1750.386下列数据变换类型及方法正确的是()数据平滑:去噪,将连续数据离散化,增加粒度数据聚集:对数值属性进行监督或无监督离散化特征构造:构造出新的属性数据规范化:使数据按照比例缩放,落入特定区域数据变换的类型包括()数据预处理数据泛华数据离散化特征构造数据规约的技术包括维规约、数量规约、数据压缩下面哪些属于数据预处理的方法()变量代换离散化聚集估计遗漏值在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法正确的有()忽略元组从数据中挑选一个数据填写使用属性的平均值填写空缺值使用与给定元组属同一类的所有样本的平均值数据清理的原则包括()相异性原则连续性原则唯一性原则空值原则高质量数据的要求有准确性、完整性、一致性数据预处理的技术手段包括数据清理、数据变换、数据集成、数据规约假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。已知age的标准偏差为12.94年,使用z-score规范化对age值35进行转换,转换后得到的值为____。0.386在现实世界的数据中,元组在某些属性上的缺失值是常有的。处理该问题的常用方法有删除数据对象或属性、估计遗漏值、忽略遗漏值对数据进行偏差检测的3个原则分别是唯一性原则、连续性原则、空值原则数据归约技术包括维归约、数量归约、数据压缩在使用分箱法实现特征离散化时,可以用每个箱中的_____中值____或___平均值____替换箱中所有的值。某工厂车间工人的年终奖金结果如下(已按照递增排序):15750,20000,25000,36000,48000,50000,52000,56000,57000,68000,10000,135000(元)。使用最小-最大值规范化将奖金57000转换到[0.0,1.0]区间为0.35;使用小数定标规范化将奖金57000转换到[-1,1]区间为0.057数据清理一般需要对__缺失值__和_噪声_进行处理。我们要进行数据预处理,是因为原始数据大多都是“脏数据”。四种处理缺失数据的方法是____、____、____、____。人工填写、使用全局常量填充缺失值、直接删除缺失属性的记录、使用属性的中心趋势度量值填充缺

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功