数据挖掘总复习题

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘大作业一,什么是数据挖掘?数据挖掘是按照既定的业务目标,对大量的数据进行探索,揭示其中隐藏的规律性,并进一步将其模型化的先进,有效地对大量数据进行处理与分析的方法。二,什么是KDD?KDD为KnowledgeDiscoveryinDatabase,为基于数据库的知识发现技术。KDD是从数据中找到有效的,新颖的,潜在有用的,最终可理解的模式的过程。三,知识挖掘的主要步骤;从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识?原始数据目标数据预处理后的数据提取信息有用知识KDD是一个包括数据清理,数据集成,数据选择,数据变换,模式评价等步骤,最终得到知识的全过程,而数据挖掘只是其中的一个关键步骤。四,什么是分类分析?分类操作的具体过程是哪几步?及其用途?分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类。a.模型训练阶段:训练集b.使用模型:分类阶段,评估准确率(测试集),对类标号未知的新数据分类用途:有效地解决小规模数据库的挖掘问题。五,什么是聚类分析?数据挖掘中有哪几种聚类方法?聚类是一个将数据集划分成若干组(Class)或类(Cluster)的过程,使得同一类内的数据对象具有较高的相似度,而不同类之间的数据对象相似度较低。六,聚类分析和分类分析的相同点和不同点分别是什么?分类和聚类技术不同,前者总是在特定的类标识下寻求新元素属于哪个类,而后者则是通过对数据的分析比较生成新的类标识。七,列举一个分类分析的实例ID-3学习算法(课本P177)八,列举一个聚类分析的实例:给定age(年龄)变量的如下度量值:18、22、25、42、28、43、33、35、56、28通过如下方法进行变量标准化。(1)计算age的平均绝对偏差。(2)计算前四个值的z-score。数据选择数据预处理数据挖掘知识评价九,分析一下实例:假设一个病人记录表(如下所示),包含属性name(姓名),gender(性别),fever(发烧),cough(感冒),test-1,test-2,Test-3,test-4。这里的name是对象标识,Gender是对称的二元变量,其余的属性都是非对称的二元变量。对非对称属性,值Y(yes)和P(positive)被置为1,值N(no或negative)被置为0,假设对象之间的距离只基于对称变量来计算。根据Jaccard系数公式,三个病人Jack、Mary、Jim两两之间的相异度并且列出最可能有类似病的人。

1 / 2
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功