数据挖掘离线作业2016

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

浙江大学远程教育学院《数据挖掘》课程作业姓名:学号:年级:学习中心:—————————————————————————————第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)孤立点是指:些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:1数据库、数据仓库或其他信息库2数据库或数据仓库服务器3知识库4数据挖掘引擎5模式评估模块6图形用户界面(3)Web挖掘包括哪些步骤?答:数据清理:(这个可能要占全过程60%的工作量)、数据集成、将数据存入数据仓库、建立数据立方体、选择用来进行数据挖掘的数据、数据挖掘(选择适当的算法来找到感兴趣的模式)、展现挖掘结果、将模式或者知识应用或者存入知识库。(4)请列举数据挖掘应用常见的数据源。答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网()等。第二章认识数据一、填空题(1)两个文档向量d1和d2的值为:d1=(1,0,3,0,2),d2=(3,2,0,0,1),则它们的余弦相似度为:5/13(2)数据离散度的常用度量包括极差、分位、百分位数、四分位数极差和标准差。(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值。二、单选题(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:CA、中位数=平均值=众数;B中位数平均值众数;C、平均值中位数众数;D;众数中位数平均值(2)下面的散点图显示哪种属性相关性?CA不相关;B正相关;C负相关;D先正相关然后负相关;三、简答题(1)什么是基于像素的可视化技术?它有什么缺点?答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。(2)对称的和不对称的二元属性有什么区别?答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。第三章数据预处理一、填空题(1)进行数据预处理时所使用的主要方法包括:数据清理、数据变换、数据集成和数据规约。(2)数据概化是指:沿概念分层向上概化(3)数据压缩可分为:有损压缩和无损压缩两种类型。(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归和对数线性模型二、简答题(1)常用的数值属性概念分层的方法有哪些?常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。(2)请描述主成份分析(PCA)算法步骤主成份分析步骤为:a、规范化输入的数据:所有属性落在相同的区间内;b、计算k个标准正交向量,即主成分;c、每个输入数据的向量都是这k个主成分向量的线性组合;d、主成分按照重要程度降序排序。(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。处理空缺值的方法有:1)忽略元组。当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。2)人工填写空缺值。这种方法工作量大,可行性低3)使用一个全局变量填充空缺值:比如使用unknown或∞4)使用属性的平均值填充空缺值5)使用与给定元组属同一类的所有样本的平均值6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定树这样的基于推断的方法。(4)常见的数据归约策略包括哪些?数据归约策略包括:1)数据立方体聚集2)维归约3)数据压缩4)数值归约5)离散化和概念分层产生第六—七章挖掘频繁模式、关联和相关一、填空题(1)关联规则挖掘中,两个主要的兴趣度度量是:支持度和置信度(2)Aprior算法包括连接和剪枝两个基本步骤(3)项集的频率是指包含项集的事务数(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则(5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集二、简答题(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。答:对所有层都使用一致的最小支持度,优点在于:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索;缺点在于:最小支持度值设置困难,如果设置太高,将丢掉出现在较低抽象层中有意义的关联规则,如果设置太低,会在较高层产生太多的无兴趣的规则。(2)如何提高Apriori算法的有效性?有哪些常见方法?减少系统1/O开销的更为快捷的算法。方法1:基于hash表的项集计数:将每个项集通过相应的hash函数映射到hash表中的不同的桶中,这样可以通过将桶中的项集技术跟最小支持计数相比较先淘汰一部分项集。方法2:事务压缩(压缩进一步迭代的事务数)不包含任何k-项集的事务不可能包含任何(k+1)-项集,这种事务在下一步的计算中可以加上标记或删除方法3:划分,挖掘频繁项集只需要两次数据扫描D中的任何频繁项集必须作为局部频繁项集至少出现在一个部分中。第一次扫描:将数据划分为多个部分并找到局部频繁项集第二次扫描:评估每个候选项集的实际支持度,以确定全局频繁项集。方法4:选样(在给定数据的一个子集挖掘)基本思想:选择原始数据的一个样本,在这个样本上用Apriori算法挖掘频繁模式通过牺牲精确度来减少算法开销,为了提高效率,样本大小应该以可以放在内存中为宜,可以适当降低最小支持度来减少遗漏的频繁模式可以通过一次全局扫描来验证从样本中发现的模式可以通过第二此全局扫描来找到遗漏的模式方法5:动态项集计数在扫描的不同点添加候选项集,这样,如果一个候选项集已经满足最少支持度,则在可以直接将它添加到频繁项集,而不必在这次扫描的以后对比中继续计算。第八章分类一、填空题(1)数据分类模型的常用表示形式包括、和等。(2)朴素贝叶斯分类是基于假设。二、简答题(1)在判定树归纳中,为什么树剪枝是有用的?(2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。(3)分类方法的常用评估度量都有哪些?(4)简述数据分类的两步过程。三、算法题(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:18,18...23,23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PCGame,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益对age18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323对age23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PCGame。age1818…2323incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoincomestudentcredit_ratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcellentyes第十章聚类分析一、填空题(1)在数据挖掘中,常用的聚类算法包括:、、、基于网格的方法和基于模型的方法。(2)聚类分析常作为一个独立的工具来获得(3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征:和(4)许多基于内存的聚类算法所常用的两种数据结构是和(5)基于网格的聚类方法的优点是:二、简答题(1)简述基于划分的聚类方法。划分的准则是什么?(2)列举离群点挖掘的常见应用。第四章数据仓库和OLAP技术一、填空题(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:、和(2)给定基本方体,方体的物化有三种选择:、和(3)著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:、、和(4)在数据访问模式上,数据仓库以为主,而日常应用数据库则以为主。(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:、和(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:、、、(7)OLAP服务器的类型主要包括:、和(8)求和函数sum()是一个的函数。(9)方体计算的主要挑战是和之间的矛盾。二、简答题(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。(2)为什么说数据仓库具有随时间而变化的特征?(2)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?(3)请简述几种典型的多维数据的OLAP操作(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?(6)在数据仓库中,元数据的主要用途包括哪些?(7)数据仓库后端工具和程序包括哪些?

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功