2015浙大数据挖掘离线作业

ellen_zyj
1 ℃
2020-01-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第一章引言一、填空题（1）数据库中的知识挖掘(KDD)包括以下七个步骤：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示（2）数据挖掘的性能问题主要包括：算法的效率、可扩展性和并行处理（3）当前的数据挖掘研究中，最主要的三个研究方向是：统计学、数据路技术和机器学习（4）孤立点是指：一些与数据的一般行为或模型不一致的孤立数据二、简答题（1）什么是数据挖掘？答：数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的，有用的，隐含的，先前未知的和可能有用的模式或知识。（2）一个典型的数据挖掘系统应该包括哪些组成部分？答：1，数据库、数据仓库或其他信息库；2，数据库或数据仓库服务器；3，知识库；4，数据挖掘引擎；5，模式评估模块；6.图形用户界面。（3）Web挖掘包括哪些步骤？答：数据清理（可能有占全过程的60%的工作量）；将数据存入数据仓库；建立数据立方体；选择用来进行数据挖掘的数据；数据挖掘（选择适当的算法来找到感兴趣的模式）；展现挖掘结果；将模式或者知识应用或者存入知识库。（4）请列举数据挖掘应用常见的数据源。（或者说，我们都在什么样的数据上进行数据挖掘）答：常见的数据源包括关系数据路、数据仓库、事务数据库和高举数据库系统和信息库。其中国际数据库系统和信息库包括：空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。第二章认识数据一、填空题（1）两个文档向量d1和d2的值为：d1=(1,0,3,0,2)，d2=(3,2,0,0,1)，则它们的余弦相似度为：5/13（2）数据离散度的常用度量包括极差、分位数、四分位数、百分位数四分位数极差和标准差（3）一种常用的确定离群点的简单方法是：出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值。二、单选题（1）对于下图所示的正倾斜数据，中位数、平均值、众数三者之间的关系是：A、中位数=平均值=众数；B中位数平均值众数；C、平均值中位数众数；D；众数中位数平均值选C（2）下面的散点图显示哪种属性相关性？A不相关；B正相关；C负相关；D先正相关然后负相关；选C三、简答题（1）什么是基于像素的可视化技术？它有什么缺点？答：对于一个M维数据集，基于像素的可视化技术在屏幕上创建m个窗口，每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点；难以呈现对维空间的数据分布，不显示数据子空间是否存在稠密区域。（2）对称的和不对称的二元属性有什么区别？答：对称的二元属性指变量的两个状态具有同等价值或相同权重；而对不对称的二元属性中，变量的两个状态的重要性是不同的，对称的二元属性可以使用简单匹配系数苹果它们的相异度；不对称的二元属性使用jaccard系数评估它们的相异度。第三章数据预处理一、填空题（1）进行数据预处理时所使用的主要方法包括：数据清理、数据集成、数据变换和数据规约（2）数据概化是指：沿概念分层向上概化（3）数据压缩可分为：有损压缩和无损压缩两种类型。（4）进行数值归约时，三种常用的有参方法是：线性回归方法、多元回归和对数线性模型二、简答题（1）常用的数值属性概念分层的方法有哪些？答：分箱、直方图分析，聚类分析，基于熵的离散化和通过自然划分分段。（2）请描述主成份分析（PCA）算法步骤答：1.规范化输入的数据：所有属性落在相同的区间内；2，计算k个标准正交向量，即主成分；3，每个数据数据的向量都是这k主成分向量的线性组合；4，主成分按照重要程度降序排序。（3）在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。答：1，忽略元组。当类标号缺少是通常这么做，当每个属性缺省值的百分比变化很大时，他的效果非常差。2，人工填写空缺值。这种方法工作量大，可行性低。3，使用一个全局变量填充空缺值。4，使用属性的平均值填充空缺值。5，使用与给定元组属同一类的所有样本的平均值。6，使用最可能的值填充空缺值。（4）常见的数据归约策略包括哪些？答1，数据立方聚集，2，维归约；3，数据压缩；4，数据归约；5，离散化和概念分层产生；第六—七章挖掘频繁模式、关联和相关一、填空题（1）关联规则挖掘中，两个主要的兴趣度度量是：支持度和置信度（2）Aprior算法包括连接和剪枝两个基本步骤（3）项集的频率是指包含项集的事务数（4）大型数据库中的关联规则挖掘包含两个过程：找出所有频繁项集和由频繁项集产生强关联规则（5）根据规则中所处理的值类型，关联规则可分为：布尔关联规则和量化关联规则（6）Apriori性质是指：频繁项集的所有非空子集也必须是频繁的（7）在多维关联规则挖掘中，我们搜索的不是频繁项集，而是频繁谓词集二、简答题（1）简述在多层关联规则挖掘中，在不同的层使用一致的支持度的优缺点。答：优点：搜索是容易采用优化策略，即一个项如果不满足最小支持度，它的所有子项都可以不用搜索。缺点：最小支持度设置困难，太高则将丢掉出现在较低抽象层中有意义的关联规则；太低则会在较高层产生太多的无兴趣的规则。（2）如何提高Apriori算法的有效性？有哪些常见方法？答：可以使用一下几个思路来提升Apriori算法：减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算方法。常见方法包括：1，基于hash表的项集计数；2，事务压缩；3，划分；4，选样；5，动态项集计数。第八章分类一、填空题（1）数据分类模型的常用表示形式包括分类规则、决策树和数学公式等。（2）朴素贝叶斯分类是基于类条件独立假设。二、简答题（1）在判定树归纳中，为什么树剪枝是有用的？答：决策树建立时，血多分析反映的是训练数据中的噪声和离群点点，树剪枝可以识别并剪去这种分枝，以提高对未知数据分类的准确性。（2）为什么朴素贝叶斯分类称为“朴素”的？简述朴素贝叶斯分类优缺点。答：基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间，引入了很大开销。朴素贝叶斯分类做了类条件独立假设，大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果；他的缺陷是类条件独立在实际应用缺乏准确性，因为变量之间经常存在依赖关系，这种依赖关系影响了朴素贝叶斯分类器的准确性。（3）分类方法的常用评估度量都有哪些？答：精度（precision）：标记为正类的元组实际为正类所占的百分比。召回率：正元组标记为正的百分比。F量度：精度和召回率的调和评估指标。准确率，识别率：测试数据中正被正确分类的元组所占的百分比。5，灵敏度：真正例（识别）率。6，特效性：真负例率。（4）简述数据分类的两步过程。答：第一步，建立模型：建立描述预先定义的数据类或概念集的分类器；第二步，在独立测试集上评估模型的预测准确率，通过测试后再使用模型，对新的数据进行分类。三、算法题（1）使用判定树归纳算法，根据顾客年龄age（分为3个年龄段：18，18...23，23），收入income（取值为high，medium，low），是否为student（取值为yes和no），信用credit_rating等级（取值为fair和excellent）来判定用户是否会购买PCGame，即构建判定树buys_PCGame，假设现有的数据经过第一次划分之后得到如下图所示结果，并根据该结果对每一个划分中的各个属性计算信息增益对age18的顾客：Gain(income)=0.022，Gain(student)=0.162，Gain(credit_rating)=0.323对age23的顾客：Gain(income)=0.042，Gain(student)=0.462，Gain(credit_rating)=0.155请根据以上结果绘制出判定树buys_PCGame，来判定用户是否会购买PCGame。age1818…2323incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoincomestudentcredit_ratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcellentyes答：Age？CreditratingyesStudent?yesnoyesnoExcellentfairyesno第十章聚类分析一、填空题（1）在数据挖掘中，常用的聚类算法包括：划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。（2）聚类分析常作为一个独立的工具来获得数据分布的情况（3）一个好的聚类分析方法会产生高质量的聚类，具有两个特征：高类内相似度和低类间相似度（4）许多基于内存的聚类算法所常用的两种数据结构是数据矩阵和相似度矩阵（5）基于网格的聚类方法的优点是：处理速度快二、简答题（1）简述基于划分的聚类方法。划分的准则是什么？答：基于划分的聚类方法：给顶一个n个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个簇，丙炔k《=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅数以一个组。聚类目标可以是最优化某种量度，比如最小化数据点与类中心的距离平方和等。划分准则是同一个聚类中的对象尽可能的接近或相关，不同聚类中的对象尽可能的远离或不同。（2）列举离群点挖掘的常见应用。答：1，欺诈检测；2，网络入侵；3，故障诊断；4，可疑金融交易监控；第四章数据仓库和OLAP技术一、填空题（1）数据仓库的多维数据模型可以有三种不同的形式，分别是：星形模式、雪花模式和事实星座模式（2）给定基本方体，方体的物化有三种选择：不物化、部分物化和全物化（3）著名的数据仓库系统设计师W.H.Inmon认为，数据仓库与其他数据存储系统的区别的四个特征是：面向主题、数据集成、随时间而变化和数据不易丢失（4）在数据访问模式上，数据仓库以事务操作为主，而日常应用数据库则以只读查询为主。（5）数据立方体度量可以根据其所使用的聚集函数分为三类，分别是：分布的、代数的和整体的（6）关于数据仓库的设计，四种不同的视图必须考虑，分别是：自上向下视图、数据源视图、数据仓库视图、商务查询视图（7）OLAP服务器的类型主要包括：关系OLAP服务器、多维OLAP服务器和混合OLAP服务器（8）求和函数sum()是一个分布的函数。（9）方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。二、简答题（1）为什么在进行联机分析处理(OLAP)时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。答：使用一个独立的数据仓库进行OLAP处理为了以下的目的：1提高两个系统的性能：操作数据库是为了OLTP而设计的，没有为OLAP操作优化，同时在错啊做数据库上处理OLAP查询，会打打降低操作任务的性能；而数据仓库是为了OLAP而设计，为复杂的OLAP查询，多维视图，汇总等OLAP功能提供了优化。2，两者有着不同的功能：操作数据库支持多事务的并行处理，而数据仓库往往只是对数据记录进行只读访问，这是如果将事务处理的并行机制和回复机制用于这种OLAP操作，就会显著降低OLAP的性能。3，两者有着不同的数据：数据仓库中存放历史数据；日常操作数据库中存放的往往只是最新的数据。（2）为什么说数据仓库具有随时间而变化的特征？答：1，数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据，而数据仓库从历史的角度提供信息。2，数据仓库中的每一个关键结构都隐式或显式的包含时间元素，而操作数据库中的关键结构可能就不包含时间元素。（2）试述对于多个异种信息源的集成，为什么许多公