2015-6-数据挖掘与统计决策复习考试提纲与题型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1《数据挖掘与统计决策》课程复习提纲2015.6一、概念题(约20%)1、概念解释(10%)2、是非题(10%)概念题复习要点:1、数据挖掘定义?数据挖掘与经典统计建模的异同点?2、聚类定义?系统聚类、K均值聚类、Kohonen聚类的原理与特点?一般聚类数的判别?聚类结果的判别?3、神经网络定义?感知机模型、BP模型、RBF模型的原理与应用特点(包括数据特点、结构特点、映射特点、权值修正特点、误差表示等)?3、主成分分析与因子分析方法的特点?变量与主成分的关系?变量与公共因子的关系?载荷因子表示公因子与变量的什么关系?载荷因子取值不同表示公因子与变量关系的哪些不同?5、决策树方法的定义?ID3、C4.5、二叉树方法的不同应用特点?决策树的评价标准?决策树的前后剪枝特点?后剪枝的形式评价与树结构评价定义?6、关联分析、时序关联分析方法的特点?K项频繁集(大项目集)、K项大序列的定义?最大频繁(项目)集、最大序列的定义?频繁集(大项目集)支持度、大序列支持度定义?关联规则置信度、时序关联规则置信度定义?规则提取特点?规则检验定义?7、遗传算法的定义与特点?适应值函数、选择算子、交叉算子、变异算子的理论定义?一般设计形式?模式定理的结论表示?2设计与计算题(约80%):二、聚类分析:给出样品属性取值或变量观察值,1)要求计算距离矩阵,并按系统聚类法,以两点最大或最小距离定义两类相似度进行聚类(样本或变量聚类),2)表出聚类过程及谱系图,并判别聚类结果。三、主成分/因子分析:给定变量与因子相关的载荷矩阵,在已知特征根及累计贡献率大于一定比例条件下,1)要求计算或判别选择主要变量、主要主成分、主要因子,2)用因子表示变量或用变量表示主成分。四、神经网络模型:给出已知样本与模型设计要求,1)要求通过样本学习和权值修正获取模型参数,建立神经网络模型(BP、RBF、感知机等),2)应用建立的模型进行检验、分类或预测。五、决策树分析:给出某实例集,1)要求利用ID3算法或C4.5算法或二叉树算法,判别节点与分枝,建立决策树。2)给定检验样本集,对建立决策树进行检验。3)在假定条件下,对决策树进行剪枝判别,计算剪枝形式与剪枝结构评价。六、1)关联分析:给出N个事务对应的物品项、最少支持度和最少可信度,要求用AP方法求最大频繁集和指定项目条件的关联规则。2)时序关联分析:给出N个时间顾客的事务对应的物品项,最少支持度和最少可信度,要求用AP-G方法求最大序列和指定条件的时序关联规则。3)给定检验样本集,要求对提取规则进行检验,要求计算检验的误差。七、遗传算法:1)给出N个个体组成的种群,在指定或设计适值函数下,进行选择、交叉与变异运算;2)给出某一问题,要求设计基因、个体和种群,并针对问题设计合理的适应值函数。参考试题形式:一.概念描述1.数据挖掘是指32.遗传算法中的适应值函数是指3.K-均值聚类是指4.BP神经网络是指5时序关联分析是指二.是非题1.DSS既具有数据驱动功能,又有模型驱动功能。()2.如果两产生式规则的证据相同,则两规则的结论也相同。()3.规则的不确定性是由证据的不确定性和结论的不确定性计算得到。()4启动混合推理一定要有事实支持。()5.在基于模糊产生式规则的不确定性推理中,推理结论的可信度仅与规则和条件的可信度有关。()6决策树的CART算法,是通过信息增益率最大来选择测试属性。()7.在同一实例集下,具有深度越小、叶结点数越多的决策树越优。()8.时序关联分析的Apriori-G方法的最大序列一定包含客户标识。()9.启动混合推理一定要预先给定假设。()10.RBF神经网络的输入层到隐层的映射是线性的。()三、设有五个样本,每样本有n个指标,第i样本用类i表示,i两两之间的欧氏距离阵如下所示,试1)按最小距离聚类,表出聚类过程及聚类谱系图,2)从聚类谱系图中,通过类间距离求最合适的聚类类数。123451021033504472.505625804四.1、设f(x)=x2,x[5,30],设想通过遗传算法求f(x)最小值。若个体为二进制表示,初始个体如下,请设计适值函数,并按要求填写下表个体号初始个体初始个体的编码表示适应度复制数(整数)随机交叉个体号随机交叉点为3时的交叉结果顺序抽取染色体,按变异概率10%、随机变异点为2实施变异的结果127110112213011011319100114480100032、设产品质量有质量指标为Y1,Y2…YM,影响质量的因素变量为X1,X2,…XN,标准质量指标为Z1,Z2…ZM,设想通过遗传算法求一组最优组合x1,x2,…xN,如果采用实数编码,要求为这样的遗传算法设计1)基因与个体表示;2)种群表示;3)适值函数表示。五、设A,B,C,D,E分别表示五种物品,要求通过以下五项业务应用apriori算法分析五种物品的关联程度,求:1)若最少支持度为0.3,求最大频繁集;2)若最少支持度为0.4,求任两项集出现而导致另一项集出现的关联规则。业务标识物品1ACDE2BCD3A4CDE5ABCD六、设每个肺病例有五种症状:发烧(无、低、中度、高),咳嗽(轻微、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音),肺炎和肺结核部分病例集见下表,试用决策树的ID3算法识别根节点对应的症状及分支样本(分支样本用样本号表示)。5样本号病状病例号发烧咳嗽X光所见血沉听诊肺炎1高剧烈片状正常水泡音2中度剧烈片状正常水泡音3低轻微点状正常干鸣音4高中度片状正常水泡音5中度轻微片状正常水泡音肺结核6无轻微索条状正常正常7高剧烈空洞快干鸣音8低轻微索条状正常正常9无轻微点状快干鸣音`10低中度片状快正常七、设在开发某企业的DSS中,利用神经网络模型辅助投资方案选择。以X1、X2、X3分别表示三个评价投资方案指标的定义值,Y表示选择结果。已知两个样本的取值如下:X1X2X3Y10111111假设阈值为0,且连接权初始值为0,调整因子=1。要求:①建立辅助投资方案决策的感知机模型;②当投资方案指标为(X1,X2,X3)=(1,0,0)时,求出相应的选择结果Y。注意:考试时间:2015年7月7日(星期2)上午9:00——11:00地点:信管班:统计班、信计班:340203答疑时间:2015年7月6日(星期1)上午8:30——11:30地点:4212办公室考试允许带计算器注意:1)请缺交作业的同学尽快补交作业。2)请信计、统计学委,把考试同学名单发我邮箱。

1 / 5
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功