大学课程《数据挖掘》试题参考答案范围:1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(DataMining,DM)又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。2.请根据CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,描述数据挖掘包含哪些步骤?CRISP-DM模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1:businessunderstanding:即商业理解.在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么.并将这些目的与数据挖掘的定义以及结果结合起来.2.dataunderstanding:数据的理解以及收集,对可用的数据进行评估.3:datapreparation:数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling:即应用数据挖掘工具建立模型.5:evaluation:对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6:deployment:部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。这种将数据挖掘技术和多媒体信息处理技术有机地结合起来形成的在多媒体数据中进行知识发现的信息处理方法就是多媒体数据挖掘。对多媒体数据进行挖掘并且实现智能化信息检索是未来发展的需求,是一个很有前途的研究方向。1、文本数据挖掘所谓多媒体文本数据挖掘,就是从大量的多媒体文本数据中发现有意义的模式过程。多媒体文本数据挖掘的过程对多媒体文本数据挖掘最行之有效的途径就是将多媒体文本数据结构化后,再对结构化数据采用数据挖掘方法。文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。2、图像数据挖掘图像挖掘是多媒体挖掘的一个分支,图像挖掘可以广泛地应用于图像检索、医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域。其挖掘方法和原型结构存在着巨大的改进空间。3、视频、音频数据挖掘除了静态图像,在数字文档、万维网、广播数据流、个人或专业数据库中,还能获得数字形式的大量音频和视频信息。4、在医学图书馆服务中的应用多媒体数据挖掘对医学信息有很强的适应性。多媒体技术的应用便于医学信息的储存多媒体技术是当今信息技术领域发展最快、最活跃的技术,是新一代电子技术发展和竞争的焦点。数据挖掘的未来发展趋势:未来的热点应用领域网站的数据挖掘(Websitedatamining)生物信息或基因的数据挖掘文本挖掘(Textualmining)多媒体挖掘未来的研究热点发现语言的形式化描述寻求数据挖掘过程中的可视化方法研究在网络环境下的数据挖掘技术加强对各种非结构化数据的挖掘知识的维护更新4.在电信行业中,如何利用数据挖掘技术对用户信用度进行分析数据挖掘有其一般的通用过程,但是在具体应用的时候因为实际情况可能比较复杂,根据具体的情况不同还要做出适当的修改。针对电信行业用户信用度分析,从项目需求的理解和定义开始,经过数据的收集和抽取、清洗、整合的过程,到建立数据挖掘模型,最后经过模型的评估到模型的发布。具体步骤如下:项目需求信用度分析的目标就是要对现有电信客户进行信用评估,通过评估分析建立的挖掘分析模型可以获得客户信用等级的评分,在此基础上可以结合用户分群的结果,将电信客户进行分群,找出不同信用级别的客户群体,然后由数据挖掘人员配合市场推出的各项优惠政策(尤其是存话费、赠话费等),细分市场,使该类优惠政策达到最好的效果。通过对客户信用度的划分,使决策人员能够清晰地看到,了解本网用户的信用度构成,使其在制定、研究营销政策的时候做到心中有数。数据的收集和抽取数据收集和抽取的过程就是要理解、熟悉客户数据,能够将商业理解转化为对数据的理解,从而有针对性的开展数据挖掘。具体包括如下过程:2.1数据源描述对电信客户信用度的评估,主要使用到数据源主要包括:行为数据、客户属性数据。具体到业务层面包含的信息有:客户的档案、身份信息、年龄、性别、历史欠费情况、往月的帐务消费情况等。2.2数据质量描述对获取的各变量进行分析探索,选取可使用的关键变量(如年龄、话费等),可使用图形来展示这些关键的字段的分布。数据准备电信客户的用户群很大,且业务繁杂,拥有多个业务系统,各个系统对于参数的定义和归类也是不尽相同的,统一、整合各个系统中的信息,使之能够达到参数一致化,能够满足挖掘目标的要求,需要处理的数据量也是非常巨大的,具体处理步骤如下:3.1数据的整合3.2清洗数据3.3构建数据3.4选择数据3.5确定训练集和结果集建立挖掘模型信用度挖掘变量很多,数据结构也比较复杂,目前对于其研究也很多,而最常用的挖掘方法为神经元网络和C5.0决策树两种算法。建模之前,我们需要对训练集的数据做修改:即在训练集数据中加入结果字段,供训练模型使用,我们首先根据业务需求人为划定信用度档次,初步将信用度划分为3个层次:欠费回收情况、月均加权区内消费、区内消费变异系数。经过以上三轮信用度划分,可以划分结果为AAA-EEE。欠费回收情况首先反映了信用度的主要方面,如果一个用户欠3个月以上才能缴费或者不能缴费,这样的用户对于电信公司来讲,信用度应该是最差的反之,未发生欠费的用户信用度应该是最高的;划分的第二个指标之所以选择了区内通话费,是因为:在用户消费过程中,长途等消费每个月的波动是比较大的,我们在进行划分档次的时候应该尽量选择比较平稳的指标,所以本文选择了区内通话费,为了剔出1个月区内话费可能的突高情况带来的噪声,采用了近6个月区内消费金额的加权平均数。划分的第三个指标采用了区内消费的变异系数,反映了月区内消费的波动情况,即:越稳定的用户信用级别越高,反之,波动比较大的用户级别低。而后根据两个算法进行建模分析。模型选择模型的选择和实际业务的需求密切相关,和数据挖掘人员对业务逻辑的掌握是分不开的。我们在数据挖掘模型训练的过程中,根据实际经验来判断,信用度划分的准确率最高达到70%左右。考虑到划分信用度的时候采用的是三个输出点,选择的是神经网络模型。模型的训练、比较和优化的过程是数据挖掘项目中的收尾工作,就是不断调整模型参数,观看数据结果,对结果不断比较,根据经验判断优化的过程。最终得出了最后的模型。模型发布为了使市场经营决策人员能够直观地了解用户群在各个信用度指标的分布以便在制定营销政策之前能够了解目标客户群的大小,初步对即将推出的活动的绩效有大致的了解。因此需要进行发布。针对电信可采用报表工具发布。5.请阐述如何利用神经网络发现用户欺诈行为。主要方式是根据以前拥有的用户欺诈数据建立用户属性、服务属性和用户消费数据与用户流失可能性关联的数学模型,找出用户属性、服务属性和用户消费数据与用户欺诈状态的关系,并给出明确的数学公式。只要知道用户属性、服务属性和用户消费数据,就可以计算出用户欺诈的可能性。计费部门可以根据得到的数学模型,随时监控用户欺诈的可能性。如果用户欺诈流失的可能性高于事先划定的限度,就可以重点高频率地检测该用户话费的使用状况,一旦发现欠费就可及时停机,从而大大减少电信企业的损失。基于严格数学计算的数据挖掘技术能够在很大程度上改变以往电信企业在成功获得用户后无法监控用户恶意欠费的状况。收集用户的信息,包括欺诈的,没有欺诈。并对用户欺诈的和没有欺诈的用户经行分类。建立多输入,二输出(有欺诈,没有欺诈)的神经网络。利用收集到的用大部分的历史数据对神经网络经行训练,训练完毕之后,规定精度,用剩下的数据用来检验神经网络的拟合优度。当然在实际中最好是根据历史数据的累积,规定一定的时间间隔,定期对神经网络经行训练,这样能保持神经网络的学习能力和适应度。大体的步骤:1.收集历史的用户信息(包括欺诈的和没有欺诈的,可按各按一半选取数据,也可按照时间中欺诈与没有欺诈的比例进行选取数据),越多多好,这样对神经网络的训练就越来越优,神经网络的。2.建立用户多输入(用户的属性个数),二输出的神经网络。可以是BP,也可以是别的。3.利用收集的数据对建立好的神经网络进行训练。4.对训练好的数据对神经网络经行检验。5.用于用户欺诈发现与预防。参考资料:浙江大学数据挖掘28讲王灿主讲