第6章现代数据挖掘技术与发展本章学习目标:(1)通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。(2)通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。(3)通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。(4)经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。现代数据挖掘技术与发展•6.1知识挖掘系统的体系结构•6.2现代挖掘技术及应用•6.3知识发现工具与应用•6.4数据挖掘技术的发展•练习6.1知识挖掘系统的体系结构6.1.1知识发现的定义·知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。·知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。·知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.2知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构1.知识发现系统管理器控制并管理整个知识发现过程2.知识库和商业分析员知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。3.数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。4.数据选择确定从数据仓库中需要抽取的数据及数据结构5.知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据6.发现评价有助于商业分析员筛选模式,选出那些关注性的信息7.发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。6.2现代挖掘技术及应用6.2.1规则型现代挖掘技术及应用1.关联规则的基本概念buys(x,“computer”)=buys(x,“finacial_management_software”)age(“30..40”)∧income(“42000..50000”)=buys(x,“high_resolution_TV”)布尔关联规则量化关联规则单维规则多维关联多层关联规则单层关联规则age(“30..40”)=buys(x,“IBMcomputer”)(6.3)age(“30..40”)=buys(x,“computer”)(6.4)2.关联规则的应用目标置信度或正确率可以定义为:(6.5)覆盖率可以定义为“兴趣度”为目标的关联规则的元组数包含的元组数和包含置信度ABABA)(元组总数的元组数和包含覆盖率BABA)(3.关联规则的算法Apriori算法1.找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。2.使用第1步找到的频集产生所期望的规则。Apriori算法的第1步采用了递归方法,算法表示为L1={large1-itemsets};//产生频繁1项集L1for(k=2;Lk-1≠○;k++)do//循环产生频繁2项集L2直到某个r使Lr为空beginCk=apriori-gen(Lk-1);//产生k-项集的候选集foralltransactionst∈DdobeginCt=subset(Ck,t);//事务t中包含的候选集forallcandidatesc∈Ctdoc.count++;endLk={c∈Ck|c.count≥minsup}endAnswer=UkLk第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3,…,Ik,k≥2,Ij∈I,那么只有包含集合{I1,I2,I3,…,Ik}中的项的规则最多有k条。这种规则形如I1,I2,I3,…Ii-1,Ii+1…,Ik→Ii,。这些规则置信度必须大于用户给定的最小置信度。数据库DC1L1事务标识项集项集支持度项集支持度A11,3,4扫描数据库D{1}2{1}2A22,3,5{2}3比较支持度{2}3A31,2,3,5{3}3{3}3A42,5{4}1{5}3{5}3由L1产生C2C2L2项集项集支持度项集支持度{1,2}扫描数据库D{1,2}1{1,2}2{1,3}{1,3}2比较支持度{2,3}2{1,5}{1,5}1{2,5}3{2,3}{2,3}2{3,5}2{2,5}{2,5}3{3,5}{3,5}2项集扫描数据库D项集支持度{2,3,5}{2,3,5}2由L2产生C3L34.关联规则的应用前件和后件规则中的正确率和覆盖率规划覆盖率和正确率的平衡前件后件正确率覆盖率百吉饼奶油干酪80%5%百吉饼橙汁40%3%百吉饼咖啡40%2%百吉饼鸡蛋25%2%面包牛奶35%30%黄油牛奶65%20%鸡蛋牛奶35%15%奶酪牛奶40%8%规划覆盖率正确率低正确率高覆盖率高规划很少是正确的,但可以使用规划多数情况下是正确的,而且可以经常使用覆盖率低规划很少是正确的,一般不被使用规划多数情况下是正确的,但很少被使用6.2.2神经网络型现代挖掘技术1.神经网络及其学习方法神经网络的工作过程主要分两个阶段:学习阶段和工作阶段。学习方式则有三种:有教师(监督)学习、无教师(监督)学习和强化学习。6.2.2神经网络型现代挖掘技术2.基于神经网络的数据挖掘(1)基于自组织神经网络的数据挖掘技术一种无教师学习过程、可以提取一组数据中的重要特征或某种内在知识(2)模糊神经网络类型数据挖掘技术模糊BP网络、模糊Kohonen聚类网络、模糊推理网络、模糊ART模型等模糊BP网络中,样本的希望输出值改为样本相对各类的希望隶属度输出表达方面实现了模糊化,而且将样本的隶属度引入了权系数的修正规则中,使权系数的修正规则也实现了模糊化。6.2.2神经网络型现代挖掘技术3.后向传播模型(BP,BackPropagation)及其算法具体过程如下:⑴选定p个样本;⑵权值初始化(随机生成);⑶依次输入样本;⑷依次计算各层的输出;⑸求各层的反传误差;⑹按权值调整公式修正各权值和阀值;⑺按新权值计算各层的输出,直到误差小于事先设定阀值;变换函数可以采用这样几种:⑴阶跃函数、⑵S型函数、⑶比例函数、⑷符号函数、⑸饱和函数、⑹双曲函数6.2.2神经网络型现代挖掘技术4.神经网络的应用47岁收入6500元节点借贷拖欠?连接0.470.650.39Weight=0.7Weight=0.1年龄收入0.47(0.7)+0.65(0.1)=0.396.2.3遗传算法型现代挖掘技术1.遗传算法的基本原理达尔文的“适者生存”理论、继承的信息由基因携带、多个基因组成了染色体、基因座、等位基因、基因型和表现型染色体对应的是一系列符号序列,通常用0、1的位串表示进行生物的遗传进化。在这一过程中包括三种演化操作:在父代基因群中的双亲选择操作、两个父代双亲产生子代基因的交叉操作和在子代基因群体中的变异操作。两种数据转换:从表现型到基因型的转换,另一种是从基因型到表现型的转换遗传算法实质上是一种繁衍、检测和评价的迭代算法最大优点是问题的最优解与初始条件无关,而且搜索最优解的能力极强6.2.3遗传算法型现代挖掘技术2.遗传算法的处理过程(1)编码并生成祖先群体要用遗传算法解决问题,首先要定义有待解决的问题:F=f(a,b,c),F∈R,(a,b,c)∈ΩF=f(a,b,c)是属于实数域R的一个实数,也是每一组解(ai,bi,ci)∈Ω的适应度的度量,算法的目标是找一个(ao,bo,co),使F=f(ao,bo,co)取最大值。(2)计算当前基因群体中所有个体的环境适合度(3)用适应函数评价每一个体对环境的适应度(4)选择适应度好的生物个体进行复制(5)选择适应度好的生物个体进行复制交叉配对繁殖(6)新生代的变异操作6.2.3遗传算法型现代挖掘技术编码并生成祖先群体计算当前基因群体中所有个体的适合度是否满足最优解条件?选择群体中适应值高的个体进行复制交叉操作变异操作终止6.2.3遗传算法型现代挖掘技术3.遗传算法的应用用四个染色体来定义客户类型:基因1:客户的年龄下限基因2:客户的年龄上限基因3:客户的收入水平基因4:客户的人口状况(人口状况可以分成:少(1至2人)、一般(3至4人)和多(5人以上)三种状况)客户ID年龄累计购买金额收入家庭人口性别10985461843中等4女18595490中等2男47382613628低5男749123618463高6女95623298463高3男8552632274中等2男58753521846低2女64957480中等3女769572721634高5男6583945842低1女6.2.3遗传算法型现代挖掘技术所有的生物个体按顺序排放在一张二维表格上,使每个生物体的上、下、左、右都与其它生物体相邻接。(1)竞争复制(2)杂交繁殖(3)异变处理年龄下限年龄上限高收入中等收入低收入人口少人口一般人口多客户群13864是是否否是是客户群22650是否是是否是客户群32040否是是是否否6.2.4粗糙集型现代挖掘技术1.粗糙集技术2.粗糙集的应用表中的970230、980304、990211客户的“赞扬竞争对手的产品”属性是相似的;980304、990327客户的“挑选产品时间很长”和“客户流失”属性是相似的;970230、990211客户的“赞扬竞争对手的产品”、“挑选产品时间很长”和“距最后一次销售时间”属性是相似的;这样,围绕“赞扬竞争对手的产品”属性就可以产生两个初等集合:{970230、980304、990211}和{970102、980625、990327};而“赞扬竞争对手的产品”和“挑选产品时间很长”属性可以生成三个初等集合:{970102、980625、990327}、{970230、990211}和{980304}。客户编号赞扬竞争对手的产品否挑选产品时间很长距最后一次销售时间客户流失否970102否是长是970230是否长是980304是是很长是980625否是正常否990211是否长否990327否是很长是6.2.4粗糙集型现代挖掘技术因为客户970230已经流失,而客户990211没有流失,由于属性“赞扬竞争对手的产品”、“挑选产品时间很长”和“距最后一次销售时间”是相似的。因此,客户流失不能以属性“赞扬竞争对手的产品”、“挑选产品时间很长”和“距最后一次销售时间”作为特征进行描述。而970230、990211就是边界实例,即它们不能根据有效知识进行适当的分类。余下的客户970102、980304和990327所显示的特征,可以将他们确定为已经流失的客户。当然,也不能排除970230和990211已经流失,而980625毫无疑问没有流失。所以客户集合中“流失”的下近似集合是{970102、980304、990327},上近似集合是{970102、970230、980304、990211、990327}。同样,980625没有流失,但是不能排除970230和990211流失。因此,客户“没有流失”概念的下近似是{980625},上近似是{970230、980625、990211}。6.2.5决策树型现代挖掘技术1.决策树技术ID3,该算法建立在推理系统和概念学习系统的基础之上,基本步骤是。(1)创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。(2)否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。(3)对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。(4)使用同样的过程自顶向下的递归,直到满足下面的三个条件中的一个时,就停止递