SPSS数据挖掘方法概述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1数据挖掘方法概述一、主要概念......................................................................................................................................1二、主要方法概述..............................................................................................................................11、神经网络方法概述.................................................................................................................12、聚类方法概述.........................................................................................................................93、主成分分析..........................................................................................................................144、决策树概述..........................................................................................................................175、关联分析..............................................................................................................................216、遗传算法概述.......................................................................................................................23一、主要概念1、数据挖掘(datamining,简记DM):采取专门算法对数据库中潜在的、不明显的数据关系进行分析与建模。2、CRISP-DM(CRoss-IndustryStandardProcessforDataMining):各企业中被广泛采用的数据挖掘标准流程。包括6个步骤:商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。3、Clementine:SPSS公司推出的企业级数据挖掘软件产品,其包括的数据挖掘主要方法为:神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。二、主要方法概述1、神经网络方法概述主要问题:(1)什么是神经网络?(2)神经网络有什么用?(3)如何建立神经网络?(4)如何应用神经网络?(1)人工神经网络“人工神经网络”(ARTIFICIALNEURALNETWORK,简称A.N.N.)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。神经网络在一定学习规则下,对提供的学习样本进行学习,从中获取特征信息,并存储(记忆)在相应的权值及参数上。学习后,对于新的输入数据,网络可通过已获取的权值及参数,计算网络的输出。神经网络具有高度的非线性、容错性与自学习、自适应更新等功能,能够进行复杂的逻辑操作和非线性关系实现。目前神经网络模型在辅助管理与决策中,应用广泛。(2)神经网络的作用已证明结论:对于函数),,(21nxxxf,在满足一定条件下,可以找到函数),,(1nxx2和实常数),,2,1(,miCii和),,1;,,1(njmiwij,构造函数),(21nxxxf:minjijijinxwCxxxf1121)(),(使对于任意小的,满足),,(),,(max2121nnxxxfxxxf(3)简单神经网络模型(感知机模型)的建立问题引入:设想对购买手机的顾客制定销售方案,用购买量与购买频率两个指标来判别,即:购买量大,购买频率大,则给予优惠折扣;购买量大,购买频率小,则给予优惠折扣;购买量小,购买频率大,则给予优惠折扣;购买量小,购买频率小,则不给予优惠折扣问题:这样的销售方案判别是否可以建立模型表示?设想:分别对购买量、购买频率以及是否优惠的两种取值定义为1,0,则上述四种方案可以用四个样本表示,设每一样本具有两个评价指标X1,X2,一个评价结果Y:样本号X1,X2Y1111210130114000构造两个输入节点、一个输出节点、二层结构的神经网络模型:(*)O1=f(211)jjjxwxj取值1或0,w1j(j=1,2)待求作用函数:f(x)=1x00x≤0结构:X1○W11X1○YX2○W12X23学习样本:(x1(k),x2(k),Y1(k)),k是样本数,k=1,2,3,4关键问题:如何获取模型(*)中的权数w1j,使计算结果与样本的评价结果的误差最小?计算w1j方法:随机赋予w1j初始值,通过对每一样本的学习,获取计算结果与样本评价结果的误差,修正w1j的取值,使经过一定次数的学习后,总误差能达到期望值,此时修正得到的w1j就是所要获取的权数,即设δ(k)=∣Yk-Ok∣,Yk是第k个样本评价结果(称期望输出或实际输出),Ok是计算结果。通过第k个样本的输出误差修正权数的公式为:jw1(k+1)=jw1(k)+△jw1(k),△jw1=αδ(k)Xj其中,α0,α称收敛因子。第k个样本的误差为:误差ek=|δ(k)|,总误差E(k)=E(k-1)+ek计算过程:1)设α=1,随机赋予w1j的初始值为0,即w11(k=1)=0,w12(k=1)=02)对第一个样本进行学习:把X1=1,X2=1代入(*),有O=f(w11×X1+w12×X2)=f(0×1+0×1)=f(0)=0δ(k=1)=∣Yk-Ok∣=1修正权数:△w1j=αδ(k)Xj△11w=δ(k=1)X1=1×1=1△w12=δ(k=1)X2=1×1=111w(k=2)=11w(k=1)+△11w=0+1=1,w12(k=2)=w12(k=1)+△w12=0+1=1总误差E(K=1)=E(K=0)+ek=0+δ(k=1)=13)对第2个样本:X1=1,X2=0,O=f(1×1+1×0)=f(1)=1δ(k=2)=∣Yk-Ok∣=0修正权数:△w1j=αδ(k)Xj△11w=δ(k=2)X1=0×1=0△w12=δ(k=2)X2=0×0=011w(k=2)=11w(k=1)+△11w=1+0=1,w12(k=2)=w12(k=1)+△w12=1+0=14总误差E(K=2)=E(K=1)+ek=1+δ(k=2)=14)对于获取的权数11w=1,w12=1,有对第3个样本:X1=0,X2=1,O=f(1×0+1×1)=f(1)=1=Y对第4个样本:X1=0,X2=0,O=f(1×0+1×0)=f(0)=0=Y5)结论:11w=1,w12=1是使计算结果与样本的评价结果误差最小的权数。将11w=1,w12=代入模型(*),则模型建立完毕。可以利用这个建立的模型,对任一组输入的X1,X2,在未知其输出(评价结果)时,通过(*)计算得到结果。(4)误差逆传播神经网络模型(ErrorBack-Propagation,简记BP模型)在简单神经网络的基础上,进行形式推广,对多个输入、多个输出、多层结构,不同作用函数的情况进行建模分析。最常用的是BP神经网络。BP神经网络基本原理BP神经网络模型是一种具有三层或三层以上的前馈型的、按梯度算法使计算输出与实际输出的误差沿逆传播修正各连接权的神经网络模型。网络按有教师示教的方式进行学习,当一对学习模式提供给网络后,神经元的激活值,从输入层经各中间层向输出层传播,在输出层的各神经元获得网络的输入响应,并按减少希望输出与实际输出偏差的方向,从输出层经各中间层逐层修正各连接权,最后回到输入层,随着这种误差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。x1○wi1○1vti○x2○wi2○i○t节点x3○节点vtm○…win○M○xn○输入信息正向传播反向传播实际输出与网络输出误差BP网络模型的特点:模型表示:Yi=f(njijijxw1)i=1,2,3…,m,xi取值(-∞,+∞)Ot=f(mjtitirYV1)t=1,2,3…,q,Ot取值(0,1)模型结构:至少三层(至少有一隐层),多个输入,一个或多个输出作用函数(Sigmoid型函数):f(x)=1/(1+ex)x(-,+)f(x)(0,1)5学习样本:(x1(k),x2(k),x3(k),…,xm(k),D1(k),D2(k),D3(k)…,Dq(k)),k是样本数,k=1,2,3…,P权值修正公式:设δi=Di-Oi,Di是期望输出(实际输出),Oi是网络计算输出1)隐层与输出层连接权的修正:tiV(K+1)=tiV(K)+△tiVittkttiYOOV)1(1)(,iY是隐节点输出2)输入层与输出层连接权的修正:ijw(K+1)=ijw(K)+△ijw,jjjtiqtktijxYYVhw)1(11)(,jx是输入节点输入。3)第K个样本误差qtktqtktktkODE12122/)(2/)()()()(总误差E=pkkE1(5)基于神经网络辅助医疗绩效的评定案例:为了对城市医疗能力进行评价,收集一批有代表性的城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家的评价结果,旨在建立评价城市的医疗建设绩效的模型,应用于评价任意城市的医疗建设绩效。收集数据见表1.1(单位:万人)。表1.1样本病床数医生数工作人员数诊所数死亡率专家评价的医疗能力上海gvvvbv北京avvvgv沈阳bbbagb武汉gggaba哈尔滨vgabaa重庆ggbbbb成都aggaaa6兰州vgagvv青岛gbvvag鞍山gaabvg其中,v——非常好,g——好,a——一般,b——差需要评价的城市数据见表1.2。表1.2样本病床数医生数工作人员数诊所数死亡率专家评价的医疗能力天津bgbga广州aggga南京bgggb西安ggagg长春gggag太原vgggv大连babag济南vvvga抚顺gbbbg建立评价的BP神经网络模型:1)将取得的10个样本分别量化:定义v、g、a、b的取值为v=1.5,g=0.5,a=-0.5,b=-1.5(1)也可以定义:v=3,g=1,a=-1,b=-3v=6,g=2,a=--2,b=-6v=10,g=7,a=4,b=1由(1)定义可得上海等10个城市样本取值见表1.3。表1.3样本病床数医生数工作人员数诊所数死亡率专家评价的医疗能力转换值网络输出上海0.51.51.51.5-1.51.50.90.8885北京-0.51.51.51.50.51.50.90.9581沈阳-1.5-1.5-1.5-0.50.5-1.50.10.1215武汉0.50.50.5-0.5-1.5-0.50.370.38266哈尔滨1.50.5-0.5-1.5-0.5-0.50.370.369重庆0.50.5-1.5-1.5-1.5-1.50.10.1168成都-0.50.50.5-0.5-0.5-0.50.370.346977兰州1.50.5-0.50.51.51.50.90.8998青岛0.5-1.51.51.5-0.50.50.6330.6419鞍山0.5-0.5-0.5-1.51

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功