8 SPSS神经网络

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SPSS—神经网络神经网络神经网络是一个非线性的数据建模工具集合,它包括输入层和输出层、一个或者多个隐藏层。神经元之间的连接赋予相关的权重,训练算法在迭代过程中不断调整这些权重,从而使得预测误差最小化并给出预测精度。您可以设置网络的训练条件,从而控制训练的停止条件以及网络结构,或者让算法自动选择最优的网络结构。发展历史人工神经网络ANN,简称为神经网络ArtificialNeuralNetworks是以计算机网络系统模拟生物神经网络的智能计算系统,是对人脑或自然神经网络的若干基本特性的抽象和模拟。网络上的每个结点相当于一个神经元,可以记忆、处理一定的信息,并与其他结点并行工作。起源于20世纪40年代心理学家和数学家共同提出90年代以来与模糊技术、遗传算法、进化计算等智能方法结合方向发展。神经网络在许多领域,都可以将神经网络和其他统计分析结合起来,获得更深入、清晰的洞察力。例如在市场研究领域,可以建立客户档案发现客户的偏好;在数据库营销领域,可以进行客户细分,优化市场活动的响应。在金融分析方面,可用神经网络分析申请人的信用状况,探测可能的欺诈。在运营分析方面,也可以管理现金流、优化供应链。此外,在科学和医疗方面的应用包括预测医疗费用、医疗结果分析、预测住院时间等。神经网络SPSS神经网络,包括多层感知器(MLP)或者径向基函数(RBF)两种方法。都是有监督的学习技术-即都根据输入的数据映射出关系。都采用前馈结构,即数据从一个方向进入,通过输入节点、隐藏层最后进入输出节点。对过程的选择受输入数据的类型和网络的复杂程度影响。此外,MLP可以发现更复杂的关系,径向基函数RBF的速度更快。区别感知器特别适合简单的模式分类问题,通过对权值的训练,可以使感知器神经元的输出能代表对输入模式进行分类。感知器的学习规则主要通过调整网络层的权值和阙值以便对输入向量进行正确归类;训练规则则通过仿真和训练得到最优的权值和阙值。基于局部逼近网络的径向基函数只需对少量权值进行调整,所以该法在逼近能力、分类能力和学习速度上优于全局逼近网络。神经网络使用这两种方法的任何一种,可以将数据拆分成训练集、测试集、验证集。训练集用来估计网络参数。测试集用来防止过度训练。验证样本用来单独评估最终的网络,它将应用于整个数据集和新数据。案例1数据集bankloan.sav利用此数据集中有效的700个样本数据来创建一个多层感知器的神经网络模型并利用创建的模型来分析余下的缺失数据150个调查用户的信用记录用来观察这些用户的信用好坏。数据库多层感知器实例分析缺失值150,即为潜在客户群首先产生随机数来选择样本数据集转换(Transform)---随机数生成器(RandomNumberGenerators)设置起点(SetStartingPoint)---选中‘固定值(FixedValue)’---填入9191972确定(OK)。多层感知器实例分析多层感知器实例分析将创建分区变量,用于精确的重新创建哪些用于分析的样本;转换--计算变量,在目标变量中填入变量名partition,然后在数学表达式填入计算表达式2*RV.BERNOULLI(0.7)-1,用于产生bernoulli分布数据,数据集名称为partition正值大约占70%,为训练样本;负值大约占30%,为保持样本;0分配给检验样本,本次没有。多层感知器实例分析多层感知器实例分析分析--神经网络NeuralNetwork-多层感知器MultilayerPerceptron选择变量PreviouslyDefault到因变量,选择变量Leveleducation到因子。选择变量age,employ,address,income,debtinc,creddebt,othdebt到协变量多层感知器实例分析单击‘输出(Output)’标签,选择‘ROC曲线’,‘累积增益曲线’,‘增益图’,‘观察预测值’,去掉‘图表’最后选择‘自变量重要性分析’选项栏。单击‘确定(OK)’进行分析。多层感知器实例分析个案处理摘要显示499个分配给训练样本,201个分配给保持样本,150个为潜在客户群多层感知器实例分析结果单位数包括协变量和因子的类别数多层感知器实例分析因为达到了最大时程数,所以估计算法停止。理想情况下应该是因为错误才收敛,这提出了进一步检查的意见。多层感知器实例分析总体来说你的模型有七五成的正确率。矫正超额训练观察到支持样本在预测实际拖欠贷款的客户时表现相对较差支持样本45.8%正确;训练样本59.7%正确怀疑网络可能超额训练;其根据随机变化搜寻显示在培训数据中虚假模式解决方案:指定一个检验样本来保持网络正常运行我们可以通过计算变量来分配训练样本中的一部分为检验样本第二次分析分析设置大于0的进行重新分区使得约20%取值为0;80%的取值为1整体上,大约以前获得过贷款的客户0.7*0.8=0.56作为训练样本0.7*0.2=0.14作为检验样本原来的保持样本还都在因为达到了错误未减少,所以估计算法停止。表明超额训练通过添加一个测试样本得到了解决分类表使用0.5作为界限,过于单一,还需要查看ROC曲线。曲线范围是ROC曲线的数字摘要,对于每个类别,表中的值代表了对于该类别中预测拟概率例如,对于随机选择的拖欠贷款者与随机选择的未拖欠贷款者,就缺省模型而言,前者高于后者的概率为0.854.观察讲预测分类为YES的界限从0.5下降到0.3大致是第二个箱图的顶端和第四个箱图的低端可以在不损失大量潜在优质客户的前提下增加准确找到潜在欠贷者的几率,即第二个箱图从0.5移动到0.3,则细线处相对较少的未欠贷客户重新预测为欠贷者而第四个箱图,则大量欠贷客户会被重新正确的分类为预测欠贷者案例2电信数据telco.sav电信供应商按照顾客使用习惯将顾客群分为4大类若得到新客户的数据,可以针对每个用户提供个性化服务。当前1000名客户资料,建立相应的神经网络,以判断客户所属的客户群。首先,产生随机数种子其次,采用径向基进行分析分区设置零模型会把所有客户归到附加服务组,准确率是0.281;RBF网络获得了0.374的准确率,提高了将近10%;实际上对于附加服务和总体服务客户,网络预测较好,其他客户效果较差;需要找到另外的预测变量来进行分离客户案例3使用多层感知器估计保健成本与住院时间医院跟踪心肌梗塞治疗的病人的成本与住院时间,获取这些测量有助于管理部门在病人接受治疗时候正确管理现有床位。准备数据更改度量方式输出分析报告分析警告doa和der在训练样本中为常数。到达时已死亡或在急救室死亡的患者我们分析生存时间,所以只包括急救之后存活患者。个案处理摘要显示分析中排除的2002个案为前往医院途中或在急救室死亡的患者。分析理想的情况下,值应大致位于由原点出发的45度线上意味着五天内观察的住院时间预测值往往高估了住院时间;而六天以上的观察住院时间往往低估了住院时间;在图的左下方有一组患者很可能还未做手术,左上方有一组患者,观察住院时间为一至三天,因此预测值过大,很可能是这些个案为在医院手术后死亡的患者。分析网络预测的治疗费用效果似乎很好,有三组主要患者左下方主要为未做手术的患者,成本相对较低;下一组患者治疗成本大约为$30,000,做过PTCA手术的患者;最后一组治疗成本超过$40,000,手术费较高,为CABG手术患者,康复时间较长,增加了成本还有许多成本超过$50,000的个案,预测不佳,应该是手术并发症的患者,会增加手术成本和住院时间分析重要性图显示结果由完成的手术过程控制,随后是否出现并发症,再随后是其他预测值。网络在为典型患者预测时效果很好,但是没有手术死亡的患者效果不好,可以创建多个网络。一个网络预测患者结果,是否存活;一个网络预测成本,一个预测住院时间,条件是患者是否存活

1 / 81
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功