SPSSModeler培训(1)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SPSSModeler培训(1)2培训内容第一章SPSSModeler简介第二章读取数据文件第三章数据质量第四章数据处理第五章寻找数据之间的关系第六章复杂数据处理3第一章SPSSModeler数据挖掘简介内容:数据挖掘概念和技术简介介绍CRISP-DM(跨行业数据挖掘标准流程)介绍数据挖掘环境介绍基本操作数据挖掘定义:用已验证的方法从大量数据中发掘出可采取行动的内在知识,从而改善企业运营。已验证的方法数据知识改善运营数据挖掘技术:预测与分类聚类关联性分析序列分析异常监测时间序列分析知识数据数据数据运营数据挖掘4关联可能一起发生的事件关联分析51主页2电子商店3结帐确定事件发生的序列序列相关分析6123基于事物的属性进行自动归类聚类分析7教育程度非大学毕业大学毕业收入高收入低收入对将来发生的事情进行预测预测与分类8从正常群体中筛选出行为异常的个体异常分析9基于事物发展的延续性和随机性预测事物未来的发展时间序列分析1011CRISP-DM过程模型跨行业数据挖掘标准过程(CRISP-DM)定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准六个阶段:商业理解数据理解数据准备建模模型评估结果发布12CRISP-DM——商业理解商业理解数据理解数据准备建立模型模型评估结果发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估13预测应用相关的时间窗定义初始期:用于计算用户价值(当前ARPU值),确定适合客户维系活动的客户群体。用于评估客户未来一年内的客户价值以及客户价值增长的可能性用于描述流失客户历史通话行为特征及产品消费特征观察期:用于构造流失预测模型分析指标的时间区域用于构造固定期限合同客户是否重新续约的时间区域用于构造客户流失类型预测模型模型分析指标的时间区域预测期:客户流失状态出现的时间区域客户不再选择固定期限续约状态出现的时间区域客户维系相关数据挖掘模型观测客户行为的时间窗14数据挖掘项目实施过程——客户价值评估举例业务目标——是否只关注客户未来价值是否成长而不考虑客户未来的价值等级?客户价值等级如何划分?分析目标范围——分析的范围是所有的客户还是部分产品的客户?时间窗——预估多长时间段以后的客户价值?客户价值等级定义是以多长时间段的价值为参考依据?业务分析思路假设——哪些因素能决定客户未来的价值成长可能性?客户年龄、职业、最近一年的累积话费增长率、同龄人中的价值等级等数据挖掘目标细化——是否针对客户未来变成其它任意等级的可能性进行评估?是否需要把预付费客户和后付费客户分开?15CRISP-DM——数据理解商业理解数据理解数据准备建立模型模型评估结果发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告16数据挖掘项目实施过程——客户价值评估举例数据字典描述业务假设验证——主要业务假设参考因素和分析目标的关联程度如何?业务假设不成立业务假设成立数据质量分析——关注的因素数据质量如何?缺失率是否严重?√17CRISP-DM——数据准备商业理解数据理解数据准备建立模型模型评估结果发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析18数据挖掘项目实施过程——商铺价值成长性评估举例缺失值填补——客户年收入数据缺失,补入一定范围内的随机数?还是常值?还是建立另一个预测模型通过其它客户年收入来填补客户年收入缺失值?清理异常数据——哪些客户由于特殊情况客户年收入填写失真?哪些客户年收入数据有问题?派生衍生变量——最近3个月的交易量转换成交易量增长百分比;开户日期转换成开户时长等19CRISP-DM——建立模型商业理解数据理解数据准备建立模型模型评估结果发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述20精确营销分析中涉及的算法概述通过有监督的学习算法在历史营销数据的基础上进行学习,获取客户当前属性和近期行为特征和客户未来行为发展趋势之间互相影响的数量关系,从而根据客户现有属性及行为对客户将来行为趋势作出一定的判断。通常,我们用连续性数值或定性分类数值作为描述客户行为趋势的主要方式。而用定性值描述客户未来一段时间内的行为趋势是这类分析中最常见的方法。如:客户未来价值的评估,客户流失标志等。不同类型目标值适用的算法:连续型目标值决策树、线性回归、广义回归、神经网络、支持向量机分类定性目标值决策树、决策列表、神经网络、广义回归、逻辑回归、判别式、支持向量机、贝叶斯网络、Cox回归是否允许使用黑盒算法神经网络、支持向量机属于黑盒算法21不同数据模型结果比较分析之初很难清晰定义哪种算法拟合效果最好准确性不是衡量不同模型效果的唯一标准需要多角度去评估模型的效果(准确性、查全率、纯度、提升度等)收益图提升图22CRISP-DM——模型评估商业理解数据理解数据准备建立模型模型评估结果发布结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策23数据挖掘项目实施过程——客户价值评估举例参考因素的业务正确性——例如:用作评估客户未来价值成长可能性的参考因素(客户持有产品数)是当前最新数据还是在预测时间周期前的历史数据?业务行动——对未来贡献可能提高的客户采取哪些政策倾斜?哪些客户是需要采取营销资源倾斜的?活跃客户评分分组VIP客户评分分组24CRISP-DM——结果发布商业理解数据理解数据准备建立模型模型评估结果发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结25数据挖掘项目实施过程——客户价值评估举例客户价值评估列表未来具备高价值的客户客户价值评估决策树模型结果26SPSSModeler简介内容熟悉SPSSModeler中的工具和面板介绍可视化编程的思想目的初步了解SPSSModeler的功能27SPSSModeler用户界面数据流区域工具栏菜单栏选项板区节点数据流,输出和模型管理器项目窗口28可视化编程节点一个图标代表在SPSSModeler中进行的一个操作工作流一系列连接在一起的节点选项板包含一系列不同功能的图标29选项板源节点用来将数据读入SPSSModeler中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意:建模算法产生生成的模型30增加一个节点在选项板上双击节点,自动放置节点到数据流区域注意:它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下未选择选择当节点在选项板中被选中后,会变成淡蓝色31编辑一个节点在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作32连接节点使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键未选中的节点(灰白色)被选中的节点(淡蓝色)33删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”34关于连接节点:源节点源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点35关于连接节点:终端节点终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点36注释流和节点传递重要的信息在流中标明注释添加流用途的小结,方便其他程序应用37SPSSModeler客户端和服务器端SPSSModeler可以运行在客户端和服务器端两种模式下默认的模式是客户端在菜单“工具”中选择“服务器登录”注意SPSSModeler客户端和服务器端版本必须匹配38帮助菜单帮助主题CRISP-DM帮助教程软件使用辅助选项帮助键盘代替鼠标操作这是什么39第二章读取数据文件内容SPSSModeler中可以读取的数据格式读取文本数据文件读取Statistics数据文件使用ODBC读取数据库查看数据SPSSModeler中的数据类型和字段方向保存SPSSModeler数据流目的介绍数据读入SPSSModeler的一些方法40SPSSModeler中读取数据格式文本文件Statistics数据文件ODBC兼容的数据库SAS数据文件用户输入文件41文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用变项文件节点读取数据如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文本文件导入固定文件节点读取文件SmallSampleComma.txtSmallSampleFixed.txt42读取自由字段文本文件添加变量文件节点到数据流区域编辑节点指向文件SmallSampleComma.txt通过选择“类型”条目检查结果43读取固定字段文本文件移动一个固定文件节点到数据流区域编辑这个节点指向文件SmallSampleFixed.txt构造4个新字段,列出变量名和字段长度44读取Statistics数据文件添加Statistics文件节点到数据流区域编辑节点,指向文件SmallSample.savStatistics数据文件有特殊的“标签”:变量标签描述字段数值标签附上解释数值的编码45数据库节点使用数据库节点前必须配置ODBC驱动去指定数据库的位置“控制面板--管理工具”选择ODBC选择“添加…”备注:SPSS专用ODBC可从上下载46TierDatabaseODBCdriver1DB2UDBforWindows/UNIXversion9.1,9.5SPSSOEM5.3DB2WireProtocol*11SQLServer2000SQLServerODBCdriverversion2000.85.1117.000forWindows32-bitand2000.86.1830.00forWindows64-bitSPSSOEM5.3SQLServerWireProtocol*11SQLServer2005SQLNativeClientdriverversion2005.90.3042.00SPSSOEM5.3SQLServerWireProtocol*11SQLServer2008SPSSOEM5.3SQLServerWireProtocol*11Oracle10G(10.2),11g(11.0)SPSSOEM5.3OracleWireProtocol*11TeradataV2R6,V12TeradataODBCdriverversion12.00.00.002NetezzaPerformanceServer4.0NetezzaODBCDriverversion4.05.00.7731*22DB2/400V5R4,V6R1SPSSOEM5.3DB2WireProtocol*12SybaseIQ12.7SybaseIQODBCdriverversion9.00.02.10232HPNeoview2.0HPODBC2.0version3.51.230.30onWindowsHPNeoviewO

1 / 115
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功