客户关系管理4_ModelerIntroduction

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

应用Modeler进行客户数据挖掘分析Modeler界面四个工作区域:数据流区、节点区(选项板)、管理器区、工程管理区建模:通过连接节点构成数据流建立模型节点类型数据源节点:将数据引入SPSSModeler记录处理节点:对数据记录执行操作,如选择、合并和追加等字段选项节点:对数据字段执行操作,如过滤、导出新字段等图形节点:在建模前后以图表形式显示数据建模节点:使用SPSSModeler中提供的建模算法输出节点:生成可在SPSSModeler中查看的数据、图表和模型等多种输出结果导出节点:生成可在外部应用程序中查看的多种输出2Modeler数据分析步骤读取数据数据整理字段和记录:数据初处理数据理解建模模型评估结果发布3构建数据流的基本操作节点增加节点删除节点的编辑节点连接:以形成数据流4一、数据源可变文件:从自由格式文本文件(其记录包含的字段数不变,但包含的字符数可改变)中读资料;固定文件:从固定字段文本文件中读入资料(其字段没有被分隔,但开始位置相同且长度固定);数据库:使用ODBC来源节点从其它各种数据库中导入资料Excel用户输入:字段名、字段类型、值,生成所有组合或按顺序的数据序列5数据类型数据存储类型:字符串型、整数型、实数型、日期型、时间型等;数据类型:连续型、离散型、标志型、集合型、有序集合、无类型;标志:用于只取两个具体值的数据(Yes/No,0/1)集合:用于描述带有多个具体值的数据(地区);有序集合:用于描述带有多个具体值且有顺序的数据(教育程度)6二、记录选项选择:根据具体条件从资料流程中选择或排除某一记录子集;抽样:限制通过流的记录数或排除一定比例的记录;汇总:把一系列输入记录变换成汇总性输出记录;排序:根据一个或多个字段值对记录进行升序或降序排列7三、字段选项类型:指定字段的一系列重要属性;过滤:(1)从通过的记录中过滤或剔除字段;(2)重命名字段;(3)把字段从一个来源节点映射到另一个填充:替换字段值以及改变存储类型8Modeler模型的类型(1)决策树模型用于分类,基于一组决策规则来预测或分类未来的观测值。C&RT(分类和回归树)节点生成可用于预测和分类未来观测值的决策树CHAID使用卡方统计量来生成决策树,以确定最佳的分割。CHAID与C&RT节点不一样,它可以生成非二元树,这意味着有些分割将有多于两个的分支。C5.0节点构建决策树或规则集。目标字段必须为分类字段。9Modeler模型的类型(2)神经网络模型神经网络节点使用的模型是对人类大脑处理信息的方式简化了的模型。只需要最少的统计或数学知识就可以对其进行训练或应用。10Modeler模型的类型(3)聚类模型K-Means节点将数据集聚类到不同分组(或聚类)TwoStep节点使用两步聚类方法。第一步完成简单数据处理,以便将原始输入数据压缩为可管理的子聚类集合。第二步使用层级聚类方法将子聚类一步一步合并为更大的聚类。Kohonen节点会生成一种神经网络,此神经网络可用于将数据集聚类到各个差异组。11Modeler模型的类型(4)关联模型将一组条件与一个特定结论(例如决定购买某样东西)相关联广义规则归纳法(GRI)节点将发现数据关联规则。例如,购买了剔须刀的客户在购买剔须膏之后,还可能会购买剔须霜。Apriori(先验)节点从数据抽取一组规则,即抽取信息内容最多的规则。序列节点可发现连续数据或与时间有关的数据中的关联规则。例如,一个购买了剃刀和须后水的顾客可能在下次购物时购买剃须膏。12四、图形使用图形节点对数据进行探索性分析散点图分布图直方图集合网络图……13建模分析(1):CHAID决策树背景:某电话公司的数据仓库包含有关该公司的5000名客户对特定促销活动响应的信息。数据中包括客户年龄、职业、收入和电话使用统计量。其中有三个“目标”字段,显示客户是否响应这三种促销。公司希望利用此数据帮助预测未来中最有可能对类似的促销活动作出响应的客户。数据源:customer_dbase.sav14使用CHAID决策树开发模型,用以预测最有可能响应某一次促销活动(Response_01)的客户。方法:不使用特征选择。数据集中的所有预测变量字段用作CHAID树的输入。使用特征选择模型。使用特征选择节点选择最佳的10个预测变量,然后将其输入到CHAID树中。15添加类型节点并将response_01的方向设置为输出;将客户ID(custid)和其他响应字段(response_02和response_03)的方向设置为无;将所有其他字段的方向设置为输入;添加特征选择建模节点;执行流以生成特征选择模型。16数据流生成的特征选择模型显示了所找到的对预测非常有用的字段,选择前10个预测变量17CHAID分析结果18结果解释查看器-生成树第二个树比第一个树包含的树节点要少,但其是否能够有效分出对于促销活动相应的客户?有效性比较-收益选择目标类别为1(即响应营销活动的),将树的终端节点分组为四分位数。要比较两个模型的有效性,可查看每个表中四分位数的提升(即指数值的变化)。同时考虑终端叶子节点的数量19建模分析(2):C&RT决策树分类和回归树节点(C&RT)是一种基于树的分类和预测方法,此方法使用递归分区将训练记录分割为多个具有相似的输出字段值的段。背景:将C&RT决策树模型应用于有线电视销售的客户分析,其中的目标字段为是否有意预订有线电视交互服务。预测变量字段包括年龄、性别、教育、收入类别、每天看电视的时间和子女数(按有序集合编码,值5表示5个或更多)。数据源:NewsChan.sav20类型节点设置NEWSCHAN设置为标志,方向设置为输出;其他所有字段用作预测变量(输入)。模型参数设置交互会话选择专家模式,修剪树和使用标准误规则,最小杂质改变值设置为0.003(增加此值可倾向于生成较简单的树)。停止标准:最小绝对临界值为25和10。21执行节点。此时将出现交互树窗口,在其中可以生成并编辑树。生成树和修剪(五层和五个终端节点)根据当前树生成模型可使用此流生成模型,将生成的NEWSCHAN1模型连接到类型节点。并将其连接表节点并执行流。22数据流23结果解释单击交互树窗口底部的收益选项卡,选择1为目标类别以查看响应“是”的收益。收益:节点中具有目标类别的数量/占总体的百分比响应:节点中具有目标类别的百分比指数值:大于100%的节点表示,通过从这些节点中选择记录而不是从整个样本中随机选择记录,能够有更多的机会找到愿意接受预订的用户。选中目标节点,生成“选择节点”从总体数据中生成满足目标类别的样本生成模型——导出到表(预测值、置信度)24建模分析(3):关联分析与客户描述关联规则分析的两种方法:可视化技术(例如Web图节点)关联规则模型背景:超市客户数据,包括客户基本信息和购买商品信息,通过关联分析寻找客户购买产品之间的关系并且按人口统计信息(年龄、收入等)刻画其目标客户群体的特征数据源:BASKETS1n文本数据25数据流构建类型节点设置读取值设置类型:将用户卡号cardid的类型设置为无类型,统计数据的方向均设置为无(在模型中不使用),产品类别设置为标志类型,并将方向设置为双向(同时作为模型的输入和输出变量)。加入表节点:进行数据浏览三大类型数据:购物篮信息(卡号、购买价格、支付方式),持卡人信息(性别、住房、收入、年龄),商品类型信息(蔬菜水果类、鲜肉类、奶制品、罐头蔬菜类等等)26模型建立加入web图节点加入关联分析Apriori\CARMA\GRI模型(一般规则归纳法)Apriori模型可以接受两种数据排列方式,GRI和CARMA只接受一种排列方式;只接受名义字段,且字段在方向设定时必须为双向。设置模型参数•支持度S=P(A∪B)•置信度C=P(B|A)•Lift=P(AUB)/P(A)P(B)2728结果解释GRI关联分析结果:多种商品之间存在关联;Web图29设置web图选择全部产品类型字段,仅显示真值标志(同时为T的购买记录)拉动链接数显示滑块,当显示链接高于100时,可获得三个强链接Web输出控件的对话框中可指定弱连接和强连接(单击工具栏上的黄色双箭头按钮,展开显示)在web图设置选项中可预设30结果解释三类关联商品突出显示:鱼和果蔬;酒和糖果;啤酒、冷冻肉和罐装蔬菜决策建议:商品陈列:在摆放货架时,应该把罐装蔬菜、冷冻肉品和啤酒放在相邻的位置,把酒和糖果放在一起;客户细分:三种关联产品类别意味着三种不同购买习惯的客户31客户细分和描述根据客户购买的产品类型标识了三个客户群,但是还要知道这些客户是谁,即识别他们的人口统计学特征,需要为每个群中的每名客户添加标志使用规则归纳(C5.0模型,除了生成决策树外还可以生成规则)来基于规则描绘这些标志的特征,可以实现这一点。32构建数据流使用创建的Web图,可以自动生成每个群的标志。使用鼠标右键,单击fruitveg和fish之间的链接,并选择为链接生成导出节点。加入新类型节点,并进行参数设置:输入、输出变量。加入C5.0模型节点,设置为输出规则集33数据流34结果解释规则1用于Tifincome=16900andsex=MthenT购买“非健康食品”的客户特征为收入小于16900且性别为Male决策建议:在零售领域,可能会使用这种客户组确定特殊优惠目标,以提高促销响应率。35建模分析(4):Logistic回归分析Logistic回归可根据输入字段的值对记录进行分类。这种统计方法类似于线性回归,但是它使用的是分类目标字段而非数值目标字段。背景:假设某个电信服务提供商非常关心流失到竞争对手那里的客户数。如果可以使用服务使用数据预测有可能转移到其他提供商的客户,则可通过定制服务使用数据来尽可能多地保留这些客户。因为目标含有两个截然不同的类别,因此将使用二项模型。如果目标中含有多个类别,则会转而创建多项模型。数据源:telco.sav36类型节点设置添加类型节点以定义字段,确保所有类型都已正确设置。例如,值为0和1的大多数字段都可看作是标志字段。流失字段(churn)的类型设置为标志,并将其方向设置为输出。所有其他字段的方向应设置为输入。37数据流构建将特征选择节点添加到SPSS文件节点并运行,从生成的模型节点中创建过滤节点,使用过滤节点选择被认为很重要的数据来用作预测变量。将Logistic节点添加到超节点。在Logistic节点上,单击“模型”选项卡并选择二项过程。在二项过程区域,选择前进法(逐步向模型中增加预测变量)。38数据流39结果解释获得客户流失的五个关键性影响变量分类表:识别流失客户的准确率42.4%,识别非流失客户的准确率92.3%,总体准确率79.2%方程中的变量:回归系数、显著性输出表节点:每个客户的流失与否的概率40建模分析(4):Logistic回归分析背景:假设该电信服务提供商已按照服务使用模式对其客户群进行了划分(custcat字段),将这些客户分类到四个组中。使用人口统计数据预测客户的所属类别。数据源:telco.sav类型节点设置:客户类别字段(custcat)的方向设置为输出。所有其他字段的方向都应设置为输入。过滤节点设置:使用过滤节点以选取相关字段(地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别)。其他字段可以排除在此分析之外。41数据流构建添加Logistic节点,参数设置:选择多项式Logistic,单击模型选项卡并选择逐步法。在“专家”选项卡上,选中专家模式,选中输出,然后在“高级输出”对话框中选中分类表。42数据流43结果解释回归方程显示在人口统计指标中,模型识别出可用于预测客户分组的主要指标包括:地址、教育程度、行业、居住地。分类表显示了此模型的结

1 / 66
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功