2020/2/101DataMiningCookbook主讲:夏燕032021145计算机与信息技术系2020/2/102目录——计划菜单•引言•设立目标•定义目标•选择建模方法•自适应公司•选择数据源•数据类型与数据源•选择建模数据•构造建模数据集2020/2/103数据清洗变量规约与转换模型处理、验证、实施引言基础知识模型开发的各步骤案例研究•建立有效数据模型的步骤Marketingrisk&CRM•用于DataMining的多种类型和来源的数据2020/2/104设立目标•二战后若干年,竞争侵蚀利润,产生targetmarketing需要定位模型•Targetmodel:帮助定位最佳客户和潜在客户信息的可用性计算机功能的增加营销定位2020/2/105定义目标•描述模型(descriptivemodel)•预测模型(predictivemodel)吸引、保留客户商业目标分析术语•特征分析•划分根据利润和市场潜力划分客户,shareofwallet,风险和存款余额•响应目标是预测谁会对某种产品的宣传做出响应,监视响应途径管理重复响应2020/2/106•风险银行业,金融业,其他行业。欺诈(fraud):欺诈检测模型•激活潜在的用户会否成为成熟用户;建立预测响应模型、一步建模的方法•交叉销售和提升销售•流失建立模型能预测账号在被激活后减少或停止使用一种产品或服务的行为•净现值模型试图预测产品在预定的时间范围内的总体利润•生命周期价值模型试图预测客户在预定时间长度内的总体利润2020/2/107选择建模方法模型处理的步骤比用于建模的技术更重要。用于开发预测和描述模型的工具统计方法线性回归多元线性回归逻辑回归简单线性回归混合方法神经网络遗传算法分类树回归树2020/2/108线性回归独立变量依赖变量Simplelinearregressionanalysis量化两个连续变量之间的关系的统计技术发现一条穿过数据的线,线上的点使对应数据点的方差最小2020/2/109线性回归独立变量依赖变量转换独立变量,达到更好的适应。2020/2/1010线性回归独立变量依赖变量用多个预测或独立连续变量来预测一个连续变量为多元线性回归multiplelinearregression.独立变量独立变量2020/2/1011逻辑回归与线形回归相似,它的依赖变量不是连续的,而是离散的。2020/2/1012神经网络neuralnetwork不依照任何概率分布,而是模仿人脑的功能,,每一次经验中提取并学习信息。由分布若干层的节点组成。数据被分为训练数据集和测试数据集,然后将权重或输入指派到第一层的每个节点。每次重复时,系统处理输入,并与实际值相比较,得到度量后的误差,并反馈给系统,调整权重。当达到与定义的最小误差水平,处理结束。优点:可在数据中挑选非线性关系的能力,缺点:1具有过渡适应数据的倾向,可能导致模型应用于新数据时迅速恶化。2难以解释输出的结果2020/2/1013遗传算法geneticalgorithm•不遵循概率分布,即许多模型通过一系列的比较、调整来发现最佳的模型。•各遗传算法不同,在每一步使用匹配,突变,克隆来改变模型。1.决定模型目标或对象2.选择一个度量评估模型适应度3.模型被随机以其他改变如匹配、突变、克隆;这些操作涉及随机转变变量、符号、函数。4.经过多次迭代,出现成功的模型2020/2/1014分类树classificationtree•即将数据分类到不同的组或分支中,在依赖变量的值上建立最强划分。1.通过一种期望的行为识别分区,对于什么驱动了营销行为有用。2.检测非线性关系的能力。解释结果能力强2020/2/1015自适应公司分析学市场营销•应用分析学提高市场营销的效果雇员财务部门信息技术部门•公司管理者支持营销、风险和客户关系管理的分析方法•公司各部门愿意为共同目标合作2020/2/1016选择数据源数据挖掘领域经历数据大爆炸WEB网站作为营销和CRM工具数据数量和复杂程度公司各类型数据源的优缺点数据存储的描述和实例建立定位模型数据集客户模型数据集2020/2/1017数据类型人口统计学数据行为数据心理或态度数据•优点:稳定•描述个人或家庭特性•缺点:难以在个体水平上达到搞准确性。许多人拒绝共享这类数据,或提供虚假数据•优点:预测未来行为效果好•行为或行为的一种度量•缺点:一般最困难、最昂贵的数据,是需要从外部数据源得到的数据•优点:有利于判断客户或潜在客户•心理或态度数据以观点、生活方式特性或个人价值为特征•缺点:描述的行为可能与实际行为有很强的、部分的或边缘的关系2020/2/1018数据源内部数据源外部数据源宣传活动历史数据库客户ID家庭ID账号人口统计信息…客户数据库交易数据库客户ID销售活动…邮件和电话询价纪录数据仓库信用卡机构列表中介商列表编纂机构2020/2/10192020/2/1020选择建模数据潜在客户数据交叉销售、提升销售现有客户数据风险数据…...不同行业建立定位模型为定位模型开发最佳选择数据要求对市场有透彻理解,模型质量与底层的数据密切相关。2020/2/1021潜在客户数据•营销活动获得的数据。•倾向模型,从外部数据源提取数据开发。选取合适采样人群,代表整个评分人群。•结成联盟,以共享资源,提高利润。相同产品、列表,使用先前促销活动相同产品,通过选择策略使用先前促销活动的相同列表相同产品,新列表,先前营销活动近似产品,相同列表,先前营销活动相同产品,新列表,无先前营销活动相同产品,亲密伙伴群组列表新客户获取的建模从先前的促销活动获得相同人群、相同产品的数据是任何定位模型数据的最佳选择。可以较精确预测未来。2020/2/1022•交叉销售•用所处生命阶段提升销售•保留/流失模型客户模型数据信用卡银行确定余额的行为有季节性分析师构造数据,能够用月份和行为数据,人口统计学数据作为预测因子。•保留/流失模型由选中的数据和为选中的数据的随机抽样组成2020/2/1023风险模型数据由于信用数据可以从信用机构获得,可以为潜在客户建立风险模型•潜在客户的信用风险•客户流失风险•客户保险风险2020/2/1024构造建模数据集设计一个营销活动,以便用结果开发模型。采样替代,样本尺寸足够大,以支持模型开发和验证。如何确定样本尺寸考虑在各变量各层次的交叉部分度量显著性。样本的最佳尺寸依赖于变量的预测能力。在较少的样本上获得较好的预测能力困难,但是较少的样本通常会产生强壮的样本。2020/2/1025采样方法•多数情况,随机采样满足建模需要。•若开发新模型来取代当前模型。则捕捉当前模型未能正常选择的潜在客户的行为很重要。•如果要使用某个特征作为预测因子,而这个特征的普遍性不高时,可采用层次采样方法。根据已建立模型的数据开发模型需要使用一个模型作初始选择。可用样本能够代表整个空间80%以上,可建立一个概括整个空间的模型;可用样本不能代表80%的空间:1整个人群的随机样本宣传进行建模,2选择未列入定位群组的样本。集成多个宣传活动的数据2020/2/1026