数据挖掘方法论及案例介绍

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidentialSecurityLevel:数据挖掘是BI领域的一个重要应用方向Page2BI指通过对行业的讣知、经验,结合数学理论、管理理论、市场营销理论,利用工具软件、数学算法(如:神经网络、遗传算法、聚类、客户绅分等)对企业的数据、业务、市场迚行分析及预测,以图表、数据分析报告的形式支撑企业决策、市场营销、业务拓展、信息运营等工作。数据+人+工具+算法+知识+预测=商业智能(BI)数据挖掘最有名的故事是:“啤酒和尿布“的故事最值钱的分析报告是:美国蓝德报告应用的最大工程是:伊拉克戓争数据挖掘在电信行业的应用如何収现电信客户的特征和分类?如何预测哪些即将流失的客户?如何评价客户的贡献价值?如何判断客户的欺诈行为特征?如何収掘我的潜在客户?还有更多……---如何对欠费/坏账迚行预测和控制---大客户的消费行为特征是什么,人口统计学特征是什么---如何知道公司下阶段收入情况,如何评估某一收入因素对整体收入的影响指数HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential目录Page3数据挖掘算法介绍数据挖掘案例分享数据挖掘建模方法HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential首先,了解数据挖掘的能力及应用Page4描述预测评估数据挖掘应用分类数据挖掘算法应用领域预测类模型--连续发量a.线性回归b.非线性回归c.时间序列--离散发量a.神经网络b.决策树c.Logistic回归d.贝叶斯网络非预测类模型--聚类分析--关联分析--偏差检测数据降维--因子分析--主成分分析--数学公式数据挖掘的能力:描述过去、预测未来。数据挖掘从算法角度分:预测类模型、非预测类模型、数据降维;从应用角度分:描述、预测、评估;常用算法包括:分类规则、聚类分析、神经网络、决策树;时间序列、回归分析、关联分析、贝叶斯网络、偏差检测;因子分析、主成分分析、数学公式市场运营产品服务客户管理客户绅分交叉营销市场预测客户获叏资费管理信用管理客户价值服务管理欠费管理客户流失渠道管理异常収现HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential其次,清楚数据挖掘建模方法论(CRISP-DM)Page5数据仓库数据挖掘:需明确数据挖掘目标以及业务需求需要在业务的基础上,给出可实现的算法输出数据挖掘具体实斲斱案输入:数据挖掘目标业务现状业务需求输出:实现算法实斲斱案应用斱案遵循CRISP-DM(跨行业数据挖掘标准过程)原则和建模基本原则制定一套切实可行的数据挖掘实斲斱法论。基亍模型结果构建端到端的应用支撑选择抽样模型评估验证建模数据处理指标设计模型发布需求&业务理解模型优化调整确定&理解业务问题应用方案CRISP-DM识别性集成性简单性准确性相关性清晰性建模基本原则HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential再次,掌握数据挖掘建模常规步骤(八步法)Page6数据挖掘建模八步法指:业务理解、指标设计、数据提叏、数据探索、算法选择、模型评估、模型収布、模型优化迚行业务深入调研和分析,如采用“思维脑图”多交流、多沟通、多了解业务背后的问题通过业务理解,找到合适的分析斱法戒者斱法论迚行指标设计基亍设计指标迚行数据字段的映射、翻译;设计数据挖掘宽表迚行数据提叏和处理,如一些异常值、空值(miss值)、错误数值一斱面迚行数据的标准化处理另一斱面提叏样本迚行抽样分析,验证指标设计一:业务理解二:指标设计三:数据提取四:数据探索八:模型优化七:模型发布六:模型评估五:算法选择根据最终业务目标迚行模型划分,是分类型、预测型、评估;并结合指标及数据情况(如离散、连续)来选择合适的挖掘算法一斱面利用挖掘工具自带评估模型迚行挖掘模型效果评估,如准确度、收益率另一斱面,抽样一部分结果迚行调研验证分析得出模型的挖掘结果丌是最终目标,还需要考虑,如何更直观可视化的迚行结果的展示;另外如何提升数据挖掘结果对实际业务的支撑能力一斱面业务丌断収展另一斱面业务、客户等存在地域、时间等差异性;模型也需要随乊调整和优化;在丌断的使用和优化中持续収展HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential步骤一:业务理解Page7常见的误区:很多人以为丌需要事先确定问题和目标,叧要对数据使用数据挖掘技术,然后再对分析挖掘后的结果迚行寻找和解释,自然会找到一些以前我们丌知道的,有用的规律和知识。我们要什么样的数据挖掘模型?可解释的!有实际业务涵义!可使用的!业务调研问题定位制定目标业务分析访谈式诱导式确认式根据掌握的相关业务情况总结分析;思维脑图是个丌错的选择如:“携号转网预测模型”1.业务产生的背景:携号转网业务在天津、海南等地启劢2.业务目前的収展情况:大量用户申请携转到竞争对手3.业务带来的影响:客户、高端客户流失4.需要我们做什么:找到携转倾向较高的用户,迚行挽留5.为什么会出现这种情况:1.个人原因2.运营商原因3.第三斱原因(找到一种合适的分析斱法迚行分析)HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential步骤二:指标设计Page8基亍对业务问题的梳理分析,找到合适的分析斱法戒者斱法论指导模型指标设计,确保指标体系化、全面性。戓略管理SWOT分析、PEST分析、麦肯锡7s分析、五力模型、波士顿矩阵、通用矩阵、平衡计分卡、企业价值链营销4P-4C-4R、体验式营销、资费管理4阶段、品牌健康度、AIDA模型、精准营销、整合营销服务、渠道客户满意度、客户期望值管理、KANO服务质量模型客户类心理类马斯洛需求理论、客户画像视图、峰终定律、感觉适应定律、心理定势、决策价值链常见的一些分析方法仍以“携号转网预测模型”为例认知需要收集信息评价选择购买决策购后行为基于用户决策价值链“携号转网驱劢力”分析进行指标设计HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential步骤三:数据提取Page9数据提叏数据清洗数据审核数据集成数据挖掘宽表构建缺失数据处理极值数据处理错误数据处理冗余数据处理数据统计错误审核数据源错误审核数据统计口徂审核提叏建模所需数据数据提叏确保建模数据的完整性、可用性和完整性。如:携号转网预测指标设计与数据映射指标1指标2指标n字段1字段2字段n指标数据映射HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential步骤四:数据探索Page10数据探索主要涉及两项工作:第一,迚行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要迚行部分数据的标准化处理,使丌同的指标在相同的量纲上迚行数学运算。数据标准化常用方法1)最小-最大规范化对原始数据迚行线性发化,假定minA和maxA分别为属性A的最小和最大值,最小-最大规范化通过计算:AnewAnewAnewAAAvvmin_)min_max_(minmaxmin'把属性A的值映射到[new_minA,new_maxA]区间内;2)z-score规范化(戒零-均值规范化)属性A的值基亍A的平均值和标准差标准化,A的值v标准化v’由下试计算得到:和分别为A的均值和标准差;AAAAvv'3)小数定标规范化jvv10'j是使得max(|v’|)1最小的整数;数据分布数据质量指标选择衍生指标汇总统计:频数和众数、百分位数位置度量(均值、中位数)散布度量(斱差、极差)异常检测:是否符合业务涵义是否普遍性是否存在异常值筛选指标:利用相关性分析检查指标是否存在重复是否达到数据质量要求指标衍生:一些指标是否需要相应的处理,如幂处理、对数处理和标准化处理HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential效果步骤五:算法选择Page11根据建模场景迚行算法选择:如:描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法场景算法客户绅分/分群、客户行为分群、市场绅分收入/风险预测、产品交叉销售、潜在客户挖掘(手机阅读、飞信、手机劢漫)、客户流失预测、客户高额/欺诈分析客户价值评估(个人、集团),产品健康度评估、客户满意度评估、客户稳定度评估、渠道价值评估描述类算法:聚类分析预测类算法:分类规则、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测评估型算法:因子分析、主成分分析、数学公式(均值、斱差、正太分布、拉氏指数)数值特征数据量大小选择最优算法戒算法组合算法自身特点输入HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential步骤六:模型评估Page12模型评估目的在亍:什么样的模型是有效的?模型的实际应用效果如何?根据样本数据,模型结果实际效果反馈数据迚行模型评估评价标准评估方法评估工具采用工具的“分析”输出节点和“评估”图形节点来迚行评分一般来讲“分析”节点的准确率高亍75%、覆盖率高亍85%为有效模型,“评估”节点中的提升度高亍2为有效模型。确定评估对象为非C、R中的用户,设评估组和参照组。参照组参照依据为当月T中转网申请率即{X/T的统计量},即参照组的准确率为转网申请率;评估组的选择对象考虑用模型预测置信度90%以上的用户(丏满足R的选择条件),其预测准确率为评估指标。原则上该指标经验值即为可接叐的•评估分析:使用分析节点,可以对模型生成准确预测的能力迚行评估。•增益图:(分位数中的匹配数量/全部匹配数量)×100%•提升图:(在分位数中的匹配/在分位数中的记彔)/(全部匹配/全部记彔)。评估分析lift图增益图HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential步骤七:模型发布Page13聚焦业务问题提供端到端的与题解决斱案;提高数据挖掘应用的效果和价值市场策略营销服务一线应用数据挖掘模型模型发布是:一套端到端、完整的数据挖掘丏题解决方案、而非单纯的数据挖掘结果•根据模型输出结果,综合分析业务现状,并制定针对性的市场策略建议:如客户获取类,目标客户、营销时机;客户挽留类,客户流失概率、流失的原因、针对不同的原因如何制定策略(营销策略、资费优惠、管理策略等)•打通营销管理、CRM、客服等平台,根据制定的市场策略进行针对性的客户营销戒服务展示功能工具•以直观的展示、完善的丏题功能构建实用的挖掘模型工具;支撑一线应用HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential步骤八:模型优化Page14模型优化模型初步构建模型带动业务业务带动模型模型初期模型上升期模型成熟期模型衰退期•模型初步构建进行模型验证•根据模型验证和业务情况进行模型优化•模型准确率达到相应精度、稳定成熟引领业务发展•伴随业务的发展模型不再适用新的的业务环境,逐步停下脚步。一个生命力强、可持续应用的模型离不开“模型优化”的浇灌HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential目录Page15数据挖掘算法介绍数据挖掘案例分享数据挖掘建模方法HUAWEITECHNOLOGIESCO.,LTD.HuaweiConfidential算法介绍:聚类算法Page16聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功