StarYea.com南京星邺汇捷网络科技有限公司数据挖掘介绍AgendaStart目录简介1简介3应用说明2算法介绍案例5挖掘流程43P4P3P10P1P3数据挖掘概念----定义数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘与统计学数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与KDD(KnowledgeDiscoveryinDatabase)数据挖掘软件的发展(分类一)代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的观点第一二代数据挖掘特点第二特点与数据库管理系统(DBMS)集成支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性能够挖掘大数据集、以及更复杂的数据集通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作第二代缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发第一代特点支持一个或少数几个数据挖掘算法挖掘向量数据(vector-valueddata)数据一般一次性调进内存进行处理典型的系统如SalfordSystems公司早期的CART系统()第一代缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。第三、四代数据挖掘特点第三代特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成第三代缺陷不能支持移动环境第四代特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第二代软件SASEnterpriseMiner第二代数据挖掘软件DBMiner第三代软件SPSSClementine数据挖掘软件发展的三个阶段GregoryPiatetsky-Shapiro的观点数据挖掘软件的发展(分类二)独立的数据挖掘软件(95年以前)特点–独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。–这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树,平行坐标可视化(parallel-coordinatevisualization)。横向的数据挖掘工具集(95年开始)发展原因–随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。–随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。–现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决–挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型发展过程–随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件特点–此类工具集的特点是提供多种数据挖掘算法–包括数据的转换和可视化–由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(HorizontalDataMiningTools)–由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具–典型的横向工具有IBMIntelligentMiner、SPSS的Clementine、SAS的EnterpriseMiner、SGI的MineSet、OracleDarwin等IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin横向的数据挖掘工具集(95年开始)14纵向的数据挖掘解决方案(99年开始)发展原因–随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型–从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(VerticalSolution),即针对特定的应用提供完整的数据挖掘方案–对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中–在证券系统中嵌入神经网络预测功能–在欺诈检测系统中嵌入欺诈行为的分类/识别模型–在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能–在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能–在数据库营销中嵌入选择最可能购买产品的客户功能–在机场管理系统中嵌入旅客人数预测、货运优化功能–在基因分析系统中嵌入DNA识别功能–在制造/生产系统中嵌入质量控制功能等纵向的数据挖掘公司及行业综合的数据挖掘解决方案啤酒尿布交叉销售当当网交叉销售数据挖掘举例数据挖掘举例AgendaStart目录应用说明1简介3应用说明2算法介绍案例5挖掘流程43P4P3P10P1P数据挖掘FAQWhy?Which?Where?How?What?(What)什么是数据挖掘?DataMiningisforpoweruserstofollowaprovenmethodologytodiscoveraction-orientedinsightsfromdetailoperationsdatatoimprovebusiness.数据挖掘是分析专家使用已验证的方法在经营数据中发掘可采取行动的改善企业的洞察力。(what)已验证的方法数据挖掘算法OLAP分析市场营销学理论……(Why)为何要数据挖掘?数据=储藏室数据+工具=网吧数据+工具+方法=信息数据+工具+方法+目标=知识数据+工具+方法+目标+行动=价值(Which)在哪些方面进行挖掘?分析型应用业务问题业务价值客户分群客户如何分群以及各群组的特征?客户关系的个性化定制,以便提高客户满意度,降低流失率购买倾向哪些客户最可能响应我的促销活动?有的放矢,锁定有需求的客户,提高客户忠诚度,提高营销活动的效率利润贡献度什么是客户的生命周期价值?基于客户的综合利润贡献度来有效决策欺诈侦测如何鉴别哪些交易可能会是欺诈行为?快速鉴别出欺诈行为,立即反应以避免损失客户流失哪些客户可能会弃我而去?避免高价值客户的流失,低价值客户随他去客户获取哪些人可能成为我的客户?哪些人可能带来最高的收益?最小化新客户的招揽成本渠道优化到达每个客户分群的最佳渠道是什么?基于客户偏好和企业需要与客户交互,从而控制成本(Where)在哪里挖掘?采用抽样技术避免压力需要频繁耗时的数据迁移数据冗余/元数据管理问题ModelersBuildModelsBusinessDeploysModelsModelersBuildModelsBusinessDeploysModels高性能、易扩展基本无需数据迁移避免过时数据避免抽样误差元数据共享,易于使用Saves$$$.LowerTCO!传统的数据挖掘场内(In-DBS)挖掘(How)数据挖掘方法论确定业务问题范围选择与抽样数据清洗探索型数据分析(EDA)建模发布AgendaStart目录算法介绍1简介3应用说明2算法介绍案例5挖掘流程43P4P3P10P1P数据挖掘算法举例在预先未知任何现有模式下查找模型的技术•分群•关联分析•频度分析•……探索型数据挖掘预测型数据挖掘查找目标变量与其他变量的关系的技术回归算法数值预测二叉树算法……统计工具以图形等方式对数据进行统计,帮助理解数据X2双变量统计……决策树曾经欠费租期3到4个月月平均不同受话号码数=40曾经投诉过无有是非话费下降至1/3是非92%不退租是77%流失是非非Etc.Etc.Etc.Etc.WAP业务分群-0.2500.250.50.7511.25-10000010000200003000040000500006000070000平均月主被叫時長使用彩鈴比例业务经理(29%)•使用彩铃•多打国际电话•邮寄帐单游戏玩家(12%)•动感地带•使用梦网短信、KJava、0121,…未来潜力(1%)•年纪最轻•通话量大•使用彩信套餐•常联系1861勤俭节约(16%)•通话量少•动感地带•不在凌晨聊天•多省内、省际漫游基本保守(42%)•全球通•邮寄帐单•年纪较大关联规则数据质量检查双变量统计AgendaStart目录挖掘流程1简介3应用说明2算法介绍案例5挖掘流程43P4P3P10P1P数据挖掘流程-CRISPDM方法论CRISP-DM(cross-industrystandardprocessfordatamining),即为跨行业数据挖掘过程标准.数据挖掘应用流程数据采集/ETL探索型分析数据建模模型评估分析营销活动执行计划和设计营销活动营销活动结果评估营销活动调整确定业务问题范围确定业务范围•明确业务目标•需求确认、目标变量确认、主算法确认•目标与常规分模型变量分析(arpu,大客户,分群结果等简单变量),二八分析等确定是否需要分模型处理。•定义响应变量•导向型•根据已有数据选择,或能够取得的变量•项目计划必要的调整花费时间:10-15%重要度:☆☆☆☆☆数据采集ETL•说明:该部分除了在数据挖掘过程中,满足数据挖掘的需要外,在项目外由专人按流程按类别整理并保存历史。数据来源数据映射准备数据评估数据的必要聚合数据抽样花费时间:10-15%重要度:☆☆探索型数据分析•注:•该部分最好能根据目标直接找出几条有用的规则。但是由于后面的模型实际需要时间不是很长,可以考虑人工发现规律与模型发现规律同步进行。•对于数据变量的离散化,可以加入通过二叉树等非常规方式进行。数据质量检查数据的必要整理通过图形化呈现工具和其他的统计方法理解数据分析待选预测变量和响应变量之间的关系进行数据转换以辅助数据的分析数据派生为建立模型做准备整理和呈现数据探索的发现花费时间:30-50%重要度:☆☆☆☆数据建模与模型评估为模型的训练和验证准备数据集在模型的建立中使用适当的建模技术针对不同的建模技术测试模型性能必要地精炼分析模型和主题专家一起的检验分析模型记录分析模型和结果花费时间:15-20%重要度:☆☆☆模型评估M-2M-3M-4M-5M-6M-7M-1MM+1M+2预测M-2M-3M-4M-5M-6M-7M-1MM+1M+2评估分析窗口预测窗口预测点M-2M-3M-4M-5M-6M-7M-1MM+1M+2建模模型非行动组模型行动组非模型其他组非模型对照组•模型非行动组,非模型对照组一般为模型数据的10%。•模型非行动组与非模型其他组对比得到模型的效果。•非模型对照组与非模型其他组对照得到营销活动效果。•模型行动组与其他数据对比得到活动的完整结果。•使用M-6到M-4以及M-2的结果建