CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.数据挖掘的意义与实践杨玥SAS政府行业高级经理CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.大数据时代的挑战分析和执行的能力远远跟不上信息的增长从具体业务操作到精细化管理和决策从“解决和处理业务问题”到“发现问题和机会,预测未来和优化业务”从“数据是应用的输入-输出”到“应用围绕数据,输出决策依据”分析即服务AaaS从数据中挖掘知识:把“大数据”变作“小数据”TB级的数据1960197019801990200002550751002010时间可用的客户数据执行能力执行的差距分析能力知识的差距数据产生价值的过程就是数据挖掘分析利用的过程•Volume数据太大•Velocity数据变化太快•Variety数据太多样CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.数据挖掘辽沈战役的故事•《往事回眸》中提到的林彪记录作战数据和活捉廖耀湘的分析CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.数据挖掘从一开始就是面向业务应用而诞生的数据挖掘最重要的要素是分析人员的相关业务知识和思维模式数据分析过程的两个转化商业问题向数据分析问题的转换数据分析结果向业务解决方案的转换影响数据分析结果的因素问题的定义因素变量的选择因素模型及参数的调整因素数据分析与业务知识的结合语境Context规则Rules经验ExperienceCompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.分析能力的八个等级CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.常规报表STANDARDREPORTS回答:发生了什么?什么时候发生的?示例:月度或季度财务报表即席查询ADHOCREPORTS回答:有多少数量?发生了多少次?在哪里?示例:一周内各天各种门诊的病人数量报告。多维分析OLAP回答:问题到底出在哪里?我该如何寻找答案?示例:对各种手机类型的用户进行排序,探查他们的呼叫行为。警报ALERTS回答:我什么时候该有所反应?现在该做什么?示例:当销售额落后于目标时,销售总监将收到警报。我们都见过报表,它们一般是定期生成,用来回答在某个特定的领域发生了什么。从某种程度上来说它们是有用的,但无法用于制定长期决策。即席查询的最大好处是,让你不断提出问题并寻找答案。通过多维分析(OLAP)的钻取功能,可以让您有初步的发现。钻取功能如同层层剥笋,发现问题所在。警报可以让您知道什么时候出了问题,并当问题再次出现时及时告知您。警报可以通过电子邮件、RSS订阅、评分卡或仪表盘上的红色信号灯来展示。1234CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.统计分析STATISTICALANALYSIS回答:为什么会出现这种情况?我错失了什么机会?示例:银行可以弄清楚为什么重新申请房贷的客户在增多。预报FORECASTING回答:如果持续这种发展趋势,未来会怎么样?还需要多少?什么时候需要?示例:零售商可以预计特定商品未来一段时间在各个门店的需求量。预测型建模PREDICTIVEMODELING回答:接下来会发生什么?它对业务的影响程度如何?示例:酒店和娱乐行业可以预测哪些VIP客户会对特定度假产品有兴趣。优化OPTIMIZATION回答:如何把事情做得更好?对于一个复杂问题来说,那种决策是最优的?示例:在给定了业务上的优先级、资源调配的约束条件以及可用技术的情况下,请您来给出IT平台优化的最佳方案,以满足每个用户的需求。这时您已经可以进行一些复杂的分析,比如频次分析模型或回归分析等等。统计分析是在历史数据中进行统计并总结规律。预报可以说是最热门的分析应用之一,各行各业都用得到。特别对于供应商来说,能够准确预报需求,就可以让他们合理安排库存,既不会缺货,也不会积压。如果您拥有上千万的客户,并希望展开一次市场营销活动,那么哪些人会是最可能响应的客户呢?如何划分出这些客户?哪些客户会流失?预测型建模能够给出解答。优化带来创新,它同时考虑到资源与需求,帮助您找到实现目标的最佳方式。5678CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.目前大多数客户仍只具备前四种分析能力(传统BI领域)通过把历史数据汇总产生报表,告诉我们过去发生了什么,但却缺乏对未来的前瞻能力。面对复杂的业务问题,或者希望能够预测未来,就需要后四种更高级的分析能力。(深入数据的分析和挖掘)最佳的方法是,综合运用所有这些分析能力,这样才能让商业智能达到理想的水平竞争优势智能程度常规报表即席查询多维分析警报统计分析预报预测型建模优化可能出现的最好情况是什么?接下来会发生什么事?如果这些趋势继续下去会如何?为什么会发生?需要采取什么行动?问题究竟出自哪里?数量、频率、地点如何?发生了什么事?选择最佳的分析方法来解决您的业务问题分析能力的演进传统BI领域新价值的创造CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.深入的数据分析和挖掘基于统计学和数学计算机科学与技术才几十年的历史,而我们在数据应用领域遇到的很多问题,统计学和数学都思考了几百年了从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉Debt10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome$40KQQQI123456IQfactor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees•倾向性分析•客户保留•客户生命周期管理•目标市场•价格弹性分析•客户细分•市场细分•倾向性分析•客户保留•目标市场•欺诈检测关联分析Association•市场组合分析•套装产品分析•目录设计•交叉销售CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.建立分析挖掘体系ECIF核心系统数据存储会计帐务系统客户关系系统营销管理财务系统Intranet数据访问引擎数据层分析层应用层展现层主数据管理元数据管理数据整合常规报表统计分析预测建模多维分析预报风险管理供应链管理绩效管理客户分析WEB报表信息门户仪表盘OLAPOFFICE插件即席查询警报优化企业向导移动BI数据质量CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.SAS数据挖掘项目方法论反复挖掘数据(SEMMA)定义业务问题考察业务情况提出业务问题考察数据可用性制定业务计划选择数据挖掘方法探索(E)调整(M)建模(M)评估(A)抽样(S)系统环境评估评估系统环境评估企业准备情况评估IT环境选择软硬件环境规划实施体系结构数据准备创建数据挖掘环境检查和校验数据准备数据模型实施设计模型集成的体系结构生成管理和业务报告清理数据使其可用把模型应用于生产回顾与评价回顾模型对企业生产的效果回顾投资回报回顾模型的性能CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.SAS®VISUALANALYTICSDELIVERSASINGLESOLUTIONFORFASTER,SMARTER,MOBILEDECISIONSCentralEntryPointIntegrationRole-basedViews展现数据准备探索设计•NativeiOSapplicationthatdeliversinteractivereportscreatedinthedesigner•MonitorSAS®LASR™Analyticserver•Loadandjoindata•Createcalculatedcolumns•Performad-hocanalysisanddatadiscovery•CreatedashboardstylereportsforwebormobileSASANALYTICSCompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.金融行业案例分享CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.案例客户背景介绍某信用卡发卡行资产总额:2.2万亿机构总数:590发卡数量:1267万(2011年)交易网点:13.2万个日均交易:1064万笔(2011年)交易数据:45GB/天受数据量限制,只能通过交易网点统计数据日常分析报告更新时间大于2天静态报告信息覆盖面不足客户服务部门无法捕捉用户信息产品部门无法根据用户行为数据定制产品面临的挑战需要达成的目标实现用户级别的数据分析与展现提供实时互动的数据分析交互界面根据用户的行为特征,实现精准营销降低银行的坏账风险,改善交叉销售转换率,提高银行盈利能力CompanyConfidential-ForInternalUseOnlyCopyright©2012,SASInstituteInc.Allrightsreserved.•通过引入高性能分析平台,银行能够对单一的用户行为进行精确地定位,从而及时作出响应。下图就是行为捕捉的一个场景。存款金额常常大幅波动的客户存款金额相对稳定的客户050100150200250300350123(10Kyen)本类客户的显著存款(金额)临界值平均值+标准差×3该客户的存款金额常常出现大幅波动,100万的存款交易对该客户来说算不了什么从事件侦测中排除9101112(月份)+1M该客户的存款金额相对稳定,波动范围通常在5万~15万之间,100万的存款交易值得关注→事件发生了!!存款交易均为100万456789101112(月份)+1M通常的最大值平均存款金额通常的最小值05010015020025030035012345678(100K