CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.SAS分析技术概览及应用JenniferLi(李威)SASSeniorConsultant2011年5月26日2CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.大纲数据分析概述什么是数据分析数据分析应用领域数据分析的投资回报率数据分析方法与应用数据挖掘时间序列预测运筹优化文本挖掘SAS数据分析产品介绍3CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.什么是数据分析•DavenportandHarris(2007)Theextensiveuseofdata,statisticalandquantitativeanalysis,explanatoryandpredictivemodels,andfact_basedmanagementtodrivedecisionsandactions..20.49027.41stQtr2ndQtr3rdQtr506332.51stQtr2ndQtr3rdQtr•Tomakebetterdecision•Totaketherightactions4CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.什么是数据分析从数据到信息和智能,发挥价值的过程描述过去已经发生的了解现在正在发生的预测未来可能发生的数据分析是业务提升的发动机(答疑解惑)5CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.标准报表回答问题类型:发生了什么吗?什么时候发生?例子:月度或季度的财务报告。即席报表回答问题类型:多少?频次如何?在哪里?例子:记录每种产品每天销量的定制报表。钻取(或者OLAP)回答问题类型:问题出在哪里?我如何找到问题的答案?例子:对不同类型的电话客户的通话行为进行排序,找出他们的通话特征。报警回答问题类型:什么时候应该引起注意?现在应该采取什么样的行动?例子:销售总监在销售情况距离销售目标差距大时收到告警信息。标准报表广为人知,它们通常按照一定的周期产生,对过去一段时间、一定范围内所发生的事实进行记录,它们对了解业务现状非常有用,但是却无法据此进行长期决策。.即席报表往往通过对一系列数据(组合)的要求来回答一些常见的业务问题OLAP技术可以帮助了解更多。OLAP可以帮助客户自己操纵数据来找出诸如多少、什么、哪里之类的答案。、通过告警,当问题发生时间你可以及时获知并且在将来发生类似情况时可以引起注意。告警可以通过电子邮件、网络频道或者记分卡或者仪表盘的形式给出。12346CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.统计分析回答问题类型:为什么发生?我失去了怎样的机会?例子:银行希望了解什么样的人更可能对他们的房子进行转按揭操作?时序预测(forecasting)回答问题类型:未来的趋势会怎样?如果这样的趋势继续会怎样?例子:零售商可以根据销售历史预测未来特定店铺特定产品的销售量。预测性(predictive)模型回答问题类型:会发生什么?会怎样影响业务?例子:商户可以预测客户可能会对何种产品更有兴趣?哪些客户会对特定产品更后兴趣?优化回答问题类型:如何更好地利用各种资源?例子:在特定资源条件下,如何安排使得收入利润最大化。我们可以运行一些更加复杂的分析,例如方差分析和回归分析模型等。我们可以基于数据提出一些假设,然后再利用数据构建统计分析模型来回答这些假设是否成立。时序预测是现在最热门的分析主题之一。它应用广泛,尤其是需求预测,它能够帮助建立恰当的库存,从而使得既不会脱销也不会积压库存。如果你有1000万个客户需要做一次直邮,谁最有可能响应?怎样对现有客户进行有效分群?哪些客户最可能流失?预测性模型可以回答这类问题优化往往带来创新,它使企业可以在有限资源下实现收入(利润)最大化。56787CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.数据分析是艺术与科学的结合数据分析•业务洞察与设计•在解读和判断数据模型时,需要融入对业务的理解,融入基于经验的灵感,无法用单纯的公式或规则来替代人的智慧和艺术灵感•商业决策•以事实和数据分析的结果为基础,结合经验和行业的洞察做出决策•如果可以量化分析某些问题,那么就请去分析;但别忘记加入你的经验、知识和理性的推断。科学艺术定量/定性8CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.数据挖掘分析的应用来源:©2010,SASInstituteInc.Allrightsreserved.基于客户生命周期的分析时间使用频率低想尝试其他产品发展成熟终止对现有服务不满意受到其他品牌诱惑利润起始利润中止客户关系对新的品牌缺乏了解处于观望忠诚度低损失提高忠诚度恢复接受服务客户获取客户激活交叉/提升销售客户流失预测客户挽留客户行为分析客户利润分析10CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.数据分析的商业驱动原因分析分析型CRM客户风险财务风险欺诈发现文本信息人力资源IT11CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.一些数据挖掘应用的ROI分析假设:帐户数量=200万每一个帐户每年促销次数=12每次促销成本=0.30使用预测型模型减少20%的促销而使得总回应率基本保持不变建模前成本=200万*12*0.30=720万建模后成本=160万*12*0.30=576万每年节约=144万交叉销售模型12CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.一些数据挖掘应用的ROI分析假设:帐户数量=200万每个帐户每年利润=350元每年帐户流失率=5%通过挽留策略使流失率降低10%每年由于5%的流失造成利润损失=5.0%*200万*350=3500万每年由于4.5%的流失造成利润损失=4.5%*200万*350=3150万每年节省=350万客户挽留13CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.一些数据挖掘应用的ROI分析假设:帐户数量=200万每一个帐户每年促销次数=12平均响应率=1%每个响应带来利润=350元响应率提高5%(从1%到1.05%)每年收益=0.05%*200万*12*350每年收益=420万市场细分14CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.一些数据挖掘应用的ROI分析假设:贷款笔数=10000笔平均贷款金额=20000平均违约率=5%违约率降低到4.5%违约率5%的损耗=10000*20000*5%=$1000万/年违约率4.5%的损耗=10000*20000*4.5%=900万/年每年减少损耗=100万信用评分15CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.大纲数据分析概述什么是数据分析数据分析应用领域数据分析的投资回报率数据分析方法与应用数据挖掘运筹优化文本挖掘SAS数据分析产品介绍16CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.数据分析的几个关键环节商业问题分析问题商业方案•商业问题向分析问题的转化•分析结果向商业解决方案的转化17CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.预测性模型可以回答以下类型的问题:哪个客户更可能对市场营销活动产生响应?那笔交易可能存在着欺诈?哪些客户是好客户?哪些客户在短期内可能流失?哪些客户的违约风险更高?18CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.预测建模(有监督学习):数据挖掘在商业上的主要应用.........................................................InputsCasesTarget......19CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.建立模型和发布模型的过程OriginalDataTRAININGDATAKnownOutput_______________________________________YesNoYesDataManipulationPresentation&DeploymentDataPreparationDataModelingRawDataTrainingModelTESTDATAUnknownOutput____________________________________???PredictedOutputYesNoYesNewData20CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc.Allrightsreserved.业务问题背景市场上出现一些新的公司,专门提供打折利率的贷款客户受蜜月期利率影响,导致客户利润空间降低客户行为的变化(总体忠诚度降低)房屋贷款在持续4年后才开始盈利业务问题:房屋贷款客户流失房屋贷款的平均保有期从7年减至4.8年目标定义客户流失风险,设计预防性的营销活动目标变量:双值型响应变量。三个月内房屋贷款客户是否流失。21CompanyConfidential-ForInternalUseOnlyCopyright©2010,SASInstituteInc