面向大数据的商务智能技术及应用黄哲学博士中国科学院深圳先进技术研究院2013年1月30日深圳市高性能数据挖掘重点实验室•中科院深圳先进院研究员、首席科学家、博导•香港大学荣誉教授•瑞典皇家理工大学博士•2010年入选首批广东省领军人才•2011年入选深圳市引进海外高层次人才•2006年亚太数据挖掘首个最有影响力论文奖•主要论文被引用超3000次黄哲学简介专业领域:数据挖掘、商务智能、高性能计算、云计算学术贡献:一系列数据挖掘聚类算法发明人,如:k-modes、fuzzyk-modes、k-prototypes、w-k-means等2009年12月全职加盟产业经验•澳大利亚联邦银行•澳大利亚Macquarie银行•澳新银行(ANZBank)•澳洲电讯Telstra•澳洲AAPT电讯公司•PacificAccess(黄页公司)•新西兰Woolworths超市连锁店•澳洲邮政(AustraliaPost)•澳洲联邦健康保险机构(HIC)•澳洲国家税务局•KPMGAustralia•中国移动(深圳)•香港八达通公司•香港政府交通署•香港中华电力•Vodafone电讯澳洲分公司•AXA保险公司(Australia)•MBF医疗保险公司多个世界著名软件资深技术顾问IBMDB2,SASEnterpriseMiner,SPSS,Microstrategy,DataStage内容一、商务智能简介二、商务智能技术及应用三、大数据挑战与机遇四、面向大数据商务智能的技术前瞻04/02/20135信息技术在企业中应用办公系统Collaborativeprocessingsystems营运系统Operational&e-businesssystems决策支持系统Decisionprocessingsystems管理企业运营分析,监督预测企业运营状况提高办公效率和服务质量04/02/20136对企业运作产生巨大影响的IT技术•互联网–电子商贸–信息共享•商业智能–为企业决策提供支持–沃尔玛和亚马逊网上书店是很好的例子•云计算–IT技术及应用转变成服务企业运营离不开数据•现代化企业在运营中无时无刻都在从不同的渠道收集各种各样的数据–数据:客户数据,销售数据,生产数据,质量数据,库存数据–渠道:POS,前台销售及客户服务,互联网,自动数据采集•企业通过对数据进行各种分析,了解企业的经营状况,预测发展趋势,及时进行正确的决策–为各层次的经营者提供决策支持•现代化企业运营在数据之上(Enterprisesrunondata)•问题所在:高科技的采用提高了经营效率,降低了成本,同时也收集了大量的经营数据和客户数据。这些数据中隐含大量的商业信息,但是,传统的方法已经不能有效地提取这些信息。04/02/20138商务智能商业智能技术是帮助企业决策者收集、组织、分析、发布关键商业信息的一组技术、应用和工具的总称。目的是将数据转变成信息和商务知识支持决策。商业智能技术可以协助企业快速、准确、有效地制定决策。–企业提高管理水平和竞争力的重要手段;–为企业创造巨大的商业利益;–国际大型企业无一不投入大量的资金来提高他们的商业智能能力,以便在竞争中立于不败之地;–变数据为宝,如互联网数据、物联网数据。04/02/20139商业智能可以帮助企业1.决策及管理2.客户服务3.提高超前竞争能力4.企业总体发展战略5.降低运营成本6.挽留客户7.新客户,新市场8.部门发展战略9.保持与同行企业的竞争能力10.获得投资回报(ROI)(PAMG1999报告)内容一、商务智能简介二、商务智能技术及应用三、大数据挑战与机遇四、面向大数据商务智能的技术前瞻04/02/201311商业智能技术组成核心技术包括以下部分:•数据仓库–用于抽取、整合、分布、存储有用的信息•多维分析(OLAP)和决策支持系统(DSS)–信息查询、分析和报告,全方位了解现状•数据挖掘–发现问题、找出规律,达到真正的智能效果:预测将来•客户关系管理(CRM)04/02/201312数据仓库技术•数据仓库是一个大型数据库,用于数据分析,支持企业商业决策。•具有以下特征:–面向具体的商业业务,如:产品,客户,销售,财物,等等;–数据集成。数据来自不同的运营系统,定义和格式统一;–数据随时间变化;–数据按时追加,但不改变;–数据仓库一般都很大。04/02/201313在线数据分析技术(OLAP)•在线数据分析技术可用来从数据仓库中生成各种业务数据报表,如:–某类产品的一周销售数据–库存状况数据ShipCountry(All)SumofSubtotalLastNameYearsOrderDateBuchananCallahanDavolioDodsworthFullerKingLeverlingPeacockSuyamaGrandTotal1995Qtr110,03120,35717,7251,13310,68215,10819,95241,9588,036144,981Qtr27,0219,89914,4802,21020,33714,35639,90225,62111,536145,361Qtr313,09810,30530,1044,95214,90514,35312,51326,0998,342134,671Qtr410,09017,91623,94616,27223,01815,78220,78124,99513,112165,9121995Sum40,24058,47686,25524,56668,94259,59993,148118,67441,026590,9261995Average2,0121,0631,5131,4451,7241,8061,4551,6041,3231,5111994Qtr31,6399,9497,1714,3642,9904796,41515,2405,09953,347Qtr46,7145,92220,1475,36412,72914,7539,05028,6056,212109,4971994Sum8,35315,87127,3189,72915,71915,23215,46543,84611,311162,8441994Average1,0441,0581,6072,4321,3101,3851,1051,5669431,3461996Qtr117,58715,29534,60326,46735,01913,79964,88246,12411,260265,036Qtr22,61237,22043,93216,54646,85835,93829,31724,24710,316246,9861996Sum20,19952,51578,53543,01381,87749,73794,19970,37121,576512,0221996Average1,4431,5451,6031,9551,8611,7761,9221,3038991,610GrandTotal68,792126,862192,10877,308166,538124,568202,813232,89173,9131,265,79314结果报表04/02/201315多维模型及多维数据分析产品商店位置销售额销售量利润时间•第A大类中,第1类商品在2000年总的销售情况•对比2000年和1999年总销售额•商店B在2000年3月,A商品的库存单位多维模型04/02/201316数据挖掘•数据挖掘的基本原理是从历史数据当中学习规律和知识,用来预测将来可能发生的事件。•丰富的历史数据是数据挖掘的先决条件。ABCDInnovativeIdeasIndustryConsulting&CollaborationPrototypes&ProductsR&DProjects数据挖掘商务智能医疗保险诈骗发现案例2013/2/418澳大利亚国家健康保险委员会•澳大利亚政府采取全民医疗保险政策•澳大利亚国家健康保险委员会(HIC)是政府资助的管理全民医疗保险的机构•HIC在全国有226个处理保险索赔部门,雇用4,500职工•HIC健康保险项目–医疗保险–医药补贴–儿童健康计划–家庭补助计划–听觉问题资助•诈骗行为种类–市民诈骗–医生诈骗–内部员工诈骗•诈骗形式–违法行医–浪费–付款错误–不规范–不正当收费2013/2/419公众诈骗每年用于医疗保险几十亿澳元如果百分之一的诈骗行为,也是很多钱审查方法–保险索赔与医疗诊断是否一致?–索赔与病人的性别和年龄是否一至–是否是同一索赔的多次付款–是否是不必要的医疗服务两个孩子出生间隔不到9个月绝育后怀孕两次阑尾摘除手术两次住院时间重叠不寻常的索赔频率例子2013/2/420问题与挑战每次索赔是以单一记录记载,而诈骗是一个病人、医生、或一组医生的阶段性行为诈骗记录本身很难看出诈骗人的记录中混合正常索赔和诈骗索赔诈骗记录要从大量的索赔记录中找出为了确保服务质量,前台人员不可能用更多的时间检查每个索赔单2013/2/421采用的数据挖掘技术聚类(Clustering)规则归纳(Ruleinduction)多元回归模型(Regressionmodeling)奇异点规则发现(unusualpatternsindicativeoffraud)2013/2/422诈骗模式发现2013/2/423诈骗行为审查数据挖掘方法找出诈骗的可疑例子由诈骗审查部门详细审查每一疑例如果疑例证实,送交司法机关积累更多的案例,建立诈骗识别模型数据挖掘在保险行业应用代理人业务对公业务人寿业务非人寿业务个人业务PortfolioAnalyticsCatastrophicRiskExposureCorporatePerformanceManagement销售市场营销报销及产品管理索赔共享服务(财务、HR)投资组合管理ConversionPerformanceChannelPerformanceAgent&BrokerPerformanceEducation&LicensingDistributionManagementProducerPerformancePredictedLifetimeValueConversionPerformanceDemographicsAnalyticsCustomerProfitability/LifetimeValueSocialMediaIntelligentceCrossSell/UpSellNextBestActionRenewalPropensityUnderwritingAnalyticsProductPerformanceAnalyticsUnderwritingPerformanceCycleTimeAnalyticsProcessOptimizationRecoveries&SubrogationMassClaimsSpecialtyUnit/VendorManagementSolvencyI/RegulatoryComplianceStatutory&ManagementReportingCorporatePerformanceManagementReinsuranceAnalyticsProductProfitabilityOptimizationPortfolioExposure&LossAnalyticsWealthManagementEnterpriseRiskManagement再保险PricingOptimizationPortfolioAnalyticsCatastrophicRiskExposurePricingOptimizationRenewalPropensityUnderwritingAnalyticsUnderwritingAnalyticsProductPerformanceAnalyticsSolvencyI/RegulatoryComplianceStatutory&ManagementReportingC