2013年7月21日星期日华为大数据解决方案介绍FusionInsightHadoop2大数据定义和发展历史1大数据在其他行业的应用2FusionInsightHadoop企业版介绍4FusionInsightHadoop成功实践5大数据在运营商的应用与挑战33大数据(英语:Bigdata[1][2]),或称巨量资料、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。网络上每一笔搜索,网站上每一笔交易,敲打键盘,点击鼠标的每一个输入都是数据,整理起来分析排行,它的功能可不仅仅止于事后被动了解市场,搜集起来的资料还可以被规画,引导开发更大的消费力量。Data-intensivecomputing:Data-intensivecomputingisaclassofparallelcomputingapplicationswhichuseadataparallelapproachtoprocessinglargevolumesofdatatypicallyterabytesorpetabytesinsizeandtypicallyreferredtoasBigData.Computingapplicationswhichdevotemostoftheirexecutiontimetocomputationalrequirementsaredeemedcompute-intensiveandtypicallyrequiresmallvolumesofdata,whereascomputingapplicationswhichrequirelargevolumesofdataanddevotemostoftheirprocessingtimetoI/Oandmanipulationofdataaredeemeddata-intensive.业界大数据定义4大数据发展历史2003Greenplum2005AsterDataVerticaParAccel2006Hadoop创始人根据谷歌论文创建原型2008Hadoop在Yahoo实验室完成孵化2010、2011华为在SmartCare解决方案中集成Hadoop、流处理、MPPDB并在2012年推出大数据解决方案平台产品家族FusionInsightIBM推出大数据系列产品InfoSphereBigInsights,StreamsEMC收购Greenplum,与MapR合作,推出GreenplumHDHP收购Vertica5技术趋势:封闭平台日渐路窄,开放创新势不可挡传统大数据平台公司被迫开源,大公司加入ApacheHadoop开源生态系统开源生态系统继续保持活力,相关创新日趋加速2010Q2发布InfoSphereBigInsights2011Q4放弃自研平台,发布HDInsight2011Q2,发布GreenplumHD2011Q2,LexisNexisRiskSolutions‘HighPerformanceComputingClusterwillbeofferedasopensourcecodepittingitagainstHadoop.但是为时已晚,HPCC将被迫局限在较小的市场。2008Q3Facebook贡献Hive项目,成为Apache社区正式项目2013Q2宣布秋季将会开源Presto,新的高性能数据分析引擎贡献测试套件YCSB,并行计算调度框架YARN贡献高性能SQL查询引擎ImpalaWitharedesignedfullydistributedAPI,HDFSintegrationandawiderangeofnewmachinelearningtoolkits,GraphLabisnowfaster,morescalable,andmorepowerfulthaneverbefore.6大数据定义和发展历史1大数据在其他行业的应用2FusionInsightHadoop企业版介绍4FusionInsightHadoop成功实践5大数据在运营商的应用与挑战37企业大数据应用的三种模式卸载模式是指在一些应用明确,不涉及实时复杂SQL运用,数据量超大的场合,采用大数据NoSQL技术来替换传统的关系数据库加存储阵列的体系。在一些数据来源不变的场合(尤其金融行业),在不需要数据库事务的保护下,对ETL过程进行处理。“卸载”模式“全量洞察”模式“新数据”模式全量洞察模式是指以往由于系统性能、时间、成本等多方面的考量,客户洞察计算基于少部分样本,比较依赖复杂的模型和经验。由于大数据计算平台的出现,可以基于拥有的全量数据进行分析,从而可以在短时间内对很多模型进行全量计算,降低对复杂模型的依赖,通过实践反馈来验证和选拔有效的模型。业界已经证明,大量数据加简单模型,要比部分数据加复杂模型,要来得有效。新数据模式是指将以往已经收集,但是没有纳入模型的数据纳入模型,参与分析。将以前认为没有收集价值的数据,收集起来,参与分析。将以前无法收集的数据,采用最新的技术,加以收集,比如呼叫中心的交流记录。8大数据在企业广泛落地,取得实效欧美半数以上的企业在2012年开始启动大数据相关项目,其中约有45%以上的企业在当年看到收益。Telefornica发布了名为SmartSteps的服务,通过移动电话的群体信息让其他公司、公众部门可以得知手机群体的移动特征。大数据应用领先者的主要特点,一是利用线上洞察,改善客户的线下体验,二是基于客户的物理位置,进行营销。宝洁和Netflix,利用它们在线互联网服务获得的用户行为数据,可以深入洞察用户偏好,从而在新产品、新服务的开发方面带来洞见。通过收集用户在使用产品、服务的过程中的产生的数据,可以方便的检测到产品设计中存在的问题,从而作为改进的基础,这是大数据应用的主要场景之一。比如一些银行考虑收集自营电商、门户网站的点击流数据,作为客户偏好分析的一个输入。2012年大数据在美国、欧洲、拉美开始广泛落地,并且在电信、旅游、金融取得效果《TCSBigDataGlobalTrendStudy2013》2012年大数据应用领先企业的特征是利用线上获得客户行为数据来优化线下体验和基于客户地理位置展开营销活动9应用领先者特点:基于多源数据的客户洞察Forbanks,thecombinationofhugevolumesofdatasuddenlyavailabletotheorganizationandthenewtypesofdatatheyhaveaccessto(asidefromaccount-specificortransactiondata,theycanalsonowlookatunstructureddatasuchascallcenterlogs,geospatialinformation,andsocialmediaactivity)presentsagreatpotentialtoaddmuch-neededcontexttothebank-to-customerrelationship.IDC《BuyerConversations:Westpac'sJourneyintoBigData—FromTransactionalDatatoBigDataAnalytics》消费者不再是一堆毫无差别的数字交易事务,或者是一个Cookie文件,或者一堆交易历史或者人口学数据,他们是具有切实差别的真实存在的个体。《TCSBigDataGlobalTrendStudy2013》大数据应用领先企业更显著的引入了半结构化数据,以及引入以前没有使用的数据源通过引入客服数据、客户浏览网站的点击流数据、客服消费行为发生的时间、空间数据,可以全面刻画客户半结构化数据引入的多少,是领先者与落后者之间的主要差别“新数据”引入的多少,是领先者与落后者之间的主要差别10日本“N系统”(自动车ナンバー自动読取装置),可以全年无休对道路上行驶的车辆牌照拍照存盘,记录下行驶的路线与时间。同时在数据库中比对被通缉中嫌犯或窃赃车的车牌号码,如果发现符合,该系统立即通知在外巡逻的警员(配合携带式接收装置),及时对该车辆进行栏截围捕。另外、东京都警视厅也配合“3D脸部自动辨识系统”辨识人貌鉴定,警察如需调查案情之时,就能够调出数据库数据,进行交叉比对,筛选出可疑的犯罪目标。大数据在智慧城市中的应用11工行新任行长易会满提出未来工作五大设想易会满指出,工行经过多年的发展,已经建成了国际领先的IT系统并积累了海量的经营数据。下一步工行将重点关注在大数据背景下如何建设信息化银行,利用海量的结构化、非结构化数据,通过集中、整合、挖掘、共享,来进一步发挥好信息的价值和创造力。这个工程推进以后,工行的整个营销品质、客户服务品质、风险管理、流程优化、内部管理,会得到根本性的提升,对管理理念、经营思想也会带来全面的影响和提升。要将大数据体系和信息化银行建设作为全行未来创新发展的一项重要任务。大数据在金融行业的应用美国银行,基于客户的地理位置进行实时报价Inanotheremerging-technologyexample,thebankisconsideringcombininggeolocationwithitsBankAmeridealsmerchant-fundedrewardsprogramtodeliverofferstocustomersinrealtimewhiletheyareinaparticularstore,suchasBabyGap.12大数据定义和发展历史1大数据在其他行业的应用2FusionInsightHadoop企业版介绍4FusionInsightHadoop成功实践5大数据在运营商的应用与挑战313大数据在国外运营商的应用JuergenUrbanskiChiefTechnologistBigDataandCloudatT-Systems(DeutscheTelekom)ZürichArea,Switzerland|InformationTechnologyandServices“HadoopastheOSforbigdata”“ByT-System’sestimates,infiveyears,80percentofallnewdatawillfirstlandinHadoop’sdistributedfilesystem(HDFS)orinalternativeObjectStoragearchitectures.”NTTDATAcanhelpyouunlockthebusinessvaluefromyourBigData.NTTDATAdefinesthreelayersforitsBigDatasolutions.BigDataPlatform:Engineforprocessinghugeamountsofdataindiverseformats.Hadoopandin-memorydatabasesserveassuchplatforms.AnalyticsSoftware:Librariesequippedwithhigh-leveldataanalysisfunctionsanddataminingpackages.AnalyticsConsulting:Frameworksanddesignbestpracticestooffersolutionsforeachoperationchallenge.14Hadoop在国内电信行业的使用场景云ETL历史数据管理(流量清单查询)客户刻画实时营销(多源数据整合分析挖掘)基于HBase高并发海量清单数据查询利用大数据技术,实现传统应用环境的技术换代创新,降低成本,提升性价比通过在线应用和网络深度分析捕获更多客户数据,与已有数据充分进行整合分析,形成客户刻画基础平台,供所有应用共享基于HiveQ