刘鹏gloud@126.com@专注云计算中国云计算www.chinacloud.cn中国大数据www.thebigdata.cn23大数据成为全球新热点数据来源:百度搜索量统计大数据现象大数据产生原因来自“大人群”泛互联网数据来自大量传感器的机器数据行业内容数据多结构专业数据全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…在web2.0的时代,人们从信息的被动接受者变成了主动创造者BigData时代到来Web2.0时代新摩尔定律•全球数据总量每18个月翻番。•大数据已经成为一种自然资源•大数据不被利用就是成本未来增长不可限量来源:IDC数字宇宙研究报告,2011.11据IDC预测,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB(35,000,000PB),为2009年(0.8ZB)的44倍数据利用比例直降•计算速度越来越快,企业却越来越笨。•今天很多企业能弄懂7%的企业数据,但这个数字很快会下降到4%,然后继续螺旋式下降。IBM实体分析首席科学家JeffJonas数据使用率提升10%的影响预测2020年,大数据应用市场规模将达到近2600亿美元公共管理医疗制造位置服务零售大数据市场前景对欧洲的公共管理部门来说,大数据每年有2500亿欧元的潜在价值--比希腊的GDP还高对美国医疗行业来说,大数据每年拥有3000亿美元的潜在价值生产商可以利用大数据使产品研发、组装成本削减50%,人力成本削减7%利用全球的个人位置信息,每年可以取得6000亿美元的消费者价值零售商可以利用大数据使经营利润取得60%的增长大数据成为全球新的经济增长点各国政府高度重视美国:奥巴马政府3.29宣布“BigDataResearchandDevelopmentInitiative”将投入超过2亿美元推动大数据提取、存储、分析、共享、可视化等领域的研究,并将其与历史上对超级计算和互联网的投资相提并论中国:工信部物联网十二五规划信息处理技术作为4项关键技术创新工程之一被提出包括海量数据存储、数据挖掘等IT盛宴基础设施NoSQL/NewSQLDatabasesHadoopRelatedMPPDatabasesCrowdsourcingClusterServicesManagement/MonitoringStoragesecurityMonitoringAnalyticsSolutionsDataVisualizationSocialMediaStatisticalComputingSentimentAnalysisLocation/People/EventsITAnalyticsReal-TimeCrowdsourcedAnalyticsSMBAnalyticsAdOptimizationPublisherToolsMarketingIndustryApplicationsDataMarketplacesDataSourcesPersonalDataFrameworkProgrammabilityDataAccessCoordination/WorkflowReal-TimeStatisticalPackagesMachinelearning分析应用数据源基础设施/分析开源项目1.Volume2.Variety3.value4.Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是BigData数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量大数据的4V特征16大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。大数据的构成大数据涉及的关键技术需求技术描述关键技术海量数据分布式处理Hadoop生态系统针对大量数据进行分布式处理的系统框架实时数据处理StreamingData流计算引擎非结构化数据处理文本处理技术;自然语言理解;多媒体处理技术…文本内容分词与分析;图像、音视频分析可视化交互界面通过交互式可视化界面辅助用户进行分析交互式可视化探索分析技术智能数据分析大规模机器学习技术计算机模拟人类学习行为,包括特征提取、图形生成等保护隐私数据与信息个体的对应关系等安全技术高效存储和管理大规模数据数据存储备份技术、数据放置和调度技术、数据溯源存储、放置、调度大规模的数据数据隐私保护数据隐私防范保护措施与数据安全技术大数据采集处理大数据分析存储、组织、管理大数据的技术领域-分布式领域海量存储GFSHDFSAmazonS3TFSCEPH离线计算MapReduceTenzingHive/PigDremelDrillImpalaElasticMapReduce在线计算SpannerBigTableHBaseSimpleDBDynamoDBRedisMongDB流式计算S4Puma2StormStreamBase相关领域ChubbyZookeeperPregelHAMAMahoutSparkCaffineProtocolBufferAvro/Thrift大数据的技术领域-数据分析与挖掘相关工具:SAS,R,Rhive/Rhadoop,Mahout,Xlib,OpenMPI…国外运营商利用大数据应用•按流量种类的固定收费,解除用户流量后顾之忧•培养用户使用数据业务习惯,增强用户粘性•针对预付费用户群,扩大流量收入•面向智能终端用户•面向低端、高度同质化竞争市场西班牙电信:包月流量套餐定制(根据客户访问内容和SLA要求,提供不同费率套餐)T-Mobile:应用大数据技术,降低客户流失率。•在多个IT系统中整合了大数据应用,对客户交易和互动数据进行综合分析,更准确地预测客户流失率。通过将社交媒体数据和CRM和计费系统中的交易数据进行综合分析,T-mobile在一个季度内将客户流失率降低了50%。中移动依托大云,试点经分中国移动:历时多年打造大云平台集团组织技术验证:基于大云平台,以经分为切入点,利用现有数据,探索大数据技术,已在河北等三省试点应用探索:尝试利用大数据技术识别异常话单产品线:分析型PaaS产品,大数据处理的一个主要产品,包括Hadoop基础平台。基于Hadoop的大数据仓库。并行数据挖掘工具。搜索引擎系统,基于中国移动“大云”平台,推出面向公众的搜索业务”盘古搜索”。联通试点流量清单查询中国联通:以“流量清单查询”探索大数据技术平台:英特尔至强平台及“Hadoop开发版”大数据解决方案。功能:客户服务人员提供客户上网记录的快速查询服务,或为客户本人提供高效的异常大流量上网记录自助查询服务。上线:完成北京、黑龙江、浙江、重庆试点,预计将会在今年10月份正式发布。建设模式:联通的大数据平台是建立在数据大集中的基础之上,“我们现在在集团公司进行统一部署,各个省分仅仅是做数据的采集,按照业务实时性将数据传送到集团公司,由集团公司统一处理。”互联网公司:阿里巴巴阿里巴巴的企业愿景是要做分享数据的第一平台。大数据时代“将阿里集团变成一家真正意义上的数据公司”知道“你是谁,你想要什么”阿里巴巴集团所积淀的商业数据,支付宝、淘宝、阿里金融、B2B的数据都会成为这个巨大的数据分享平台的一部分,将会获得深度发掘和应用。24马云成功预测2008年经济危机•“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”•通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。——《大数据时代》马云:大数据赋予我们洞察未来的能力禽流感和板蓝根数据化运营…行业分析…•大数据案例:阿里金融–推动中国银行业的变革–商家小额贷款•无抵押无担保•1秒钟贷款、24小时随借随还–信用支付•无准入门槛•基于数据模型自动计算额度2010年6月阿里巴巴小额贷款股份有限公司成立,标志着阿里巴巴电子商务+金融服务商业模式的建立致力于为全球所有人创造便捷的网上交易渠道阿里国际业务,协助全球小企业通过电子商务拓展海外业务,国际业务用户数2940万,企业商铺数量250万阿里小企业业务,主要经营服务中国小企业的电子商务平台,小企业注册用户数为5480万名,企业商铺数量为840万C2C网上购物平台,旨在建立全面完善的电子商务生态系统,拥有8亿多条产品信息和5亿名注册用户中国平台式的B2C购物网站,中国全面的品质团购网站提供全面商品、商家、购物优惠信息的网上购物搜索引擎先进的分布式云计算服务开发商,电子商务数据采集、海量电子商务数据快速处理,和定制化的电子商务数据服务2005年10月收购中国雅虎,为阿里巴巴集团的全资子公司中国主流的第三方网上支付平台,阿里巴巴的关联公司阿里巴巴集团七大事业群浙江阿里巴巴小额贷款股份有限公司重庆阿里巴巴小额贷款股份有限公司2010年6月8日成立,股东包括阿里巴巴(70%)、复星集团(10%)、银泰百货(10%)、万向集团(10%),是国内首家面向电子商务领域小微企业融资需求的小额贷款公司专注于小微企业的融资服务提供商2011年6月成立,为阿里巴巴第二家小额贷款公司阿里巴巴介入金融服务领域,核心优势是其拥有的庞大的客户资源和数据,并能基于云计算平台通过对客户信息的充分分析、挖掘,实现对客户信用水平和还款能力的准确、实时把控商品供应商(企业和个人)商品购买者(企业和个人)云计算平台信息流交易信息信息流网络数据模型在线视频调查模式交叉检验技术(辅以第三方验证)客户信用水平和还款能力评估报告和结果交易信息发放贷款监控客户现金流,如出现违约,可截断客户的现金流各渠道信息和调研获得的客户信用记录、交易状况、投诉情况海量的客户和交易数据赋予了阿里巴巴掌握客户信息及其交易行为的强大的优势阿里小贷公司建立了多层次微贷风险预警和管理体系,实现了贷款前、中、后三个环