徐萌：中国移动大数据应用实践218074138

tjq1989
8 ℃
2016-12-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

中国移劢大数据应用实践徐萌中国移动通信研究院云计算系统部2013年12月中国移动网络规模和拥有用户数全球第一900,000基站、99%人口覆盖、237国家漫游7亿3千万以上用户，占据中国大陆65%市场份额位于珠峰大本营的世界最高移动基站6500m2008年北京奥运会合作伙伴连续四年入选道.琼斯指数DJSI《金融时报》发布的“全球最强势100品牌”，排名第10位2010年《商业周刊》评选全球创新企业50强，排名第18位33620012006200920102872001-2012世界500强排名2005200320042002224230242200720220081801489977872011812012移动互联网用户流量激增，手机数据化、宽带化趋势明显用户分布数据来源：Infoma2013全球移劢互联网用户数量激增，已3倍于固定互联网用户数量流量分布数据来源：Cisco2013移劢互联网流量激增，2012年底，移劢数据流量占比超过13%时间分布移劢互联网：通信功能=80：20数据来源：GSMA2013移劢互联网应用使用时间激增，是使用通信服务时间的4倍中国大陆移劢互联网发展有相类似的趋势，截至2013年6月，中国大陆手机网民已达4.6亿，上半年移劢互联网接入流量同比增长62.6%（CNNIC、工信部）transactionDBMSETLDWAnalysisClusterUnstructureStreamMultipledatasources(MapReduce)传统数据分析处理大数据处理•面向结构化数据，非结构化处理效率低•基于昂贵硬件（小型机+磁盘阵列）或一体机•硬件平台兼容性差：在跨代硬件或跨厂商硬件环境下常常无法部署•扩展性达到PB级之上可选厂商较少，易绑定TraditionalDB/DWTBPBDistributedarchitectureEBZB•具备结构化/非结构化混合分析的能力,大数据多为非结构化•基于消费级硬件，以常态化硬件故障为设计出发点，丌依赖高性能、高可靠性硬件保障系统性能和可靠性。•基于通用硬件，平台兼容性好，可跨代，跨厂商硬件部署•扩展性高，业内有上万节点级部署案例，大陆有千节点级部署MPPDW+HadoopAnalysis大数据处理核心基础的转变用户协议业务访问终端上行下行电信运营商发挥管道优势，深入挖掘大数据的价值借助云计算技术和运营商优势，将大数据信息转化为商业价值，促进业务创新1.2.3.改善用户体验：智能语音门户通过知识库和语义搜索技术实现业务知识的机器智能回答助力市场决策：充分挖掘用户的移动互联网行为特征，提升对用户消费偏好的精准把握，帮助市场营销等决策，实现精准营销。优化网络质量：利用信令数据支撑终端、网络、业分析需求流量分析流量的构成和大趋势分析等务平台关联分析，优化网络，实现网络价值最大化用户分析用户兴趣偏好、近期关注、活动范围等流量清单查询为用户提供流量的去向查询等网络质量和效率分析网络价值分析客户感知及行为分析PI网元能力层KQI业务质量层KPI网络性能层QOE客户感知层„„上网日志内容字段帐号类型类型URL信息流量流量劣力市场决策业务端到端分析优化网络质量改善用户体验2007年3月，启动了“大云”研发项目2008年11月，作为副主任委员单位发起成立了中国电子学会云计算专委会；2010年1月，作为副理事长单位发起成立了中国云计算技术和产业联盟；2011年8月，作为副理事长单位发起成立了中国云计算发展与政策论坛；2010年5月，加入云计算国际测试床OpenCirrus，成为国内第一个成员单位；2011年12月，正式发布“彩云”个人云服务2012年12月，采用大云产品的国家教育云正式上线2013年6月，为了加强云计算和大数据开发，研究院基于大云团队成立云计算系统部2013年9月，大云项目被列为集团战略性重大项目之一中国移动是国内云计算的先行者和倡导者•中国移动从2007年就开始云计算的探索和实践，是国内云计算的先行者和倡导者，积极参与国内外的标准化和产业推动2009年12月建成国内规模最大的云计算实验室，服务器节点数超过1300个“大云”是中国移动为助力移动互联网转型、实现IT支撑系统升级而实施的云计算创新研发计划“大云”是中国移动为助力移动互联网转型、实现IT系统架构变革而实施的云计算创新研发计划。项目研发将满足中国移动IT系统高性能、低成本、高可扩展、高可靠性的需求，推动IT支撑系统集中化的实现，增强大数据处理能力，打造移动互联网时代核心竞争能力2平台研发应用研发试验/试点314标准化产业推劢5策略研究大云方案/规范2007.32008.32007.7确定了云计算研究方向2010.52011.4发布大云1.5部署Hadoop系统进行大数据研究发布大云1.0发布大云2.02006.92006年2月，大数据基础软件Hadoop诞生2006年9月，亚马逊AWS服务正式上线2008年1月，Hadoop成为Apache顶级项目2008年4月，GooglePAAS服务GAE试商用2010年7月，云计算基础软件联盟OpenStack成立2011年7月，阿里云上线试商用在双业务云部署在公有云部署在一级私有云部署2013.62011.112012.62012.8“大云”研发历程“大云”是中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究、现网技术支撑及产品开发计划。项目从2007年3月启动，是国内最早启动的云计算研发项目之一。云计算引入策略、规范制定、产品研发、应用试验、产业链培育、标准化行业动态Google云计算论文：GFS/2003年，MapReduce/2004，BigTable/20062003CloudSecurityCloudMaster对象存储BC-oNest系统监控和管理平台安全管理移劢互联网业务平台IDC服务…经分集中化结算系统搜索引擎BC-SE经分系统ETL/DM信令系统云计算物联资源池系统网应用弹性块存储BC-EBS数据管理/分析类商务智能平台BI-PaaS并行数据挖并行数据掘工具集抽取转换BC-PDMBC-ETL数据仓库系统BC-HugeTableIaaS产品计算/存储资源池弹性计算BC-ECPaaS产品“大云”产品BC-BSP数据并行框架BC-Hadoop数据存储和分析平台“大云”2.5产品体系架构内存处理引擎BC-DME实时交易类SQL数据库BC-RDBK-V数据库BC-kvDB2.0产品体系2.5新增产品2.5功能增强版本不一，缺乏规划•集成商丌同，版本丌同•大云/华为/亚联/Intel/天云自有人员不足，控制力弱•主要由集成商引导和控制•自有力量薄弱•靠多家多轮测试建设大云产品开源社区增强产品的研发和推广能力在试点中发现省公司关于使用Hadoop的问题：调优复杂，门槛较高•应用不平台绑定•调优斱法复杂多样开源的优势：••••吸引多斱研发力量：包括集成商、应用开发商、高校科研机构、互联网企业等拓展应用渠道：推进开源产品的应用实践促进统一版本:促进集团、省公司选择内部开源版本，全国版本统一化，利于核心技术的掌控提高集成商运维积极性：开源代码透明、可维护程度高将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源，尝试开源模式！大云开源社区BC-Hadoop最新进展••社区建设：在大云实验室搭建开源站点，选择github作为镜像站点，并确定了开源组件模块和基线版本开源合作：研究院大云团队和亚联、华为研发人员组成核心团队负责社区研发的启劢，开源社区迓得到了来自卓望、新大陆、拓维、东软、宜通、亿阳、斯特奇、北邮和东北大学等公司和院校的支持•大云开源社区期待幵欢迎各方的加入！•“大云”应用逐年丰富，产品成熟度稳步提高•大云的商用涵盖公司“两朵云”以及外部行业云，成功应用于移动IT支撑系统，互联网业务平台，公众服务云、教育云和电子政务云等领域。•大云产品已部署了超过3000台服务器，裸存储容量约15PB。•截止12年底，累计为公司创收和节省成本7000万元以上。2727211594大云实验室设备规模计算节点1180个，内核总数6432个，内存18.8TB，存储容量4PB+网络设备50台，千兆接入端口1248个，万兆接入端口384个，IB-40Gb接入端口80个大数据资源池测试区研发区虚拟化资源池统一运营管理平台自服务资源资源使用监申请、释放控和统计PUE=1.504大云实验室功耗统计大云实验室运营运维管理统一运维管理平台自动化安自动化故装部署障报修典型的应用场景之一：大数据批处理系统目标：针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据，幵进行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等幵行计算技术。技术要求丼例：针对海量数据实时离线批处理运算（ETL），通常时间要求较为宽松，如几个小时级别。数据ETL运算种类多，灵活性强，通常具有很强的定制化特征数据通常需要导出到数据库、数据仓库，提供报表能力需要灵活的调度的系统，便于系统需要和其他业务系统混合部署，提高资源利用水平例图：分时段汇总的业务场景典型的应用场景之二：大数据查询系统目标：针对海量结构化、半结构化数据的精确定位、区段扫描等条件查询操作，用于网络优化、帐详单查询、故障定位、搜索引擎等业务场景。采集预处理计算1计算2融合处理大数据库大数据库原始数据消息营业厅系统营业厅1营业厅2营业厅3营业厅4例图：帐详单查询系统技术要求丼例：针对海量数据实斲交互式查询，迒回时间在1秒钟左右。针对海量大数据规模实斲查询，数据规模可以达到100TB-10PB规模。数据插入通常采用批处理斱式，而查询通常带有条件，通常迒回结果数较少系统具备较高的并发性，支持大量用户同时查询，依然可以在给定时间出口迒回结果数据具有很高的可靠性和可用性要求其它人群人群1例图：客户分类识别应用典型的应用场景之三：大数据分析挖掘系统目标：针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设计模型、训练集幵选择算法（分类、聚类、关联、非结构化）。通常会使用各种分布式数据挖掘工具和算法技术要求丼例：针对海量数据实斲全量数据挖掘，规模达到10TB-PB规模。处理时间没有严格要求，通常达到几个小时，甚至更长时间需要支持各种并行计算模式，如MapReduce、BSP等数据挖掘系统需要较好的用户界面，用户通常具备业务知识，但是未必具备开发经验系统可以和其他系统混合部署数据具有一定的可靠性和可用性要求数据外存外存存储储储约800GB（经分13.5亿）经分50GB）（应用案例1：云化ETL完成了省公司每日近170亿的数据处理仸务统一调度16接口机文件级校验ODSDWDDW层库层库层库外转换应用层数据云计算Hadoop库内处理DW层数据处理流程说明：云平台从接口机采集数据入HDFS分布式文件系统，同时负责数据预处理、原始生产数据的清洗和转换，以及各平台间的数据交换，从而实现ODS-DWD-DW层数据处理加工工作。库外仸务由云平台统一调度、监控。传统数据仓库库内处理工作逐渐迁移至库外，只提供应用层展现功能。数据装载6、库外稽核文件采用LZO压缩（接近4:1）每天新增约4.6T的原始数据量，压缩后大概1.3T需先预处理，再进行文件采集，从而提高传输协议效率约1.3TB62亿条约3.4TB1文件采集到云平台原始数据4.6TB2Datanode数量Namenode数量日程序运行开始时间日程序运行结束时间总流程平均运行时长67台2台6:30:0018:00:0011.5小时大数据平台处理能力FTP方式获取上游数据通过Map/Reduce+SQLLoader将DW层数据加载至数据仓库（Oracle）指定表中触发FTP抽取任务，从指定FTP路径抽取文件，再存入HDFS文件系统流程70个流程16个流程81个345162亿条149亿条•爬虫速度500W网页/天/节点•网页解