内部资料注意保密深化“大云”研发,推动“大云”应用落地研究院业务支撑所2011年11月内部资料注意保密提纲“大云”1.5产品最新进展¾系统研发¾落地应用¾国际交流及产业合作“大云”1.5主要产品组件介绍下一步研发计划应用演示内部资料注意保密“大云”1.5产品总体架构IT基础资源对象存储BC-oNest数据仓库系统HugeTable系统监控和管理CloudMaster平台安全管理CloudSecurity并行数据挖掘工具集BC-PDM文件中间件BC-NAS并行数据抽取转换BC-ETLEMailIDC服务…经分KPI集中运算结算系统云计算资源池系统搜索引擎BC-SE经分系统ETL/DM信令系统物联网应用弹性计算BC-EC弹性块存储BC-Blockstore商务智能平台BI-PAAS数据管理/分析类计算/存储资源池BC-Hadoop数据存储和分析平台IaaS产品分析型PaaS产品“大云”产品1.0优化1.5新增大云1.5产品进一步补充、完善了大云1.0IaaS产品线和分析型PaaS产品线。内部资料注意保密“大云”应用逐年丰富,产品成熟度稳步提高从最初少量的应用试验发展到每年几十次的应用,每年最少增加50%已在盘古搜、WAP/彩信双业务云资源池、无线城市等商业系统以及南方基地云计算实验室中得到广泛应用大云应用涵盖经分、信令监测、增值业务、互联网、电子政务等多个领域,用户包括地方政府、中国移动集团公司和省公司、院校和科研单位、互联网公司等481622完成软件著作权登记结合一线业务需求广泛进行试验试点,并开始商用部署和使用通过中国软件评测中心测试,软件成熟度满足商用内部资料注意保密案例分析-企业内部资源池背景:中国移动南方基地内部云计算资源池试点,部署WAP网关、MMSC双业务系统,并作为全网的备份节点规模:支持WAP业务30,000TPS、彩信业务3,000条/秒的并发,并预留30%的资源冗余主要功能资源池管理资源申请与部署资源配置变更资源访问使用资源回收资源监视资源隔离用户管理运营管理门户存储量支持PB级存储容量导入速率大于2400行/秒导出速率大于50000行/秒索引查询系统存储100TB数据时,查询响应时间小于10秒可用性节点可用性99.9%;系统可用性99.999%双系统资源共享,统一管理,降低建设和运营成本内部资料注意保密案例介绍-互联网搜索引擎盘古搜是新华社和中国移动成立的合资公司,基于BC-SE的第一个搜索引擎版本已经于2011年2月22日正式上线。大云BC-SE团队目前正与盘古搜索实验室紧密配合不断进行搜索引擎的优化,大云的云计算管理系统、海量海量数据存储、处理以及数据挖掘技术也陆续在盘古搜索应用。云计算基础设施操作系统、硬件服务器、机架、数据中心通用云计算软件平台大规模计算、海量存储、智能化调度和管理,提供通用的能力多样化的搜索引擎业务快速研发、测试和上线通用搜索引擎软件平台采集、分析、索引、检索高效能低成本业务快速上线大容量高性能水平扩展动态调度BC-CloudMaster云计算管理系统大云BC-Hadoop/HT/oNest/PDM海量数据计算、存储、管理大云BC-SE搜索引擎内核搜索引擎业务,如网页搜索内部资料注意保密案例介绍-无线城市应用黑龙江无线城市:大云平台可以解决业务变化快、建设周期短、用户规模和负载不确定、系统高可靠要求高等问题。在黑龙江移动数据中心部署大云BC-EC系统,并批量部署无线城市应用,上线至今一直在稳定运行内部资料注意保密上海公司某公司业务内容:用户信息日汇总:包含用户背景信息(资料)、用户行为信息(通话)、用户消费信息(费用)。每日数据量约40GB,现网运行时间约6小时。数据仓库的中间汇总层,是对底层数据的整合,后续60%的应用都基于该表进行•目标:实践BC-ETL对经营分析系统的支撑能力,提升海量数据处理能力,降低现网数据仓库负载,案例介绍-经分业务实践现网配置硬件小型机6台5350,6台5380,12台5450总存储总存储103TB数据仓库Teradata大云平台BC‐PDM硬件30台HP PC Servercpu单路四核成本45万Teradata任务阶段特征BC运行时间现网运行时用户语音通话基础汇总数据量大但复杂度低31分59秒19分7秒获取用户相关信息数据量中且复杂度中38分9秒30分6秒集团客户信息汇总数据量小且复杂度低3分12秒26秒汇总用户信息日表数据量大且复杂度高1小时59分52秒4小时10分33结论:功能上‐BC‐PDM能满足现网需求,性能上‐数据量大、复杂度高的任务BC‐PDM更有优势,且仍有优化空间某公司业务内容:复杂流程业务--校园模型识别:省经校园市场客户相关基础和汇总数据。数据量85GB。TB级数据业务--GPRS清单月汇总:把用户当月每天的GPRS话单,按用户,品牌,接入方式,业务类型等维度进行汇总。现网每天花1-2小时做累加完成现网配置硬件(小型机)4台P595(30cpu2.3GHz 120G),P6‐P570(8cpu 4.7GHz,32G),P5‐P570(8cpu 1.6GHz,32G)存储2台DMX‐3 72TB可用容量(raid5)数据仓库DB2大云平台BC‐PDM硬件20台HP PC Servercpu单路四核成本30万DB20200040006000800010000120001400016000模块一模块二模块三模块四BC平台现网平台业务类型特征BC运行时间现网运行时复杂流程业务8个BC-PDM操作流26分28秒1小时TB级数据业务TB级2小时5分54秒15~20小时结论:针对复杂流程业务,BC‐PDM的ETL工作流方式基本实现现网系统中SQL语言具备的功能针对TB级数据业务,BC‐PDM处理大数据量的性能和现有数据库性能相比有很大提升内部资料注意保密“大云”合作伙伴赫德阳大云开发商设备商应用软件开发商高校科研机构外部用户系统集成商天津河西区经信委亦庄开发区清华科技园福建省政府内部资料注意保密标准化、国际交流与合作国际云计算测试床2010年9月正式加入国际云计算测试床OpenCirrus,并在OpenCirrus峰会上发言3人次,“大云”平台成为OpenCirrus全球节点之一。2012年6月,中国移动将举办第七届OpenCirrus峰会。Hadoop开源社区与Hadoop社区进行合作,提交多NameNode、磁盘管理等解决方案,贡献源代码;在Hadoopsummit上发言.云计算标准化参加DMTF、SNIA、CCSA标注化会议,跟踪云计算标准化状态,作为中国国家体成员参加ISOSC38云计算标准化会议并代表中国发言。作为组长单位参加IT服务标准化工作组云计算专业组的筹建工作,并作为负责人组织《云计算服务通用要求》的国家/行业标准编写工作。在SOA标准工作组牵头初步建立弹性计算、对象存储两个项目。内部资料注意保密提纲“大云”1.5产品最新进展“大云”1.5主要产品组件介绍¾弹性计算系统(BC‐EC)¾对象存储系统(BC‐oNest)¾弹性块存储(BC‐EBS)¾结构化海量数据存储系统(BC‐Hugetable)¾并行数据挖掘系统(BC‐PDM)¾搜索引擎(BC‐SE)¾云计算管理系统(BC‐CloudMaster)¾商务智能平台(BI‐PAAS)下一步研发计划应用演示内部资料注意保密大云弹性计算系统(BC-EC)资源池管理虚拟机管理:虚拟机开关机,迁移,备份恢复虚拟网络管理镜像管理:自动制作镜像模板管理安全组固定IP弹性负载均衡VPN接入支持XEN和KVM逻辑资源物理资源虚拟网络虚拟存储统一管理按需分配动态调度负载均衡应用1虚拟处理器资源管理资源抽象应用2应用3应用4大云弹性计算系统BC‐EC:BC‐EC(大云弹性计算)提供一种新型的数据中心服务器管理能力和IaaS服务模式,用户可以通过BC‐EC提供的网络服务申请和管理大云平台提供的虚拟服务器资源。BC‐EC可提供面向IaaS服务的公有云,私有云和混合云的解决方案。主要功能:内部资料注意保密对象存储系统(BC-oNest)数据块存储层:块数据存储节点集群,执行数据块存储、校验以及数据块的读取、副本修复等任务;元数据存储层:提供元数据信息的存储、备份,块数据节点的调度,以及一致性哈希空间的维护;对象接口访问层:提供C++、Java版的对象访问接口库;分布式锁系统:奇数台节点(如5台)组成的集群,采用PAXOS协议,为分布式系统提供可靠的低粒度锁服务以及拓扑管理和事件发布、通知服务;应用层:提供对象和容器的Web访问接口(REST/SOAP)和业务使用门户,实现各种存储业务的服务;BC-oNest:是通过键值查找数据文件的存储模式。适用于互联网相册、邮件等海量小文件、数据备份等的数据存储。内部资料注意保密弹性块存储系统(BC-ElasticBlockStore)BC-ElasticBlockstore:基于廉价PC集群实现,使用闲置硬盘空间提供弹性块设备服务。服务提供跨越物理机的数据的冗余,保证用户数据的可靠性。用户可根据需求申请可靠的标准块设备。主要特点•可靠性:通过跨越物理机的数据冗余提供高可靠性,保证用户数据的可靠和可用•高性能:虚拟机读取性能合计可达本机磁盘的两倍左右•低成本:使用低成本PC服务器的闲置空间实现•弹性申请:用户可按需申请大容量的标准块存储•接口支持:提供完善、简单的访问和管理API•数据持久性:支持数据持久性存储,提供不依赖虚拟机实例的块存储BC-EBS为弹性计算(如BC-EC)及其它需要用户数据的持久性保存的应用提供弹性、高可靠、低成本的解决方案内部资料注意保密海量结构化数据存储系统(BC-HugeTable)基于Hadoop的海量结构化数据存储系统,利用低成本硬件提供高性能的数据加载、索引查询和并行分析能力,对外提供易于应用集成的数据访问接口9大容量:支持PB级别的数据存储能力9低成本:基于PC架构,不需要外接集中存储设备9高性能:秒级别索引查询、数据并行扫描9可靠性:数据冗余备份永不丢失;全系统无单点9可定制:根据应用需求选择索引类型及存储引擎9接口丰富:提供标准的JDBC/ODBC/SQL接口;提串行Scan接口和分布式MapReduce接口9外围工具:支持数据、性能、故障、配置、日志管理功能;支持外部数据并行加载;支持数据快速备份、恢复内部资料注意保密并行数据挖掘系统(BC-PDM)任务任务分解…M1M2MiR1Rj子任务block1数据分割block1block1block2block2block2block3block3block3M1M2MiR1R2…R2…RjHadoopDFSHugeTableMapReduce并行数据挖掘各种海量数据处理、挖掘应用数据交换并行数据探索Web GUI/工作流引擎SQL脚本CLI命令行应用用户权限管理•高效丰富的数据ETL操作:支持数据清洗、转换、集成等7大类45种ETL•海量数据的挖掘算法:支持分类、聚类、关联分析等3大类共15种算法•海量数据探索能力:支持数据统计、变量分析、分布特征探索等•大规模社交网络分析:支持网络特征分析、社团发现和演化、社团展示等•多模式数据接口:支持与RDB直接交换数据、支持Hive、CSV格式数据•支持SaaS服务模式:Web浏览器使用,并可支持应用共享•支持丰富的用户UI:支持Web图形化方式创建数据分析逻辑,支持SQL脚本方式,支持CLI命令行方式•支持二次开发:JavaAPI、WebServiceBC-PDM:支持SaaS模式的海量数据并行处理、分析与挖掘系统。适用于经营决策、用户行为分析、精准营销、网络优化、移动互联网等领域的智能数据分析与挖掘应用主要特点并行数据ETL社交网络分析广域网内部资料注意保密搜索引擎(BC-SE)分布式文件系统网页采集采集管理网页链接重要程度计算搜索引擎核心层前台展示层关键词检索缩略词检索检索词提示检索词纠错拼音检索网页快照日志处理分布式数据库Map/Reduce云计算平台层URL分发URL提取网页爬