1新一代分析型云数据库及数据库云计算平台目录•Greenplum•案例和Greenplum基本架构和优势•总结IT技术及市场发展趋势PC服务器性能爆发•2010年CPU都有6-8核•GigE&10GigE网已经很廉价•100core服务器集群耗资¥一百万云计算及虚拟化•灵活地分配应用软件所需硬件资源•私有云和公共云•降低成本,提升敏捷性,合并硬件平台高度竞争和难以预测的商业环境•商业智能在指引企业运营中起关键角色•降低成本必须Greenplum分析型数据库软件为新一代数据分析所需的大规模数据和复杂查询功能所设计4超级云数据库的到来Greenplum是数据分析应用的领航者“我们认为Greenplum是数据仓库软件技术的领导者.”-SteveHirsch,ChiefDataOfficer,NYSEEuronext•由世界级的技术和市场专家组成的团队•高端,大规模数据仓库、数据分析的领导者•提供超高性价比的数据分析平台•新一代数据仓库架构“EnterpriseDataCloud数据云”平台的先驱•Architect,TeradataOptimizer•Architect,TandemOptimizer•Architect,MSSQLServerOptimizer•Architect,OracleBit-MapIndex•Architect,OracleOLAP•Architect,InformixBit-MapIndex•Architect,TandemTransactionManager•Architect,MSSQLServerTransactionManager•Architect,MSSQLServerNLPGreenplum的竞争优势•易用性–并行处理由系统自动完成–无需人工干预–没有复杂的调优需求–只需加载数据库和查询•扩展性–可线性扩展到10,000个节点–每增加一个节点,查询、加载性能都成线性增长•灵活性–完全并行处理支持SQL92,SQL99,SQL2003OLAP,列数据库,透明压缩,MapReduce–支持任何schema(star,snowflake,3NF,hybrid,etc)–丰富的扩展性和语言支持(Java,Perl,Python,R,C,etc)全球各地的代表性客户7中国的客户8金融交通电信及互联网其它案例一:中国电子商务领导者——阿里巴巴•业务使用•通过分析用户的网络点击日志,进行产品关联分析,让客户可以快速的找到相近产品•原有解决方案及问题•OracleRAC(2008)•加载速度非常慢,真的令人无法接受——技术人员天天抱怨•做客户详细复杂的点击查询,要等上半天到一天,有时还出不来结果,浪费我们大量的时间——业务经理已经忍无可忍了•现在系统无法满足海量的历史数据的分析应用•Greenplum是幕后的英雄•海量加载由Greenplum完成•汇集了Alibaba.com/支付宝等所有的历史数据真是一个超级的海量数据库软件!——客户技术部门评价网站日志交易数据详细数据Greenplum•海量基础数据•大数据量查询Oracle加工数据•门户网站。。。。。。用户信息日志挖掘服务器H+1,20台信用/CTUDatamart/计算平台支付宝BI2010系统架构图数据仓库主库定时仸务计算60台数据源OLTP系统财务系统销售系统客服系统会员营销Datamart/计算平台抽取数据收集分发中心数据仓库工具与管理平台/调度系统)管理元数据(MetaData)管理CDC资金/财务等Datamart/模型计算平台CDCCDCCDC账户系统…数据仓库备库查询60台数据历史库/挖掘40台CDCCDC数据分发数据分发综合数据查询报表及仪表盘在线多维分析风控系统会员营销客户服务资金管理财务分析客户信用挖掘工具集商业智能信息门户KPI报表与业务报告业务指标仪表盘监控运营与营销数据分析综合数据查询挖掘分析报告用户访问行为跟踪竞争情报日志收集服务器20台日志/行为模型计算准实时,4台服务打点服务线上即时作弊判断线上即时个性化营销企业数据中心网站访问交易系统图例已经上线greenplum集群,总共120台即将上线查询集群总共60台案例二:RelianceCommunications(印度电信)•业务问题•CDR安全合规性和分析•已有方案•Oracle•数据规模•180TB,每天增长650GB•优势•将响应时间缩短90%“借助运行Greenplum数据库的Sun数据仓库设备,Reliance可以在快速发展,用户需求不断增加的数据环境中达到预期的高度响应能力。”-Reliance的副总裁和主管(决策支持系统)RajJoshi11响应时间(分)以前的数据库案例三:全球最大的电子商务商eBay也采用GP•业务需求•分析eBay整个系统采集的详细的历史事件数据,分析功能:有业绩分析,点击分析,欺诈监测等•现有设施•Teradata•特征•世界上最大的数据仓库•6.5PB数据量,每天增长18TB•2Master节点使用Sunx4540•96Segment节点使用72Sunx4540and24Sunx4500•16ETL节点使用Sunx4540•采用1TB7.2krpmSATA硬盘•使用SolarisOS及ZFS、RAIDZ•采用Greenplum实时压缩(1:4)•启用SegmentMirroring网站日志交易数据详细数据Greenplum•海量基础数据•大数据量查询Teradata加工数据•企业指标数据•高并发查询。。。。。。用户信息案例四:NYSE(纽约证券交易所)“Greenplumisreachingdataloadingspeedsofoverthreeterabytesperhour,andweknowthatthedatabasecanscaleevenfurtherthanthat.Greenplum’sfastperformanceiscriticalforus.”----StevenHirsch,ChiefDataOfficer,NYSEEuronext00.511.52TB/dayJan'08Jan'09•业务需求证券交易的合法性及安全性监控•被替代厂商Oracle,Netezza•DataSize数据量400T,日增量数据从1TB增长到2TB/day,34个节点•Benefit高速的查询性能,满足海量数据的高度复杂分析测试项OracleRACGreenplum65个小时48分钟OracleRACGreenplum200分钟1.5分钟80倍120倍完整应用PK单项查询PK测试结果提升倍数案例五:征途游戏,相同的硬件环境下PKGreenplum的应用场景举例•客户管理,数据仓库,BI,ODS,数据集市,数据挖掘,经营分析,网络分析,知识库管理,成本效益分析等项目•可以高效、低成本的存储、访问当前及历史数据–利用Greenplum最低的TB数据成本(高性价比)–利用Greenplum高效的数据加载能力,迅速将长期积累的数据入库–利用Greenplum的并行数据流技术,将企业遗留的文件数据加工入库–利用Greenplum的并行数据流技术,进行统计、访问和加工分析•需要结合数据库并行处理外部数据–数据非常难以加工处理成数据库表数据来存放(非结构化数据)–需要专用的处理程序处理(MapReduce)–处理结果适合数据库保存,或者需要结合数据库数据进行分析Greenplum基本架构大规模并行处理MPP(MassivelyParallelProcessing)无共享架构Shared-NothingArchitectureNetworkInterconnect............Master节点生成查询计划并派发汇总执行结果Segment节点执行查询计划及数据存储管理SQLMapReduce外部数据源并行装载或导出MPP/无共享架构的优势12/23/201017InterconnectLoading•最易于扩展的架构–云数据库和数据分析的最佳选择•自动化的并行处理机制–内部处理自动化并行,无需人工分区或优化–加载与访问方式与一般数据库相同•数据分布在所有的并行节点上–每个节点只处理其中一部分数据•最优化的I/O处理–所有的节点同时进行并行处理–节点之间完全无共享,无I/O冲突•增加节点实现线性扩展–增加节点可线性增加存储、查询和加载性能动态在线系统扩容Masterseg1seg2seg3seg4seg5seg6数据自动在所有节点上重新分布容量和性能在扩展后线性增长步骤1:新节点初始化加入MPP集群步骤2:数据在所有节点上重分布联网分析型应用体系架构SUNHPIBMORACLEDB2EMCHitachi支持各种数据源抽取、转换、加载(ETL)InformaticaDataStage……分析型应用•JavaEE•.Net•SAPBO•Actuate•OracleBIEE•Cognos•……Cisco支持众多硬件平台支持ODBC/JDBC等多种接口支持各种ETL工具支持SQL直接并行访问外部数据文件支持外部编程直接使用SQL并行访问数据库MySQLPostgresSQLServerIBMDB2Oracle数据文件Greenplum方案的优势Greenplum方案投资现在的解决方案投资20Q&A