为何一定要用Cloudera企业版?为何开源Hadoop不适合Hadoop诞生于互联网公司,作为开源社区项目,并不适合下载编译后作为平台程序直接在企业内部署并上线。而相对于开源的Hadoop,使用企业发布的商业化版本有如下优势:完整的平台栈包装产品,而非简单收集一堆松耦合的版本混乱的组件挑选和管理越来越多的Hadoop堆栈组件的版本是一项繁琐、耗时和挑战性极大的任务。Hadoop发行版是对一套松散耦合的Hadoop开源软件项目进行了预集成和预测试的集合,并且添加了更多的开源和商业组件,使Hadoop开发和运营更加便捷顺畅。对于企业客户来说,使用Hadoop发行版不停避免了在非核心业务上的巨大投入,同时又提高了大数据业务的生产率。支持服务Hadoop发行版厂商提供的及时、有效的支援,是不可能从Hadoop开源社区里得到的。作为领导厂商,Cloudera已经培育和发展了多个活跃的Hadoop技术社区和论坛,但这对于实际上手和实施Hadoop来说还是远远不够的。Cloudera在全球雇佣了数百名顶尖的Hadoop工程师,组成Hadoop领域经验分享和专业知识服务团队,为客户提供问题解决、咨询指导和其他帮助服务。出色的服务是Cloudera区别于开源项目、自主支持用户和其他Hadoop厂商最主要因素的之一。保障与Hadoop厂商签订商业合同,降低了企业运行开源软件的风险。同时,由于显式承担了责任,在进行Hadoop实现和管理过程中,也保证了实施方的对专业技术人才的投入,以及工作人员的主动认真心态。生态基于Hadoop的大数据解决方案通常需要结合众多的产品及工具。而Hadoop生态系统就是让企业Hadoop解决方案的可行的长远之计。来自厂商的Hadoop的发行版是加速并稳定Hadoop产品开发和服务运营的基石和重要组成部分。这是一个良性循环:实力强大的处在核心位置的Hadoop发行版不断创新其肩上的生态系统,而生态系统的增长使得核心Hadoop发行版更加强大。和关键供应商之间的合作伙伴关系Hadoop厂商和企业已有的供应商之间的合作伙伴关系可以帮助企业将新建的Hadoop大数据平台和现有的IT基础设施集成,而不只是一个独立的、新颖的实验品。能获得来自Hadoop发行版厂商的创新启发和帮助对于许多组织来说,大数据是其创新的前沿。有才华和经验丰富的分销商往往不只是服务提供商,更是企业创新的来源和系统演进革新的合作伙伴。Cloudera免费版介绍值得一提的是,Cloudera的分发版还有免费版本——CDH,世界上最受欢迎的基于ApacheHadoop及相关项目的最完整且经过测试的发行版。CDH是经过Apache许可的100%开源免费项目,与Apache开源版本Hadoop完全兼容一致,而且是唯一一个统一了批处理、交互式SQL、交互式搜索和基于角色的访问控制的Hadoop解决方案。具体信息请参见这里。正如Linux发行版提供的不仅仅是Linux一样,CDH也不只提供了Hadoop的核心组件——可扩展存储与分布式计算,还提供了必要的企业功能,比如:其他关键开源数据处理引擎,如交互式SQL,搜索等;可视化系统管理工具(ClouderaManager);安全功能等。同时,任何一个CDH版本的发布都经过了Cloudera严格产品测试,提供与各种硬件、软件解决方案的集成方案并经过全面测试。因此,CDH相比Apache开源Hadoop更完备、更高效、更完全而且更稳定可靠。Cloudera企业版产品在免费版本所提供的产品之上,企业版本还包括了如下内容:产品:企业版提供了免费版本以及其他厂商产品所没有的企业部署所需要的功能,如:o企业版系统管理工具(ClouderaManager)高级功能,如可视化安全配置工具、SNMP协议支持、定期健康巡检、无宕机滚动升级、灾备等,详细功能比较请参见这里。o数据管理工具(ClouderaNavigator)世界上唯一一个基于Hadoop且实现跨组件的元数据管理工具,实现了元数据自动抽取、数据溯源等大型数据管理所必须的功能。o云虚拟化部署工具(ClouderaDirector)世界上唯一一个帮助用户在云中部署Hadoop的组件,使得用户Hadoop集群资源与其他系统方便资源共享,更加弹性化。o自动化SQL翻译及分析工具世界上唯一一个自动将传统SQL应用转换为Hadoop应用的工具,现已经支持Teradata、Oracle、DB2等主流传统数据库产品,极大缩短了用户应用迁移的代价和门槛。其主要功能包括:数据模型翻译SQL语句翻译为Hadoop应用应用、数据使用统计及分析应用优化及建议服务:Cloudera的专业服务只针对商业版本产品,使得购买商业版的客户能享受来自世界上最权威的Hadoop保障和咨询。这是区别于免费版本CDH的重要因素之一。知识库及知识共享ApacheOpenSourceHadoop组件打包+版本验证+产品测试+...集群管理工具ClouderaManager商业版特有组件+基础组件支持服务任一高级Hadoop组件支持服务+=CDH+++===所有组件支持服务+=ClouderaExpressBasic版本Flex版本DataHub版本免费收费Cloudera产品层次图产品优势Hadoop不仅是一堆软件代码,而是开放标准,是生态系统。而Cloudera在Hadoop所具有的显赫地位,就像在比赛中既是裁判员和教练员,又是运动员。因此,相对于其他厂商,Cloudera的产品有着天生的优势,包括:技术更新快Cloudera的CDH紧跟开源版本更新,平均一年一次大版本升级,三个月一个小版本发布。使用更新版本的CDH可以让用户更快的得到更多问题解决(如缺陷修复),从而获得更好的质量和性能。其他厂商即使在第一时间获得CDH的发布,也需要时间将其包装以及验证,导致其最终发布平均比Cloudera公司慢至少一个小版本。而能够提供相应新版本的技术服务则需要更长的时间。架构方案保证其他厂商在全球社区的影响力很小,无法引领项目未来的技术发展方向,如果技术方案出现偏差会面临很大技术风险,甚至是平台架构的推倒重构,如SQLonHadoop技术的选择、流式处理方案等。定制功能保证Cloudera也会根据用户需求提供平台层的定制,相比其他厂商提供的定制,由于Cloudera有实力将其同步至开源社区基线版本,因此保证了定制功能的生命周期。其他不能被开源社区所接受的定制开发最终会被抛弃或替代,无法与新版本Hadoop兼容,使得无论是使用还是维护都面临极大风险。如2年前业界有数个HDFSNameNode的HA实现,但现在最终使用的是Cloudera的实现版本。其他的例子比如某些厂商的HBase二级索引解决方案等。开源兼容性保证由于Cloudera“主宰”着开源Hadoop的发展,因此其他异于Cloudera版本的产品都面临与开源社区及主流不兼容的风险。生态组件兼容性保证Cloudera已经有超过1200家合作伙伴,相互进行了产品认证,其中包括IBM,Oracle,SAS,Infomatica等等。产品认证不仅保证了相互产品的兼容性,也保证了不同版本升级后的兼容性,从而保证了企业在整体方案级别的不同产品以及不同版本进化的兼容性。国内现有Cloudera竞争产品来讲,一般分为OEM贴牌产品以及闭源商业产品。Cloudera分别还有其他众多优势:OEM贴牌产品OEM厂商使用开源版本CDH为基线,并组合自主开发的集群管理工具(免费版本ClouderaManager不开源,无法OEM。)作为Hadoop产品进行发布。其相比于Cloudera产品至少还有如下劣势:辅助工具缺失Cloudera企业版有着众多周边辅助工具,是实际大数据平台项目部署和运营必不可少的功能,参见Cloudera企业版产品介绍。管理功能弱由于对于Hadoop以及CDH的理解不深等原因,一般OEM产品对于Hadoop的管理颗粒太粗,不能进行细粒度管理。例如:oHadoop服务维护与其他很多产品只提供简单的Hadoop服务启动、停止等操作不同,ClouderaManager能统一查看集群所有日志及报警、自动或手动进行服务的HA切换等等。o细颗粒监视指标ClouderaManager提供多达102类监控指标,覆盖所有的服务及功能,包括集群硬件使用情况(网络、CPU、内存以及硬盘等)、服务状态等,同时每种指标按集群级别、主机级别、用户级别以及表/目录级别等等分级统计,总指标数目上万,其中集群指标超过3000个、HBase系统级指标就超过1000个、HDFS系统级指标超过300个等等。详情请参见ClouderaManager产品介绍。闭源商业软件国内其他厂商声称基于开源版本自主研发产品,此类产品可能存在如下问题:产品绑架某些厂商的产品优化特性是独享的、闭源的,不回馈回社区,与开源社区不一致,采用了这样的产品后很难再迁移到其它版本,会被厂商绑架。而CDH的Hadoop产品是基于Apache协议开放源代码,你可以自由地使用该软件无需支付许可费,也可以免费切换到不同的平台。无法进行自主产品更新Hadoop是新兴的软件产品,同时其生态组件的飞速拓展也是的Hadoop产品在一段时间内无论是在功能、性能还是稳定性上都需要进化。由于用户无法直接修改闭源软件,所有改动都必须通过厂家进行。即使用户在社区发现可用的功能更新或缺陷修复,或者有能力进行自主定制开发或第三方扩展,都需要得到厂家的许可、开发以及验证后方能进行,系统的拓展和完善完全受制于厂商的能力及资源,无法获得来自快速发展的社区系统所提供的资源,极大降低了系统的可发展性。可靠和稳定性通常较差将自主研发的功能与不断更新的Hadoop版本以及周边产品进行集成是一项非常繁重的工作,涉及了大量的验证测试。由于软件以及测试本身的不透明,这种测试无法由社区或第三方来进行、验证或保证。对于闭源软件的客户来讲,无论这种测试本身还是测试结果的可信性和可靠性都存在风险,从而降低了整个系统的可靠性和稳定性。产品生命周期风险强大并快速发展的开源社区对传统低效的封闭开发发布模式提出了巨大的挑战。如同Intel和Pivotal等这样的国际知名大公司,甚至还有淘宝这样的互联网公司,都曾经投入大量的资源自主研发闭源版本Hadoop,但最终都放弃了。产品及服务下架,客户和业务都必须迁移或转型。服务优势即使基于同样的Cloudera产品提供服务,相比于其他厂商提供,Cloudera有着巨大的优势:技术深度优势Cloudera有超过80位的Committer,是世界上拥有最多Committer的Hadoop厂商。Cloudera还奉献了约40%的Hadoop代码修改。因此Cloudera有技术能力解决世界上最棘手的技术问题。更全面的组件服务范围一个完整的大数据项目,通常会用到数个Hadoop生态圈产品。Cloudera奉献了超过19个Hadoop项目,超过20个项目中有Committer席位,可以对CDH中的每个组件提供全面的技术支持。相对于很多厂商只对有限的几个组件有部分服务能力,Cloudera有能力服务一个完整的大数据平台产品。资源保障Cloudera有在全球有数百名顶尖的Hadoop工程师,组成了全球最大的Hadoop服务团队。经验优势Cloudera有最广泛的全球覆盖范围,客户跨越了电信、金融等众多行业,成功案例已逾2万例,积累了海量的大数据应用实践经验,无论是对于方案咨询还是故障排查都能给出经过大量案例验证后的最佳实践,更快更好的提升客户的大数据平台价值。大数据全生命周期服务全面的专业服务项目能为您成长的每一阶段提供支持,包括:o方案咨询利用最深厚的知识基础,为企业的大数据方案提供行业最佳实践经验,以及至关重要的增强方案。o紧急救援结合了系统案例追踪和最精密的诊断工具套件来解决问题。o预测支持使Cloudera能够多个集群的浏览和可视化数据,以提前确定和预防可能发生的性能变化。o主动支持根据对已知问题的回