Hadoop技术最前沿资讯报和cloudera大数据106

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1  ©  Cloudera,  Inc.  All  rights  reserved.    Hadoop技术最前沿资讯报告  和Cloudera大数据产品介绍      Kai  X.  Miao  (苗凯翔),  Vice  President@Cloudera  2  ©  Cloudera,  Inc.  All  rights  reserved.  PresentaCon  Content• IntroducCon  -­‐  Create  Value  from  Big  Data  • Hadoop  Technology  Ecosystem  • About  Cloudera  • Cloudera  Enterprise  Data  Hub  (EDH)  • Cloudera  Services    • Conclusion    3  ©  Cloudera,  Inc.  All  rights  reserved.  数据价值挖掘体量大速度快多样性价值密度低    日志  社交数据  用户行为  机器数据  图片  音频  视频  传感器  运营数据  …    Value  - 更好地理解并服务客户  - 精细化运营管理  - 个性化医疗健康服务  - 公共事业服务  - 安全和合规性检查- 用户标签  - 行为分析  - 文本分析  - 情感分析  - 图片分析  - 音频分析  - 轨迹分析  - …  4  ©  Cloudera,  Inc.  All  rights  reserved.  Hadoop  Technology  EcosystemHDFS  MapReduce,  Spark  YARN  Distributed  Storage  Distributed  Processing  Distributed  Scheduling  Sqoop  Flume  Chukwa  Data  IntegraCon  Data  Access  Data  Storage  Data  SerializaCon  Data  Intelligence    Java  Virtual  Machines  OperaCng  System  (RedHat,  Ubuntu,  Windows)  Pig  Hive  HBase  Cassandra  HCatalog  Lucene/Solr  Ka_a            Samza  Avro  Thri`  Mahout  Zookeeper  Oozie  Ambari  Management,  Monitoring,  OrchistraCon  Impala  Spark  Streaming  SparkSQL  Spark  MLLib  Parquet  Storm  Hive  over  Spark  GraphX  5  ©  Cloudera,  Inc.  All  rights  reserved.  About  Cloudera  创立成立于2008,企业级Hadoop产品提供商  员工数量超过900名  全球支持24x7  全球支持    创新的主动支持和预测支持项目  客户群全行业客户(金融、电信、零售、能源、互联网、媒体等)                                                    各行业的顶尖企业都有Cloudera  Enterprise部署  强大的产业链数百个生态链合作伙伴;  Cloudera  Connect  Program  (CCP)  培训和认证超过100,000管理员、开发者等受训;昀有价值的大数据证书  开源领导者Hadoop及其相关生态项目的绝对领导者,和Intel合作加速    企业数据中心的革新  Cloudera中国2014年12月成立,上海是大中华区总部,负责产品培训、    专业技术服务和产品支持,在北京和广州有本地支持  6  ©  Cloudera,  Inc.  All  rights  reserved.  Cloudera和Hadoop生态• Cloudera是Hadoop项目的昀大贡献者,同时也是No.1的Hadoop发行版提供商  • Hadoop平台标准化的领导者  • 数据采集–  Flume,  Sqoop  • 数据存储–  HDFS,  HBase,  Avro,  Parquet  • 数据处理  –  MapReduce,  Spark,  Hive  • 数据分析  –  Impala,  Solr  JIRA  ContribuCons,  Source:  ApacheJIRA  January  2012  –  February  2015  52%  Hortonworks  IBM  MapR  Microso`  Pivotal  Databricks  Projects  Included:    Accumulo  Avro  Bigtop  Crunch  Flume  Hadoop  Core    HBase  Hive  Ka_a    Mahout  Oozie  Pig  Solr  Spark  Sqoop  Tez  ZooKeeper  7  ©  Cloudera,  Inc.  All  rights  reserved.  CDH凝聚Cloudera在开源的贡献• Cloudera有89位Hadoop以及相关生态的Commioers,涵盖:  • Hadoop,  HBase,  Hive,  Spark,  Lucene/Solr,  Flume,  Sqoop等项目  • Cloudera提供了昀多的企业级Hadoop功能  • HDFS/YARN  HA,  Hadoop  Secure  CommunicaCon,  HDFS  Short-­‐Circuit,  HDFS  Caching,  HDFS  Transparent  EncrypCon  • HBase  snapshots,  HBase  mulC-­‐tenancy  • HiveServer  2  (for  SQL  service),  Hive-­‐on-­‐Spark  • Spark  Streaming  exactly-­‐once,  Spark  Shuffle  OpCmizaCon  • Solr  +  Hadoop  IntegraCon  • ……  8  ©  Cloudera,  Inc.  All  rights  reserved.  Cloudera产品和服务• Cloudera  Enterprise  -   Cloudera提供了100%开源的,开放标准的Apache  Hadoop发行版(CDH)  - 让Hadoop真正进入企业级应用的Cloudera  Manager和Cloudera  Navigator  - 提供虚拟化和云化大数据方案的Cloudera  Director  • 业内昀权威的Hadoop技能培训和认证  • 深耕于开源社区的专业技术支持团队和产品支持团队  Cloudera  Enterprise                                                                                        按年订阅Hadoop  认证  培训专业技术  咨询与服务产品支持9  ©  Cloudera,  Inc.  All  rights  reserved.  Cloudera  Enterprise  Data  Hub  (EDH)System  and  Data  Management  Process  Ingest  Sqoop,  Flume,  Ka_a  Transform  MapReduce,  Hive,  Pig,  Spark  Discover  AnalyCc  Database  Impala  Search  Solr  Model  Machine  Learning  R,  Spark  Mllib,  Mahout  Serve  NoSQL  Database  HBase  Streaming  Spark  Streaming  Unlimited  Storage  HDFS,  HBase  YARN,  Cloudera  Manager  Cloudera  Navigator  Deployment  Flexibility  On-­‐Premises  Appliances  Engineered  Systems  Public  Cloud  Private  Cloud  Hybrid  Cloud  完善的企业安全策略  • 身份认证,授权,审计,数据安全  • 数据可管理性  开放标准  • 100%开源Hadoop及其相关组件  • 3rd标准的软件集成  • 开放API    • 标准云服务集成  统一平台  • 数据导入导出  • 可扩展存储  • 多样化的处理引擎  • 安全  • 资源管理  • 元数据管理    10  ©  Cloudera,  Inc.  All  rights  reserved.  The  Open  Source  Plasorm  -­‐  CDH  11  ©  Cloudera,  Inc.  All  rights  reserved.  CDH• CDH  - 全球昀流行的Hadoop发行版  - 昀完整且稳定的版本,经过严格的行业检验  - 具有昀快的更新,更多新的功能  - 方便开发者和集成商使用Hadoop  • 和其他一些Hadoop发行版提供商对比  - Cloudera做Hadoop开发的,其他厂商仅是做Hadoop集成或CDH集成  - 和Hadoop  trunk昀快的同步,能保证业务的前向兼容性;其他厂商在Hadoop上做的定制优化或修复,无法保证兼容性  - 所有组件的开发和专业支持能力,其他厂商也仅仅跟随Cloudera包含的版本进行集成,缺乏问题修复和专业支持能力  12  ©  Cloudera,  Inc.  All  rights  reserved.  HDFS分布式⽂文件系统  灵活性  多样化数据的统一存储    可扩展性  良好的线性可扩展性  高容错性  设计之初就考虑了高容错性    开放性  存储的数据格式和内容完全可见  适合⼤大⽂文件的顺序读写,写一次读多次  EnterpriseDataHubSecurity  and  AdministraCon  Process  Unlimited  Storage  Discover  Model  Serve  13  ©  Cloudera,  Inc.  All  rights  reserved.  Apache  HBase构建在分布式存储上的NoSQL数据库  和HDFS紧密结合,适合高并发随机读写具有分布式存储的所有优点  灵活性  多样化数据的统一存储  可扩展性  良好的线性可扩展性  开放性  存储的数据格式和内容完全可见  +  在线数据服务EnterpriseDataHubSecurity  and  AdministraCon  Unlimited  Storage  Process  Discover  Model  Serve  14  ©  Cloudera,  Inc.  All  rights  reserved.  Apache  Ka_a  • 每个节点称为Broker  • 数据以Topics方式写入Ka_a  • 每一个Top

1 / 106
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功