1 © Cloudera, Inc. All rights reserved. Hadoop技术最前沿资讯报告 和Cloudera大数据产品介绍 Kai X. Miao (苗凯翔), Vice President@Cloudera 2 © Cloudera, Inc. All rights reserved. PresentaCon Content• IntroducCon -‐ Create Value from Big Data • Hadoop Technology Ecosystem • About Cloudera • Cloudera Enterprise Data Hub (EDH) • Cloudera Services • Conclusion 3 © Cloudera, Inc. All rights reserved. 数据价值挖掘体量大速度快多样性价值密度低 日志 社交数据 用户行为 机器数据 图片 音频 视频 传感器 运营数据 … Value - 更好地理解并服务客户 - 精细化运营管理 - 个性化医疗健康服务 - 公共事业服务 - 安全和合规性检查- 用户标签 - 行为分析 - 文本分析 - 情感分析 - 图片分析 - 音频分析 - 轨迹分析 - … 4 © Cloudera, Inc. All rights reserved. Hadoop Technology EcosystemHDFS MapReduce, Spark YARN Distributed Storage Distributed Processing Distributed Scheduling Sqoop Flume Chukwa Data IntegraCon Data Access Data Storage Data SerializaCon Data Intelligence Java Virtual Machines OperaCng System (RedHat, Ubuntu, Windows) Pig Hive HBase Cassandra HCatalog Lucene/Solr Ka_a Samza Avro Thri` Mahout Zookeeper Oozie Ambari Management, Monitoring, OrchistraCon Impala Spark Streaming SparkSQL Spark MLLib Parquet Storm Hive over Spark GraphX 5 © Cloudera, Inc. All rights reserved. About Cloudera 创立成立于2008,企业级Hadoop产品提供商 员工数量超过900名 全球支持24x7 全球支持 创新的主动支持和预测支持项目 客户群全行业客户(金融、电信、零售、能源、互联网、媒体等) 各行业的顶尖企业都有Cloudera Enterprise部署 强大的产业链数百个生态链合作伙伴; Cloudera Connect Program (CCP) 培训和认证超过100,000管理员、开发者等受训;昀有价值的大数据证书 开源领导者Hadoop及其相关生态项目的绝对领导者,和Intel合作加速 企业数据中心的革新 Cloudera中国2014年12月成立,上海是大中华区总部,负责产品培训、 专业技术服务和产品支持,在北京和广州有本地支持 6 © Cloudera, Inc. All rights reserved. Cloudera和Hadoop生态• Cloudera是Hadoop项目的昀大贡献者,同时也是No.1的Hadoop发行版提供商 • Hadoop平台标准化的领导者 • 数据采集– Flume, Sqoop • 数据存储– HDFS, HBase, Avro, Parquet • 数据处理 – MapReduce, Spark, Hive • 数据分析 – Impala, Solr JIRA ContribuCons, Source: ApacheJIRA January 2012 – February 2015 52% Hortonworks IBM MapR Microso` Pivotal Databricks Projects Included: Accumulo Avro Bigtop Crunch Flume Hadoop Core HBase Hive Ka_a Mahout Oozie Pig Solr Spark Sqoop Tez ZooKeeper 7 © Cloudera, Inc. All rights reserved. CDH凝聚Cloudera在开源的贡献• Cloudera有89位Hadoop以及相关生态的Commioers,涵盖: • Hadoop, HBase, Hive, Spark, Lucene/Solr, Flume, Sqoop等项目 • Cloudera提供了昀多的企业级Hadoop功能 • HDFS/YARN HA, Hadoop Secure CommunicaCon, HDFS Short-‐Circuit, HDFS Caching, HDFS Transparent EncrypCon • HBase snapshots, HBase mulC-‐tenancy • HiveServer 2 (for SQL service), Hive-‐on-‐Spark • Spark Streaming exactly-‐once, Spark Shuffle OpCmizaCon • Solr + Hadoop IntegraCon • …… 8 © Cloudera, Inc. All rights reserved. Cloudera产品和服务• Cloudera Enterprise - Cloudera提供了100%开源的,开放标准的Apache Hadoop发行版(CDH) - 让Hadoop真正进入企业级应用的Cloudera Manager和Cloudera Navigator - 提供虚拟化和云化大数据方案的Cloudera Director • 业内昀权威的Hadoop技能培训和认证 • 深耕于开源社区的专业技术支持团队和产品支持团队 Cloudera Enterprise 按年订阅Hadoop 认证 培训专业技术 咨询与服务产品支持9 © Cloudera, Inc. All rights reserved. Cloudera Enterprise Data Hub (EDH)System and Data Management Process Ingest Sqoop, Flume, Ka_a Transform MapReduce, Hive, Pig, Spark Discover AnalyCc Database Impala Search Solr Model Machine Learning R, Spark Mllib, Mahout Serve NoSQL Database HBase Streaming Spark Streaming Unlimited Storage HDFS, HBase YARN, Cloudera Manager Cloudera Navigator Deployment Flexibility On-‐Premises Appliances Engineered Systems Public Cloud Private Cloud Hybrid Cloud 完善的企业安全策略 • 身份认证,授权,审计,数据安全 • 数据可管理性 开放标准 • 100%开源Hadoop及其相关组件 • 3rd标准的软件集成 • 开放API • 标准云服务集成 统一平台 • 数据导入导出 • 可扩展存储 • 多样化的处理引擎 • 安全 • 资源管理 • 元数据管理 10 © Cloudera, Inc. All rights reserved. The Open Source Plasorm -‐ CDH 11 © Cloudera, Inc. All rights reserved. CDH• CDH - 全球昀流行的Hadoop发行版 - 昀完整且稳定的版本,经过严格的行业检验 - 具有昀快的更新,更多新的功能 - 方便开发者和集成商使用Hadoop • 和其他一些Hadoop发行版提供商对比 - Cloudera做Hadoop开发的,其他厂商仅是做Hadoop集成或CDH集成 - 和Hadoop trunk昀快的同步,能保证业务的前向兼容性;其他厂商在Hadoop上做的定制优化或修复,无法保证兼容性 - 所有组件的开发和专业支持能力,其他厂商也仅仅跟随Cloudera包含的版本进行集成,缺乏问题修复和专业支持能力 12 © Cloudera, Inc. All rights reserved. HDFS分布式⽂文件系统 灵活性 多样化数据的统一存储 可扩展性 良好的线性可扩展性 高容错性 设计之初就考虑了高容错性 开放性 存储的数据格式和内容完全可见 适合⼤大⽂文件的顺序读写,写一次读多次 EnterpriseDataHubSecurity and AdministraCon Process Unlimited Storage Discover Model Serve 13 © Cloudera, Inc. All rights reserved. Apache HBase构建在分布式存储上的NoSQL数据库 和HDFS紧密结合,适合高并发随机读写具有分布式存储的所有优点 灵活性 多样化数据的统一存储 可扩展性 良好的线性可扩展性 开放性 存储的数据格式和内容完全可见 + 在线数据服务EnterpriseDataHubSecurity and AdministraCon Unlimited Storage Process Discover Model Serve 14 © Cloudera, Inc. All rights reserved. Apache Ka_a • 每个节点称为Broker • 数据以Topics方式写入Ka_a • 每一个Top