Cloudera大数据平台简介-SENDOUT

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1  Cloudera大数据平台简介  从最先进的Hadoop平台到企业级数据中心    2  公司发展历史Cloudera  Confiden0al  -­‐  Internal  Use  Only  23  Cloudera中国©2014  Cloudera,  Inc.  All  rights  reserved.  3  • 英特尔7.4亿美元投资到Cloudera  • 英特尔与Cloudera通过开源驱动创新  • 英特尔使得Hadoop在IA架构上运行达到最优性能  • Cloudera与英特尔协作建立广泛的合作伙伴生态系统  • Cloudera在中国建立销售及技术服务团队,英特尔大数据团队2014年9月正式加入4  从Hadoop到企业级数据中心EDH  ©2014  Cloudera,  Inc.  All  rights  reserved.  4  开源  可扩展性  灵活  性价比  ✔  易于管理  ✖  开放式架构  ✖  安全与管治  ✖  ✔  ✔  ✔  第三方应用  程序  任何数据类型的存储平台  UNIFIED,  ELASTIC,  RESILIENT,  SECURE            CLOUDERA企业级数据中心EDH  批处理  MAPREDUCE  分析SQ  IMPALA  搜索引擎  SOLR  机器学习  SPARK  流处理  SPARK  STREAMING  WORKLOAD  MANAGEMENT  YARN  文件系统  HDFS  ONLINE  NOSQL  HBASE  数据管理  CLOUDERA  NAVIGATOR  系统管理  CLOUDERA  MANAGER  SENTRY  ,  SECURE  5  Cloudera  5  综述  ©2014  Cloudera,  Inc.  All  rights  reserved.  5  • Cloudera企业级数据中心蓝图  • 更多样的工作负载(不仅仅是批处理)  • 工作负载管理  • 分析SQL  (Impala)  • 搜索  • Spark  • 第三方应用  • 灵活的部署方式  • 安全  • 管治  • 管理  6  Cloudera  5  不仅仅是批量处理  ©2014  Cloudera,  Inc.  All  rights  reserved.  6  • 工作负载管理  Hadoop  2  YARN  多样化的分析平台  • 分析SQL  Cloudera  Impala  • 搜索引擎  Cloudera  Search  (Solr)  • 机器学习&流处理  Apache  Spark  • 第三方应用程序  Cloudera  Manager  Extensions  第三方应用程序  任何数据类型的存储平台  UNIFIED,  ELASTIC,  RESILIENT,  SECURE            CLOUDERA企业级数据中心  批处理  MAPREDUCE  分析SQL  IMPALA  搜索引擎  SOLR  机器学习  SPARK  流处理  SPARK  STREAMING  工作负载管理  YARN  文件系统  HDFS  非关系型数据库(ONLINE  NOSQL)  HBASE  数据管理  CLOUDERA  NAVIGATOR  系统管理  CLOUDERA  MANAGER  SENTRY  ,  SECURE  7  工作负载管理  Hadoop  2  YARN  ©2014  Cloudera,  Inc.  All  rights  reserved.  7  功能  • 支持多个工作引擎  • 更优的可扩展性  • 工作负载管理  • 资源共享  • 细粒度调度  • 负载隔离  优势  • 混合的使用平台  • 实现工作负载的SLA  • 基于组的策略制定  8  分析型SQL  Cloudera  Impala  ©2014  Cloudera,  Inc.  All  rights  reserved.  8  Impala的新特性  • 用户自定义方法与预定义分析方法  • 基于成本的join顺序优化  • 与YARN的整合  • 基于磁盘的Join  • 窗口分析函数  Hadoop上的自助式BI    先进的MPP  SQL执行引擎  • 10x快于最新的Hive  • 在Hadoop生态系统中运行  • ANSI  SQL兼容性  • 可使用现成的BI工具  • 安全与管治  • 便捷的管理  • 开源(Apache-­‐licensed)  应用场景  • 数据仓库迁移  • 交互式的商务智能与数据分析  • 无丢失的在线存档  9  搜索  Cloudera  Search  (Apache  Solr)  ©2014  Cloudera,  Inc.  All  rights  reserved.  9  易用  • 交互式的全文检索与切面导航  • 实时的数据检索  • 多用户友好  灵性  • 批处理,  实时或者按需索引  • 多类型、多格式支持  • 原生与Hadoop执行引擎相结合  • 丰富的API与完善的生态系统  100%  开源  • 业界标准的搜索引擎  • 成熟的代码基础,  活跃的社区  探索  导航  关联  CDH是唯一一个提供企业级搜索解决方案的商用Hadoop版本  10  机器学习与流处理  Apache  Spark  ©2014  Cloudera,  Inc.  All  rights  reserved.  10  • 开源的数据并行处理框架  • 快速.  充分利用内存,比MapReduce的数据处理快100倍,有效支持迭代式机器学习与分析  • 开发友好.  提供Java,  Scala,  Python等多语言丰富的API  • 完整.  集成于CDH,  可通过Cloudera管理器管理;通过与Databricks公司的协作共同对Spark开发完善  • 便捷的实时流处理  • 简单.  API有利于快速部署流处理应用程序  • 容错.  实现“Exactly-­‐once”语意  • 统一.  基于Spark平台共享数据与模型  Cloudera是唯一一家  使用Spark并提供支持的商用Hadoop服务供应商  11  一站式的大数据集群管理  Cloudera管理器  ©2014  Cloudera,  Inc.  All  rights  reserved.  11  • 工作负载管理  • 资源分组&  工作队列管理  • 资源的静态/动态分区  • 资源使用监控&  趋势预估  • 平台覆盖  • CDH  5对兼容性的支持  • CDH  5提供安装/升级的配置向导  • 可扩展性以及合作伙伴产品整合  • 例如SAS,  Revolu0on,  SyncSort,  Informa0ca,  …  • Accumulo支持  • Spark支持  • 优化的监控  • YARN/MR2服务,  用户自定义触发器,  高级Impala监控…  第三方应用  程序  任何数据类型的存储平台  UNIFIED,  ELASTIC,  RESILIENT,  SECURE            CLOUDERA企业级数据中心  批处理  MAPREDUCE  分析SQL  IMPALA  搜索引擎  SOLR  机器学习  SPARK  流处理  SPARK  STREAMING  工作负载管理  YARN  文件系统  HDFS  非关系型数据库(ONLINE  NOSQL)  HBASE  数据管理  CLOUDERA  NAVIGATOR  系统管理  CLOUDERA  MANAGER  SENTRY  ,  SECURE  12  Hadoop上的细粒度授权  Apache  Sentry  ©2014  Cloudera,  Inc.  All  rights  reserved.  12  • Impala  &  Hive上的开源授权模型  • 基于角色的访问控制(RBAC)  • 与传统数据库相同的安全  • 安全的,  细粒度的,  并且基于角色的授权  • 多用户管理  • 在Hadoop上保存敏感数据  • 符合监管要求  第三方应用程序  任何数据类型的存储平台  UNIFIED,  ELASTIC,  RESILIENT,  SECURE            CLOUDERA企业级数据中心  批处理  MAPREDUCE  分析SQL  IMPALA  搜索引擎  SOLR  机器学习  SPARK  流处理  SPARK  STREAMING  工作负载管理  YARN  文件系统  HDFS  非关系型数据库(ONLINE  NOSQL)  HBASE  数据管理  CLOUDERA  NAVIGATOR  系统管理  CLOUDERA  MANAGER  SENTRY  ,  SECURE  13  企业级数据管治  Cloudera导航器  ©2014  Cloudera,  Inc.  All  rights  reserved.  13  审计&访问控制  • 维护全量审计历史  • 确保数据权限以及数据访问合规  发现  &  探索  • 查找数据的可用性和数据格式/内容  数据沿袭  • 数据跟踪,  查找数据来源  生命周期管理  • 根据预定策略迁移数据  第三方应用程序  任何数据类型的存储平台  UNIFIED,  ELASTIC,  RESILIENT,  SECURE            CLOUDERA企业级数据中心  批处理  MAPREDUCE  分析SQL  IMPALA  搜索引擎  SOLR  机器学习  SPARK  流处理  SPARK  STREAMING  工作负载管理  YARN  文件系统  HDFS  非关系型数据库(ONLINE  NOSQL)  HBASE  数据管理  CLOUDERA  NAVIGATOR  系统管理  CLOUDERA  MANAGER  SENTRY  ,  SECURE  Cloudera导航器:  Apache  Hadoop上一站式数据管治解决方案  14  ©2014  Cloudera,  Inc.  All  rights  reserved.  15  ©2014  Cloudera,  Inc.  All  rights  reserved.  Full  text  search  across  HDFS  See  file  schema  Column  Level  lineage  Table  Level  lineage  Table  metadata  with  technical  descrip0on  Tags  for  easy  search  and  sharing  Custom  key/values  Table  metadata  with  business  descrip0on  Download  lineage  Who  created  it,  when,  where  16  Cloudera:  让EDH⻜飞上云霄  Portability:  MulJple  Deployment  OpJons  Flexibility:  Pricing  and  Support  Choice:  Growing  Ecosystem  Private  Cloud  Physical  Public  Cloud  • Tradi0onal  licensing  with  Cloudera  support

1 / 49
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功