AWS大数据解决方案DavyWang,王毅SolutionArchitect,高级解决方案架构师数据产生数据收集和存储分析和计算展现和分享大数据: 无限制的数据量的增⻓长 数字世界产生的1.2 ZB的数据中,95% 都是非结构化的 70% 的内容都是用户产生的(UGC) 非结构化的数据以平均每年每年62%的速度爆发性增长 . 来源: IDC GB TB PB ZB EB 低成本,高I/O数据产生数据收集和存储分析和计算展现和分享客户行为分析 市场费用细分 财务建模及预测 广告实时竞价及精准投放 点击信息实时分析 欺诈检测 访问, 浏览, 点击, 购买 来源, 设备, 地点, 时间 延迟, 吞吐量, 赞, 分享, 互粉 维关系型数据 NoSQL Web servers 智能手机 平板 第三方数据(RSS) 结构化 非结构化 文本 二进制 准实时 批量 报表 仪表盘 观点 聚合 机器学习 优化 严重依赖硬件数据产生数据收集和存储分析和计算展现和分享低成本,高I/O高性能,可随时动态扩展Gartner:UserSurveyAnalysis:KeyTrendsShapingtheFutureofDataCenterInfrastructureThrough2011IDC:WorldwideBusinessAnalyticsSoftware2012–2016Forecastand2011VendorSharesGartner:UserSurveyAnalysis:KeyTrendsShapingtheFutureofDataCenterInfrastructureThrough2011IDC:WorldwideBusinessAnalyticsSoftware2012–2016Forecastand2011VendorShares可供分析的数据产生的数据数据量-差异1990200020102020弹性与高扩展性没有前期投入按实际用量付费++随需扩展+=去除依赖大数据和云:天生一对 • 大数据:• 3个“V”的特点需要新工具(量大、多样、实时)• 迭代的,尝试性的数据处理和分析• 经常不是一个稳定的负载,有高峰和低谷• 单节点的性能不是最重要的,关键是整体计算能力• AWS:• 不同的计算、存储方式• 大规模和几乎无限的容量• 基础设施适合做迭代和尝试性部署• 非常适合负载变化大的应用场景• 并行计算的方式可以更快的得到结果• 让大数据更加平民化a AmazonDynamoDBAmazonRDSAmazonRedshiftAWSDirectConnectAWSStorageGatewayAWSImport/ExportAmazonGlacierS3AmazonKinesisAmazonEMR数据产生数据收集和存储分析和计算展现和分享数据采集 § EC2服务器上搭建收集器 高度 伸缩 可靠 从多个来源 汇集数据 区域可用区AEC2可用区BEC2载入数据S3 存储在本地磁盘 容量?持久性? 存储并行数据 加载到S3 S3 Simple Storage Service (S3) 高度可扩展无限制容量的对象存储 每个对象存储达1 byte 至 5TB 容量 99.999999999% 持久性 从多个来源 汇集数据 区域可用区AEC2可用区BEC2实时数据流采集和摄入 § Kinesis处理实时动态数据流 § 并行写入写出 § 支持数据输出到不同存储目的地 S3 Amazon Kinesis Hadoop EMR 数据仓库 Redshi6 实时数据流处理分析& 海量数据存储 In-gameactivity实时 数据流AmazonKinesisKinesis应用程序S3Workers实时趋势分析表仪表盘聚合统计数据预处理数据Glacier 长期归档 In-gameactivityAmazonKinesisKinesis应用程序S3归档聚合统计数据预处理数据实时趋势分析表仪表盘Workers低成本归档存储服务低至1美分/GB/月可以设定归档策略实时 数据流GlacierHadoop 数据挖掘 In-gameactivityAmazonKinesisKinesis应用程序S3聚合统计数据预处理数据Glacier归档Hadoop数据挖掘实时趋势分析表仪表盘Workers实时 数据流Redshi@ 商务智能BI In-gameactivityAmazonKinesisKinesis应用程序S3聚合统计数据预处理数据Glacier归档Hadoop数据挖掘实时趋势分析表仪表盘Workers实时 数据流Redshift商务 智能 BI数据产生数据收集和存储分析和计算展现和分享高性能,可随时动态扩展如何分析?• 使用S3+EMR|Redshift存储分析数据仓库RedshiftHadoopEMR非结构化数据熟悉MapReduce大量数据批量处理结构化数据熟悉SQL查询更快捷两者都能轻易上手S3EMR——云中的HadoopHadoop是一个在大集群机器(数千台)能够并行处理Map()&Reduce()海量数据的开源框架AmazonElasticMapReduce(EMR)AWSDataPipelineHDFS数据管理AmazonEMRAmazonRDSAmazonS3AmazonDynamoDBAmazonRedshift分析语言挑战 § 是否可以更快更省钱, 不用担心存储和计算容量? § 是否花太多时间管理集群和优化其性能? EMR的好处 § 容易使用 § 几分钟V.S. 几周 § 弹性 § 基于工作量弹性扩展集群 § 缓解规划存储和计算容量的痛苦 § Spot 实例 § 70-‐80% 成本优化 EMR的好处 § 可靠的 § 良好的管理 § 节点失效自动恢复 § 灵活的 § 支持多个Hadoop应用 § 用户一樣可以控制Hadoop 节点 § 并行集群 § 针对相同数据源S3并行分析 花更少的时间管理Hadoop 更多的时间从数据中创造价值 工作原理EMREMR集群S31.数据导入S33.得出结果2.启动您的集群。选择:• Hadoop版本• 节点数量• 节点类型(hi-CPU、hi-memory等)• Hadoop应用(Hive、Pig、Hbase)EMREMR集群S3方便添加和移除节点工作原理EMREMR集群S3针对同一数据源启动不同的集群工作原理EMR集群S3工作完成后,您可以关闭集群(并停止付费)工作原理Amazon EMR Cluster 工作原理 你也可以把所有数据都存在HDFS(本地磁盘) 高存储实例节点 =48 TB/节点 使用EMR作大数据分析• ElasticMapReduce• 解析数据• 数据清洗• 并行聚合CloudFrontCDNELBS3EC2EC2EC2区域可用区A可用区BTB/PB级数据量AWS 数据库服务 AmazonRDSSQL关系型数据库:MySQL、Oracle、SQLServer和PostgreSQL AmazonDynamoDB 大规模可扩展性,高耐久性,高吞吐量,低延迟NoSQL数据库AmazonRedshift 性能优越PB级别的数据仓库服务 AmazonElastiCache 高性能的分布式内存对象缓存系统Memcached &RedisPB级数据仓库大规模并行处理(MPP)关系型数据仓库(SQL)管理简便、大幅扩容 性能优越 价格低廉 更加简便 Amazon Redshi6 AmazonRedshift的架构§ 主节点§ SQL终端§ 元数据(metadata)§ 优化查询§ 计算节点§ 列式存储§ 并行查询§ 可通过S3加载、备份和恢复数据§ 可从DynamoDB并行加载数据§ 支持SSD§ 支持单节点版本10GigE(HPC)载入备份恢复SQL客户端/BI工具128GBRAM16TBdisk16coresAmazonS3JDBC/ODBC128GBRAM16TBdisk16cores计算节点128GBRAM16TBdisk16cores计算节点128GBRAM16TBdisk16cores计算节点主节点AmazonRedshift与您现有BI分析工具集成JDBC/ODBCAmazonRedshift及更多……适合Redshi@ 的场景 ! 在线分析处理(OLAP) 大量数据的复杂查询 #在线交易处理(OLTP) 数据量小的简单查询 数据库如RDS和DynamoDB 是更好的选择 #非结构化数据 数据可能需要进行预处理加载到Redshi@ (可以使用EMR 运行MapReduce) 更快的查询性能 hKps://amplab.cs.berkeley.edu/benchmark/ 更快的查询性能 hKps://amplab.cs.berkeley.edu/benchmark/ § 多种数据来源和格式存入S3§ 利用EMR作ETL§ 将数据并行从S3快速载入Redshift§ 在Redshift中进行简单的SQL查询§ 利用BI可视化工具进行多维度分析Redshi@ + EMR 处理多方来源和非结构化数据EC2ElasticMapReduceRedshiftS3BI报告总结: 大数据和AWS云天生一对 § 弹性的计算、存储方式§ 大规模和几乎无限的容量§ 适合做迭代和尝试性的数据处理和分析§ 按需动态构建集群非常适合负载变化大的应用场景§ 大规模集群并行计算的方式可以更快的得到结果§ 让大数据更加平民化AWS上的一些大数据客户 4TB 每天 S3 长期 归档Glacier 24/7 Hadoop 实时 数据采集Kinesis 数据 仓库 Redshi@ Post Event Review 更多资料请参考: Website www.amazonaws.cn Blog blog.csdn.net/awschina Weibo weibo.com/amazonaws Wechat AWS 中国谢谢!