大数据实时处理技术以及其应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据实时处理技术及其应用李松林2013年4月Agenda•大数据的现状•业务场景思考•技术架构及其应用•Q&A关于京东关于京东(续)营销管理供应商管理仓储管理财务系统客户数据网站前台京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验。配送管理•3V:速度、容量、类型•数据的来源更加丰富–商品、订单、„–社交„–营销„•数据间的关联性更加复杂–人与人–商品与商品–„•数据的价值–时效性–新商业模式大数据时代大规模数据处理更加容易ETL/企业数据仓库(Hive/Pig/MR)数据挖掘/建模(R、Mahout)搜索和推荐日志存储…•“NextClick”•运营智能•风险控制•互动分析•„一些场景需要进一步的考量MapReduce批量处理=延迟较长无法满足用户的实时需求调度开销较大大数据包括三部分批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/预处理„数据决策分析/„„性能服务模型大数据实时处理的思考•模型–海量数据•数据量大•并发数高–多个数据源整合–预定义好的数据模型•去规格化–数据任务依赖关系简单–推和拉的问题•拉比推好大数据实时处理的思考(续)•性能–高并发需求–大容量需求•GB–TB级后台数据处理吞吐–高速度需求•从数据产生到处理完成结果延迟要求到秒级•计算需要在短时间内完成–批处理预算–硬件支持•内存、CPU、网络–容错–水平扩展大数据实时处理的思考(续)•服务–关联获取价值,维度按需定制–互动分析、报表等完成价值交付–与其他在线生产系统进行数据对接(数据反哺)–计算即服务大数据实时处理的思考(续)大数据实时处理架构生产数据库企业数据仓库财务数据集市采销数据集市罗盘数据集市分析挖掘数据集数据缓冲区企业消息总线流式计算集群实时数据同步分布式消息系统高速存取集群模型日志系统在线服务在线实时计算集群持久化PUSHPULL/PUSH订阅ELTELT高速存取集群ETL报表应用分析应用推荐应用...数据推送中心近实时分析集群近实时计算实时计算离线计算应用缓存集群•数据传输–日志(用户行为、„)–批量同步–消息队列–„•开源技术–Flume–Scribe–Kafka–„大数据实时处理技术•Apache项目:•一个分布式的发布/订阅消息系统•术语–Topics•消息分组–Brokers•消息存储–Producers•消息生产者–Consumers•消息消费者Kafka•几个点–解耦–缓冲–容错–透明–跨数据中心数据分发大数据实时处理技术SinkHDFSAgentAgentStorm等Broker(Topic1)Broker(Topic2)ZookeeperFlumeKafka•存储–大容量低速存储–高速存储–KV存储•开源NoSQL数据存储–Hadoop–HBase–Cassandra–MongoDB–Redis–„•数据库Sharding•合适的就是最好的大数据实时处理技术•计算–可加计算、不可加计算–实时数据的实时计算–实时数据的计算–数据的实时计算•开源计算框架–Storm–Impala–„大数据实时处理技术•Cloudera公司贡献•一种通用的SQL查询引擎(Hive语法)•与Hadoop整合在一起ImpalaQueryPlannerQueryExecutorHDFSDNHBaseSQLAppJDBC/ODBCHiveMetastoreHDFSNNStatestoreQueryPlannerQueryCoordinatorQueryExecutorHDFSDNHBaseQueryPlannerQueryExecutorHDFSDNHBaseSQLrequestQueryCoordinatorQueryCoordinatorMondrian(OLAP)Mondrian(OLAP)大数据实时分析ImpaladImpaladImpaladMondrian(OLAP)DataNodeDataNodeDataNodeImpalaHDFSM1M2M3ReportIDEHiveMetastoreHDFSNNStatestoreROLAP元数据缓存JDBCJDBCJDBC大数据实时分析明细事实表聚合表1聚合表2聚合表3•Twitter开源的分布式处理框架•基本概念–Streams(流)•元组序列–Spouts•流的源头–Bolts•Functions,Filters,Joins,Aggregations–Topologies•优点–可扩展、容错、易用„–在内存中执行流式计算StormSpoutsBoltTopologies•Nimbus–主控节点,用于任务分配,集群任务监控等•Zookeeper–集群中协调,共有数据的存放(如心跳信息)•Supervisor–对应一台物理机,用于启动worker•Worker–工作进程,负责启动task,以及通过zeromq进行tuple的分发,与接收。•Task–工作线程,任务的处理Storm的部署Storm的应用模式用户查询大数据存储数据视图集(批处理)数据视图集(实时处理)数据流HadoopStorm数据流数据视图集(实时处理)数据视图集(实时处理)流式计算(续)流式计算(续)应用事件收集器Storm前段展现•事件驱动实现•注意–内存泄露–消息堆积–算法模块拆分流式计算(续)•服务和应用•价值展现–分析可视化–数据可视化–数据反哺–计算即服务•仔细思考其价值–实时的统计:最流行–广告CTR预测–ETL:格式转换、重复值过滤、„–运营需求:资源调派–„大数据实时处理技术•对系统的压力–数据量–数据展现–数据读写和传输•解决方法–前端和后端解耦•缓存的应用•JS发挥前端的能力–压缩–排队•异步、非阻塞IO模型•线程池•事件驱动–后端更强劲•数据库集群:分库、分表、分区•NoSQL数据库:Hbase、MongoDB等数据应用的问题谢谢@随风逐梦12345HTTP://WEIBO.COM/TECHFASHION

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功