OLAP系统建设徐冬奇xudongqi1984@163.comAgenda•OLAP需求•系统定位•系统挑战•系统架构•未来工作OLAP前端展示OLAP后端查询•需求–查询IT168网站在4月1日到4月12日期间的各地域访问情况•SQL•SELECTprovince,SUM(pv)FROMStatsTableWHEREsite=‘IT168’ANDdateBETWEEN“2014-04-01”AND“2014-04-12”GROUPBYprovince两类需求场景•报表场景–查询模式可预知,查询维度组合有限–查询QPS高(1万次/秒)、毫秒延时–SLA高,7*24小时不间断服务–面向百万网站主、百万广告主•多维分析场景–查询模式不可预知,任意维度组合–查询QPS低(~10次/秒)、分钟级别延时–SLA不高,可工作时间提供服务–面向内部分析人员、决策人员OLAP需求位置报告报表多维分析Adhoc查询数据挖掘从上往下:1.分析维度从少到多2.计算复杂度从低到高3.从以人为主转为以机器为主4.用户专业程度越来越高,越来越少OLTPvsOLAPOLTPOLAP用户普通用户用户量大决策人员,高级管理人员用户量小功能日常操作处理简单的事务,事务驱动分析决策复杂的查询,分析驱动DB设计面向应用面向主题数据最新的,细节的,二维的历史的,聚合的,多维的数据大小数GB数百TB查询更新读/写数十条记录读上亿条记录Agenda•OLAP需求•系统定位•系统挑战•系统架构•未来工作数据仓库OLAP系统预处理+传输ETL处理日志收集和清洗OLAP在大数据体系位置OLAP系统OLAP后端系统OLAP前端系统发起查询,展示图表、曲线分析业务多维建模如商业版BIEE如定制的Web系统OLAP后端系统定位•提供百T级别Cube的存储与高效查询服务•响应报表与多维分析需求Agenda•OLAP需求•系统定位•系统挑战•系统架构•未来工作系统挑战•多维分析:rollup,drill-down,slicing和dicing•维度任意组合数据量巨大,交互式响应系统挑战•每日十T级别数据,如何快速导入?•如何提供SQL查询?•经常加表、改表、删表,应对?•经常数据出错,如何恢复?•磁盘经常出现故障,怎么办?•……Agenda•OLAP需求•系统定位•系统挑战•系统架构•未来工作系统架构存储层元数据管理数据导入查询层(SQL接口)存储模型细节•数据块存储–每个块含256行–块内部列存储–块整体压缩•稀疏索引–索引常驻内存–每个块对应一个索引项索引文件数据块site=IT168date=20140401系统特点和性能•核心特点:–大规模并行处理MPP查询引擎–行列混合存储引擎•减少扫描量–物化视图–索引–列式存储–压缩•性能:–100节点,单机CPU12核,内存64G,SAS硬盘2T,1GB网卡–低并发大查询:最大扫描速度100GB/s,单个查询响应时间:毫秒~小时,数据压缩比1:4~1:10–高并发小查询:最大并发100,000qpsAgenda•OLAP需求•系统定位•系统挑战•系统架构•未来工作未来工作•数据流准实时•存储引擎优化•查询优化大数据Style•百度大数据部–打造世界一流大数据平台•想了解更多?欢迎加盟Q&A