元夕众业大数据元夕众业大数据Hadoop解决方案介绍www.trilum.com.cn大纲•团队介绍•案例大纲互联网淘宝数据魔方淘宝访客直播间腾讯广点通疗生医疗卫生省级电子病例信息查询全国卫生监督信息查询银行冠字号查询冠字号查询电力智能电网居民用电信息采集•TrilumAppliance架构系统:安装及服务管理系统:安装及服务管理系统:集群状态监控系统:服务器群组管理系统:QoS资源管理表管理:基本信息及操作表管理:数据分布及负载均衡表管理:索引及统计框架表管理:JDBC及SQL表管理:数据导入用户管理:用户权限及表权限性能优化•应用系统ETLSDK销售系统销售系统推荐系统存储系统团队介绍:公司背景团队介绍:公司背景北京元夕众业信息技术有限公司(简称“元夕众业”)总部设在北京其技术团队是•北京元夕众业信息技术有限公司(简称“元夕众业”)总部设在北京。其技术团队是中国最早向Hadoop开源社区贡献开源代码的团队(HiveRCFile),创建并发展壮大Hadoop开源社区(hadooper.cn)和一年一度HadoopinChina技术大会。•普泽数据专注于基于Hadoop技术的BigData存储与实时分析领域助力客户管理和实•普泽数据专注于基于Hadoop技术的BigData存储与实时分析领域,助力客户管理和实时分析庞大的数据资产,发现蕴藏的商业价值,广泛惠泽当今数据为王的社会。•公司产品已在国内顶尖互联网公司和国家部委有非常成功的应用,主要客户包括淘宝、支付宝、腾讯和公安部等。支讯和公团队介绍:承办HadoopInChina技术大会(HBTC2012)DCtti先生首次访华到场演讲•DougCutting先生首次访华到场演讲•HiC2011参会公司:Google、Facebook、Yahoo!、eBay、中移动、华为、百度、腾讯、EMCIntelEMC、Intel搜狐新闻客户端个性化内容推荐引擎搜狐新闻客户端-个性化内容推荐引擎推荐的计算量:2亿用户X100万资讯每日40GB用户行为资讯,每日40GB用户行为日志,15秒入库时延。每秒2万条入库数据,近20万次入库操作每秒5000万次入库操作。每秒5000次推荐请求,7万次读库操作。时效性:时效性:1,用户反馈时效性保证2,资讯的时效性保证系统框架系统框架产品系统ZK稳定服务网关推荐算法Kafka流式处实ZK稳定服务网关推荐算法理实时日运营监控效果HBase和基于HBase的内存库日志流效果评估内存库搜狐云Hadoop离线计算平台(建模)数据魔方业务背景•面向商户数据魔方-业务背景•数据可视化•把握行业热点•把握行业热点30万付费用户•30万付费用户•6TB数据实时统计淘宝数据魔方总体架构淘宝数据魔方总体架构数主站备库主站备库RACRAC主站日志主站日志数据源DataX/DbSync/TimeTunnelHadoop集群/云梯Hadoop集群/云梯计算层实时流数据DataX/DbSync/TimeTunnelOO存层1500节点,每日40000JOB,处理数据1.5PB,凌晨2点结束,结果20TMyFOXMyFOXPromProm存储层数据中间层/glider数据中间层/glider查询数据中间层/glider数据中间层/glider询层数据魔方数据魔方淘宝指数淘宝指数开放API开放API产数据魔方数据魔方淘宝指数淘宝指数开放API开放API品全属性查询新系统架构全属性查询新系统架构RegionServer:DataStorageIndex+DataDataAggregationRegionServer:DataStorageIndex+DataDataAggregationRegionServer:DataStorageIndex+DataDataAggregation……DataAggregationDataAggregationDataAggregationQueryAggregationJBossServer:DataAggregationQueryAggregationResultRedis:ResultCacheDataAggregationHTTPRequestCacheFrontEnd新系统效果•取原系统查询日志(2011.5.8~5.18),所有查询按新系统效果取原系统查询日志(),所有查询按原系统的响应时间分为三类统计平均响应时间。•测试前清空cache。•测试时新库中有25天数据,200G左右。•可查询时间从7天拓展到至少30天可查询时间从7天拓展到至少30天分析系统后台分析系统后台支持全表统计服务端统计速度15~50WR/S/Serveror400WR/S/Server。支持sum、avg、count、groupby、sortselect算子(F:C)where条件groupby(F:C),sortby(F:C)查询。条件条件[F:C|(rang)]and|or[F:C|(rang)]淘宝量子统计访客直播间业务背景淘宝量子统计访客直播间-业务背景面向商户•面向商户•实时用户访问情况•掌控用户行为,精准营销准营销访客直播间-系统架构(淘宝数据平台量子统计)WebLogLOGLOGLOGLOGTimeTunnel:LogCollecting•3万~5万条日志每秒SuperMarioCluster:LogFilteringSuperMarioSuperMarioSuperMario•18万到30万次库操作•每秒1000次并发读取UserClickLog•全系统2~3秒时延存储层:UV,PV,TraceDataUserBrowser腾讯数据平台广点通业务背景腾讯数据平台广点通-业务背景面向广告主•面向广告主•记录分析用户行为根据用户组当前行•根据用户组当前行为改变推荐策略提高广告点击率•提高广告点击率业务背景挑战业务背景-挑战•一秒30000次请求(30%流量,峰值)•一次请求200个候选广告数据•一个候选广告涉及7种CTR数据•一种CTR数据800字节:48小时的点击曝光计数•一次请求响应时间小于40ms•一次请求存储查询次数7*200=1400•一次请求存储查询数据量7*200*800=1.06MB•一秒存储层查询次数30000*200*7=42000000次/秒•一秒数据请求量30000*200*7*800=31GB/秒(约400张千兆卡)•备注:1、现网实时查询系统,2012.8.16日总流量12.1亿,峰值2.4w/s,均值1.4w/s,为1.7倍2、测试设备:350C1+50B6原系统架构原系统架构业务侧广告投放系统1分钟延业务侧广告投放系统实时推荐引擎(300台)请求推荐结果HINA实时大量数1分钟延迟查询层CacheHINA点击/曝光日志实时采集用户行为实时采集大量数据流动HOLD集群数据请求流式计算CTR实时统计日志流服务流HOLD集群分布式存储(50台)CTR实时统计用户行为实时统计(10台)离线分布式计算平台离线新系统架构业务侧广告投放系统RequestClientLightRPC新系统架构HINA点击/曝光日志实时采集用户行为实时采集流式计算清洗日志(10台)RPCAd Recommendation Request存储层RSLight RSLightRSLight RSLight用户行为实时采集RSLight RPCCacheManagerRSLightRPCCacheManagerRSLight RPCCacheManagerRSLightRPCCacheManager…In‐Memory CacheIn‐Memory CacheIn‐Memory CacheIn‐Memory CacheRegion for PosLog TableRegion for PosLog TableRegion for PosLog TableRegion for PosLog TableP%…Pos:n%20=0Pos:n%20=1Pos:n%20=2Pos:n%20=19数据冗余,压缩层次效果对比效果对比160B6,支撑10亿流量10B6,支撑30亿流量ClientClient48倍业务逻辑算法A VS B算法业务逻辑数据务辑+数据+算法秒针系统-跨站点检测数据分析秒针系统跨站点检测数据分析最大单活动原始日志:•线上规模:•200活动月20TB压缩后数据最大单活动原始日志:640GB,原始日志行数5,420,641,036Mzid数量325638761•月20TB压缩后数据•80台PCServer•任意活动任意时段符合特定条件的共同UV统计查询语句查询含义结果执行时间./query-sselectcount(f1:c)fromlog查询所有日志中访问一网站的UV750822097847ms.Mzid数量325,638,761清洗时间19分钟数据导入时间5分钟./query-sselectcount(f1:c)fromlogwheref1:c=1andf2:c=1andf3:c=1andf4:c=1查询所有日志中同时访问过四网站的UV1162787769848ms单group含4台server。查询时间7~77秒./query-sselectcount(f1:c)fromlogwheref1:c[1343750400000,1344528000000]andf2:c[1343750400000,1344528000000]andf1:c=1andf2:c=1查询2012.08.01~2012.08.10之间的日志中,同时访问过两网站的UV1119034926117ms/querys“selectcount(loc(f1:c’上海’’北查询2012080120120810407120421308ms./query-sselectcount(loc(f1:c,上海,北京’))fromlogwheref1:c[1343750400000,1344528000000]andf2:c[1343750400000,1344528000000]andf1:c=1andf2:c=1查询2012.08.01~2012.08.10之间的日志中,同时访问过两网站的UV,上海北京两地407120421308ms./query-s“selectcount(age(loc(f1:c,’上海’’北京’))3040)fromlogwhere查询2012.08.01~2012.08.10之间的日志中同时访问过两2398310279ms海,北京)),30,40)fromlogwheref1:c[1343750400000,1344528000000]andf2:c[1343750400000,1344528000000]andf1:c=1andf2:c=1之间的日志中,同时访问过两网站的UV,上海北京两地,年龄30到40岁间Haier电商站内分析系统Haier电商站内分析系统医疗卫生:省级电子病例查询医疗卫生:省级电子病例查询区域医疗一体化跨区转诊查询数据:DOC_UID_RELATIONSHIP表查询条件共21亿条数据共130GB(压缩后,包括索引数据)DOC_META表共100亿条数据共2TB(压缩后包括索引数据)查询条件(SELECTDISTINCTA.ALL_DOMAIN_ID ALL_DOMAIN_ID FROMDOC_UID_RELATIONSHIP A WHEREA.ALL_DOMAIN_ID 0ANDEXISTS(SELECT'X'FROMDOC_META B WHEREB.INSTANCE_ID= A.INSTANCE_IDANDB.PROVIDE_DT = TO_DATE('2012‐01‐02', 'YYYY‐MM‐DD') ANDB.PROVIDE_DT TO_DATE('2013‐01‐23', 'YYYY‐MM‐DD') + 1ANDB.ME