DTCC2014:爱奇艺在Hadoop生态中大数据平台架构与实践-孙琦_IT168文库42

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

爱奇艺在Hadoop生态中大数据平台架构与实践爱奇艺技术产品中心孙琦Agenda•爱奇艺•Hadoop生态@爱奇艺•部署架构•运营•问题•相关开发Agenda•爱奇艺•Hadoop生态@爱奇艺•部署架构•运营•问题•相关开发爱奇艺•诞生:成立于2010年4月•在一起:2013年5月爱奇艺与PPS合并•月独立访问用户4+亿爱奇艺•成绩:2014年1月以来,爱奇艺PPS,已经连续2月日均覆盖、月度覆盖、月度时长和人均月度时长均排名第1。爱奇艺Agenda•爱奇艺•Hadoop生态@爱奇艺•部署架构•运营•问题•相关开发Hadoop生态@爱奇艺•与2010年8月开始搭建,最初只有50台机器•目前已经具有一定规模,且在迅速扩容•多机房部署,专线互联•涵盖ApacheHadoop生态的所有主要组件•物理机集群与虚机集群共存的部署模式•公共集群和专属集群共存的运营模式Hadoop生态@爱奇艺•处理数据量:~20PB•日处理Job数:100000+•服务项目组:搜索、广告、推荐、日志分析、BI等。•版本:CDH4.X还没完全进入Hadoop2.0时代Agenda•爱奇艺•Hadoop生态@爱奇艺•部署架构•运营•问题•相关开发部署架构•爱奇艺Hadoop生态图•功能回顾•案例爱奇艺Hadoop生态图业务层NOSQL实时计算批处理HDFSMapreduceHiveStormSparkHBaseMesos/Openstack云图搜索广告推荐日志分析….日志数据视频元数据抓取数据其他数据源安全监控规范审计爱奇艺Hadoop生态图数据格式:ProtoBuf、JSON为主,统一数据定义,以便数据共享批处理以Hive作业为主Storm、Spark实时计算资源托管在Mesos或Openstack虚机之上大部分HBase应用是为离线计算服务作业提交管理:入口机+专用提交系统系统监控:传统监控(Nagios,Zabbix)+Metrics数据聚合成本审计:货币化度量项目组开销功能回顾•Hadoop:HDFSHA功能回顾•HBaseReplicationReplicationMode•Master-Slave•Master-Master•CyclicReplication功能回顾•HBaseReplication专为容灾设计,可靠性如何?网络或目标集群不可用网络或服务恢复后,同步继续HBaseClusterAHBaseClusterBHBaseClusterAHBaseClusterBX功能回顾•已经跨机房在多个HBase集群之间配置•数据延迟在毫秒级•为业务组提供了跨机房数据共享的条件•几次的网络故障已经证明了该机制的可靠性案例–Hadoop一般应用•HBase-搜索抓取数据内部数据RegionRegionRegionRegion……..MapMapMapMapMapReduceReduceReduce索引清洗过滤案例–Hadoop一般应用•HBase-搜索•HBase的天然应用场景•每天几个时间段运行定时启动MR作业建立索引•数据分布状况影响着MR的性能•定制了TableInputFormat,均衡Map任务的Input案例–虚拟化应用•基于Openstack的弹性混合云架构ServerOpenStackServerServerServerUsageScenarios:UGC/PGC/VideoEdit/Search/RecommendStorageServiceAdd/Delete(Mesos)ServerOpenStackServerServerServerStorageService(Mesos)Add/Delete案例–基于虚拟化Storm应用•Storm–实时广告故障分析Kafka集群OpenstackKafkaSpoutBoltABoltBBoltOutputRedisDashboard案例–基于虚拟化Storm应用•Storm–实时广告故障分析–处理能力:最高QPS~100W(另一个业务最高可达150W)–处理高峰时期一般在晚上–部署在Openstack生态系统上,提供了一定的弹性计算能力•空闲时集群虚机资源可提供给其他服务使用,如消息系统,以及一些内部系统等案例–基于Mesos的云端应用•Spark–日志分析MesosKafkaFlumeHBase实时数据Redis案例–基于Mesos的云端应用•Spark–日志分析–对Mesos-SparkExecutor进行了改进–处理能力相比较与Hadoop有了很大提升–基于Mesos的部署提高了集群资源利用率–相关Mesos的patch已经提交给了社区Agenda•爱奇艺•Hadoop生态@爱奇艺•部署架构•运营•问题•相关开发运营•流程–服务上线管理–服务使用申请–报障管理运营•安全控制–访问安全•简单用户授权•入口机授权–数据安全•访问审批•安全审计运营•监控报警–常规监控•Zabbix,Nagios,Ganglia–定制监控系统运营•审计–对项目组的资源使用进行货币化审计运营•云路–统一运营入口–资产管理–服务自动化部署–服务监控–审计–报表Agenda•爱奇艺•Hadoop生态@爱奇艺•部署架构•运营•问题•相关开发问题•HDFSHA–HDFS-4591:HAclientscanfailtofailoverwhileStandbyNNisperforminglongcheckpoint–HDFS-5080:BootstrapStandbynotworkingwithQJMwhentheexistingNNisactive–HDFS-3752:BOOTSTRAPSTANDBYfornewStandbynodewillnotworkjustaftersaveNameSpaceatANNincaseofBKJM问题•JobtrackerMemoryLeak–MAPREDUCE-5351:JobTrackermemoryleakcausedbyCleanupQueuereopeningFileSystem–MAPREDUCE-5508:JobTrackermemoryleakcausedbyunreleasedFileSystemobjectsinJobInProgress#cleanupJob问题•HBaseRSCrash–HBASE-5607:Implementscannercachingthrottlingtopreventtoobigresponses–HBASE-1996:Configurescannerbufferinbytesinsteadofnumberofrows–HBASE-2214:DoHBASE-1996--settingsizetoreturninscanratherthancountofrows--properlyAgenda•爱奇艺•Hadoop生态@爱奇艺•部署架构•运营•问题•相关开发相关开发•Hadoop/HBase监控系统•Job日志分析系统•云图相关开发•Hadoop/HBase监控系统–聚合了运行日志数据、Metrics–友好的前端展现相关开发•Hadoop/HBase监控系统相关开发•云图–各种NOSQL的数据实时备份相关开发•云图–统一数据转换模式–容灾:预定义HadoopJob,灾难时,数据快速恢复将来计划•增加HDFSErasureCode的支持•支持Kerberos•进入Hadoop2.0,实现多框架对资源的共享•统一MR/Spark/Storm作业提交界面•深度整合Openstack、Mesos与Hadoop生态Q&A

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功