Hadoop在百度Hadoop在百度wangshouyan@baidu.com系统部系统部2008.11主要内容主要内容•百度在hadoop上的应用•对hadoop进行的改进和调整对hadoop进行的改进和调整•目前面临的问题及未来的改进计划•hypertable相关研究和应用百度在hadoop上的应用百度在hadoop上的应用•互联网领域的平台需求•应用范畴应用范畴•应用方法互联网领域的平台需求互联网领域的平台需求应用范畴应用范畴1日志存储和统计2网页数据分析和挖掘2网页数据分析和挖掘3商业分析4在线数据分析反馈户类5用户和网页聚类应用方法应用方法对hadoop进行的改进和调整对hadoop进行的改进和调整•Map-reduce策略调整p•HDFS效率和功能改进•资源使用控制•资源使用控制map-reduce策略调整mapreduce策略调整某务1限制某作业处于运行状态的任务数2调整预测执行策略,控制预测执行量。2调整预测执行策略,控制预测执行量。3根据节点内存状况调度4平衡中间结果输出HDFS效率和功能改进HDFS效率和功能改进1权限控制1权限控制2分区与节点的独立性2分区与节点的独立性3VFS的posix兼容性资源使用控制资源使用控制1应用物理内存控制-修改linux内核,对进程独立限制2对计算资源分组调度实现存储共享计算不相干2对计算资源分组调度,实现存储共享,计算不相干扰。大块文件系统3大块文件系统目前面临的问题及未来的改进计划目前面临的问题及未来的改进计划效率问Map-reduce效率问题HDFS效率和可靠性问题资源利用效率问题Map-reduce效率问题Mapreduce效率问题效率1shuffle效率问题:减少IO次数,过程并行2sort的效率和可配置性2sort的效率和可配置性3streaming利用管道传输的效率问题HDFS效率和可靠性问题HDFS效率和可靠性问题1随机访问效率2数据写入的实时性2数据写入的实时性资源利用效率问题资源利用效率问题hypertable相关hypertable相关•应用方法•完善和改进完善和改进•与opensource合作应用方法应用方法完善和改进完善和改进1recovery2资源使用情况3监控与opensource合作与opensource合作1bug2patch2patch3contributeQ&AQ&A