32、Mariana-腾讯深度学习平台进展与应用_腾讯-数据平台部-精准推荐中心_邹永强_2014-

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Mariana:腾讯深度学习平台进展与应用腾讯-数据平台部-精准推荐中心邹永强2014-12-14提纲腾讯深度学习的应用需求腾讯深度学习平台的挑战Mariana平台概述与技术路线MarianaDNN的架构与应用MarianaCNN的架构与应用MarianaCluster的架构与应用MarianaGPUCluster简介总结背景:深度学习快速发展深度学习是近年机器学习中备受瞩目的分支在语音识别、图像识别等持续取得突破Eg.ImageNet1000类图像分类问题:准确率72%85%89%93%各公司持续发力基于多层神经网络的复杂模型模型模拟人脑的结构模型远复杂于当前的浅层模型深度学习的发展机遇海量的数据高速增长的计算能力腾讯深度学习的应用需求-微信语音识别语音输入语音开放平台长按语音消息转文字微信&WeChat:月活跃用户4.7亿,2014Q3腾讯深度学习的应用需求-微信图像识别腾讯深度学习的应用需求-广点通广告QQ空间:月活跃用户6.3亿QQ空间智能终端:月活5.1亿QQ:月活跃用户8.2亿,2014Q3微信腾讯深度学习平台的挑战深度神经网络模型复杂,训练数据多,计算量大模型复杂:人脑有100多亿个神经绅胞训练数据多以微信语音识别为例:超过50,000,000参数,超过4,000,000,000样本深度神经网络需要支持大模型更深更宽的网络能获得更好的结果以图像识别为例,增加卷积层filter数量,加深模型都有改善深度神经网络训练中超参数多,需要反复多次实验超参数敏感:模型结构、输入数据处理方式、权重初始化方案、激活函数选择、参数配置等非线性模型,倚重技巧和经验Mariana:腾讯深度学习平台概述目标三个框架主要应用深度学习模型训练的幵行方法数据幵行划分训练数据各Worker独自训练交换参数模型幵行模型拆分多个Worker作为1组同组Worker训练一个模型Worker0Worker1Worker2Worker3Worker0Worker1Worker2Worker3Data0DataData1Data2Data3Mariana的设计选择CPU幵行vsGPU幵行对语音识别,1GPU卡vs384CPU核(32台12物理核的服务器)数据幵行vs模型幵行语音vs图像同步SGDvs异步SGDWorker间参数更新方式:有同步点vs独立地进行Worker的规模和计算/通信的同步性Onesizefitsall?No!针对业务的选择Mariana三个框架的设计选择框架目标业务计算单元数据并行模型并行SGD模式MarianaDNN语音识别GPU支持不支持同步MarianaCNN图像识别GPU支持支持同步MarianaCluster广告推荐CPU支持支持异步MarianaDNN的多GPU数据幵行:参数交换架构多GPU间参数交换:PartitionedLinearityTopologyMarianaDNN的应用:语音识别声学模型训练超过10,000小时训练数据超过4,000,000,000样本超过50,000,000参数6GPU数据幵行相对单GPU取得了4.6倍加速比MarianaCNN的多GPU幵行架构多GPU幵行架构:TransferLayer,IO/CPU/GPUpipelineMarianaCNN的应用:微信图像识别超过2,000分类超过3,000,000样本超过60,000,000参数4GPU模型幵行+数据幵行相对单GPU取得了2.5倍加速比,幵支持更大模型MarianaCluster架构:CPU集群框架MasterCoordinatorCoordinatorHeartbeatReportPSInfoHeartbeatReportTaskInfoClientTraceJobClientWebUITraceJob(ReconnectMode)ParameterServerParameterServerParameterServerParameterServerWorkerWorkerWorkerWorkerTraceJobJobControlWorkerWorkerWorkerWorkerMessageMessageParameterExchangeCoordinateLogStoreDatabaseMarianaCluster应用:广点通广告支持广点通广告的点击率预估模型训练图像内容特征(Y1)用户特征广告特征DNN点击率Y2CNN走向实用的挑战:每天百亿级点击率预估请求每个请求延迟小于50ms方式1:CNN/DNN提取特征抽取图片中的用户点击相关特征输出给LogisticRegression等浅层模型方式2:DNN用于模型训练和预测构造深层模型MarianaCluster针对广告的性能优化从支持微信语音到支持广点通广告:新挑战社交广告的点击率预估模型的快速训练?稀疏模型的高效训练?针对广告的幵行训练优化串行的预处理部分流水线化高效实现稀疏计算优化框架的BSP模式的控制流开销内存中缓存训练样本优化效果同样集群,优化后广告模型训练速度提升为5.3倍MarianaGPUCluster:GPU集群目标建立多业务共享的GPU集群灵活管理和调度多个业务作业支持大规模模型训练集群建设定型GPU服务器,实现性能、成本、功耗的平衡构建高速网络,连接GPU服务器统一资源管理和调度,灵活部署应用框架和软件库实现MarianaGPUCluster框架支持多机多卡幵行MarianaGPUCluster架构硬件层:GPU卡互联单机内多GPU卡通过PCI-e互联GPU服务器通过高速网络连接:40Ge,Infiniband软件层:MarianaGPUCluster做多机多卡幵行MPI+RDMA做GPU服务器间通信总结:腾讯深度学习平台Mariana腾讯有广泛的深度学习应用需求,其挑战包括模型复杂,训练数据多,导致计算量大需要支持大模型超参数多,需要反复多次实验Mariana腾讯深度学习平台提供三个框架MarianaDNN:DNN的GPU数据幵行框架MarianaCNN:CNN的GPU模型幵行和数据幵行框架MarianaCluster:DNN的CPU集群框架Mariana数据幵行和模型幵行加速训练、增大模型,方便易用MarianaDNN在微信语音识别6GPU比单GPU4.6倍加速比MarianaCNN在微信图像识别4GPU比单GPU2.5倍加速比,幵支持大模型MarianaCluster对广点通广告点击率预估优化,模型训练速度提升为5.3倍构建统一的GPU集群,支持多机多卡幵行的大规模模型训练,资源灵活调度Mariana已成功应用到微信语音识别和微信图像识别,在广点通广告推荐的点击率预估中也取得初步应用Thanks!

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功