百度云与人工智能(百度云首席架构师张发恩)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

百度云人工智能首席架构师张发恩百度云与人工智能20142011大规模DNN最大支持千亿样本/特征201020032008Hadoop分布式计算系统上线2009分布式网页库Bailing上线,存储网页规模超过1000亿大规模机器学习平台支持凤巢广告CTR预估上线实时计算系统支持毫秒级时延,准实时计算系统严格不丢不重2012新一代分布式计算系统,单集群规模达100002013业内最大自研万兆交换机全球首个ARM构架服务器规模化应用深度学习实验室成立2016百度云计算战略发布会2015百度开放云正式对外开放分布式搜索系统历史2015,我们在FDDB检测数据集和LFW识别数据集上均获得世界第一凭借15.89%的高研发强度,百度在2016中企500强的评选中成为中国研发强度最高的企业2016年,《麻省理工科技评论》评选的“全球最聪明的50家公司”百度名列第二2016年11月,世界互联网领先科技成果15项,百度入围百度概况与人工智能布局北京研发中心上海研发中心深圳研发中心日本研发中心新加坡研发中心北京深度学习实验室北京大数据实验室美国研发中心硅谷AI实验室~43,700员工人数中国十佳雇主全球最大中文搜索引擎全球最大中文网站~80%~90.3%无线渗透率云计算人工智能大数据IaaSPaaS百度机器学习BML百度深度学习BDL人工智能API数据采集标注ABC三位一体大数据平台深度学习平台数据采集和标注异构计算知识图谱硬盘快递日志分析关系数据库RDS键值数据库Redis对象存储BOS数据仓库Palo机器学习BML大数据平台BMR(Hadoop)MapReduceSparkZeppelinHBaseHiveHue物联网服务IoT日志服务BLS批量计算Batch百度BigSQL百度Elasticsearch深度学习PaddlePaddleTensorFlow数据可视化百度Kafka数据接入数据存储数据分析专项方案行业方案直接上传数据仓储推荐系统舆情分析数字营销生命科学电商零售游戏金融教育娱乐……百度云大数据平台数据收集标注大数据平台深度学习平台数据采集和标注异构计算知识图谱XPU&FPGA•新一代AI处理架构*-专用计算单元-数百个处理器-GPU的通用性•基于FPGA加速的端方案-灵活-低功耗GPUBOX业内首个PCIeFabric互联架构全球先进的CPU和GPU物理解耦架构,国内第一家硬件实现GPU资源池化按需调度单机实验室最大可支持8-64个GPU,以支持更大的深度学习模型训练业内首个机柜一体化AI计算机PCIeNetwork100GbRDMANetworkCPU计算节点-1GPUBOX-1CPU计算节点-nGPUBOX-nPCIe核心交换机GPUBOX深度学习一体机机柜配置•基于天蝎整机柜架构•2100mm,42U高度•模块化散热和供电•集中管理•单机柜2个计算节点+1个GPUBOX风扇电源与国际AI巨头对比对比项GPU-BOXFacebookBigSurFacebookBigBasinMicrosoftHGX-1单机箱支持GPU最大数量16888CPU和GPU配比任意最大1:641:81:2/4/8/161:2/4/8/16硬件解耦✔✖✔✔资源池化✔✖✖GPU密度4U16卡4U8卡4U8卡4U8卡功耗密度4U5KW4U2.5KW4U2.5KW4U2.5KW上线时间16年5月16年3月17年3月17年3月注:Google和亚马逊的GPU服务器单机最大支持8个GPU✔大数据平台深度学习平台数据采集和标注异构计算知识图谱深度学习框架PaddlePaddlePArallelDistributedDeepLEarning特点•并行分布式深度学习平台,支持多机多卡并行、数据并行、模型并行。•支持CPU/GPU/FPGA•支持序列模型•支持大规模稀疏训练支撑了业务系统的有效应用•实时高并发系统、稳定性要求极高,毫秒级实时预测•特征规模超大(千亿)、数据规模超大(日数十亿迭代处理)深度学习数据流场景深度学习模型预测深度学习模型训练分布式文件系统BOS/HDFS模型存储百度数据采集和标注服务分布式文件系统BOS/HDFS数据存储在线服务在线服务日志收集百度深度学习平台…GPUGPUGPU百度深度学习一体化平台(计算/存储资源池)…CPUCPUCPU分布式文件系统HDFS百度深度学习框架与调度监控软件深度学习-训练任务提交深度学习-预测任务常驻通用深度学习模型人脸识别语音识别NLPOCR智能客服营销风控结合百度多年数据经验积累及模型技术沉淀,百度对于如下场景提供标准算法模型套件输出通用深度学习模型CPUGPUGPUGPU•支持PaddlePaddle、Tensorflow、MXNet、Caffe等深度学习框架•支持多用户共享一个集群•支持训练作业管理•支持模型版本管理、发布、预测服务•支持安装百度大脑的各种预训练模型•支持快速建立开发环境•最先进的GPU加速器ABC一体机端到端软硬件经过调优完美兼容性部署简单轻松部署开箱即用扩展性强平滑扩容快速扩展高安全性私有部署安全无忧64单服务器最高支持GPU卡数5000单集群并发调度GPU卡数1000单集群并发调度服务器数10000单机群用户数100000单集群并发调度作业数ABC一体机指标一个案例:钢板质量缺陷检测生产环境采集钢板照片ABC一体机部署的检测模型钢板质量分类结果conv1pool1conv2_xconv3_xconv4_xconv5_xSSDLayersOriginalPredictionlayer5X5convolution2X2subsampling5X5convolution2X2subsamplingFeatureextractionclassificationC1FeaturemapsS1FeaturemapsCnFeaturemapsSnFeaturemapsn1n2output01243钢板质量检测模型图像处理的更多案例大数据平台深度学习平台数据采集和标注异构计算知识图谱数据采集和标注数据样本-机器学习的核心迭代model待评modelP迭代样本F评测数据集合F上线P初始model训练model训练迭代训练验证评测验证数据集合样本数据有数据就有可能,没有数据一定不可能雏形上路模型训练•线上抓取:8000万条url/天•线下采集:1万人,分布全国300个城市•采集类型:网页、照片、语音、视频、POI•标注能力:通过培训的标注专员5000人,专职审核人员200人•质量保证:机器审核+人工抽审•标注类型:文本、网页、图片(2D|3D)、语音、视频、地图…数据采集数据标注大数据平台深度学习平台数据采集和标注异构计算知识图谱什么是知识图谱•世界是由事物组成的,而不是字符串•知识图谱用来刻画事物以及事物之间的关系•知识图谱可以把所有不同种类的信息(HeterogeneousInformation)连接在一起而得到的一个关系网络。•知识图谱提供了从“关系”的角度去分析问题的能力•知识图谱可以帮助AI更好的理解世界知识图谱技术架构4项发明专利:《一种结构化网页正文的装置和方法》《一种新型问答知识库构建技术》《一种基于问题意图的答案摘要技术》《文本核心词识别》知识图谱的一个案例智能多轮对话IVR客服助手用户客服智能推荐语音多轮对话语音评价收集智能话务分流实时话术提示来电原因分类来电诉求提示推荐问题归类用户画像业务模型行为模型用户行为预测多轮对话机器人语义理解语音交互后台知识库自主学习智能检索自然语言处理语音技术深度学习用户画像大数据百度AI基础技术精准预判客户诉求明确诉求快速应答天津联通智能客服,是百度为天津联通量身定做的一套含智能语音IVR及客服助手的AI产品,旨在帮助联通客服人员话务分流、降本增效。其底层用的知识库利用知识图谱构建技术,实现了自动抽取增量知识、智能检索及自主学习等功能。目前在小流量期间:•知识库解答问题占比16%;•回复准确率86%,高于人工客服回答准确率1个百分点。基于知识库在这一项目中的良好效果,联通总公司后续将和百度就统一智能知识库项目继续深度合作。Thanks百度云人工智能首席架构师张发恩百度云与人工智能

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功