⼤大数据和深度学习介绍张潼2013年11月3⽇日⼤大数据在互联⺴⽹网 数据是互联⺴⽹网公司的最⼤大战略资源 创造⽤用户体验 创造商业价值 核⼼心技术 ⼤大数据管理:infrastructure ⼤大数据分析:machinelearning 应⽤用:systemintegration 机器学习 • ⺫⽬目标:让计算机系统更智能 • ⽅方法:⼤大数据+计算能⼒力+复杂模型+⾼高效算法è智能 常⽤用机器学习模型 观察量è决策的数学模型 主要讨论监督模型 搜索⼲⼴广告 机器学习问题 • 点击率(CTR)预估 • 问题规模: 数据存储和管理:上万台机器 数据量:百亿到千亿级 特征数:百亿到千亿级(稀疏离散值特征) • ⼤大型线性LogisticRegression模型 • 计算技术:分布式同步CPU并⾏行计算 语⾳音识别 è èè你好 机器学习问题 • 把声学信号变成⽂文字:多分类问题 • 问题规模 万⼩小时级语料 百亿级训练数据 上万类别;⼏几百维特征(稠密连续值特征) • 深度神经⺴⽹网络模型 • 计算技术:分布式异步GPU计算 机器学习流程 MachineLearningPipelinelearningalgorithmprocessingdatainputdatatrainingtrainedmodelinformationdecisionT.Zhang(Baidu)BigData6/22⼤大规模机器学习 • 基础架构 分布式数据存储,管理,和分析 分布式CPU/GPU计算平台 • 算法 模型和特征提取 数据抽样 ⼤大型机器学习模型优化 数据管理 • Hadoop:⼤大数据存储defactostandard 分布式⽂文件系统(HDFS) Map-Reduce 可⽤用于机器学习特征提取 计算性能 CPU:complextasks Largememory(128G) Fewcores(8) Peak100+Gflops 适合: 稀疏离散特征 树模型 GPU:simpletasksextremeparallel Smallmemory(5G) Manycores(2Kcores) Peak3Tflops 适合: 稠密连续值 深层神经⺴⽹网络计算 数学问题 • ⼤大型机器学习训练优化问题: • 分布式多机并⾏行训练 minw1nnXi=1fi(w)问题的分配⽅方式 分配数据到多机 • 每个机器有所有模型参数 • 每个机器也不同数据 分配数据和特征到多机 • 每个机器有⼀一些特征和⼀一些参数 分配特征到多机 • 每个机器有所有数据的⼀一些特征 • 每个机器有不同参数 ⼤大型线性模型 minw1nnXi=1fi(w)fi(w)=ln(1+e wxiyi)多机CPU分布式计算 树模型 可⽤用CPU分布式计算 把特征发到不同机器 深度神经⺴⽹网络 minw1nnXi=1fi(w)多机GPU/CPU分布式计算 ⼤大数据算法研究 问题 ⽤用什么数据解决什么问题 数据 数据融合,结构;噪声过滤和纠偏;数据抽样⽅方法;数据降维 模型 图模型,树模型,深度神经⺴⽹网络 分布式计算 同步和异步;鲁棒性;⼤大模型;理论分析 从浅层到深度学习 浅层⺴⽹网络: ⼈人⼯工特征抽取 学习线性组合 深层⺴⽹网络: 从原始特征出发 ⾃自动学习⾼高级特征组合 ⾼高级特征 20 Image Speech 神经⺴⽹网络的发展 • Perceptron(1958-1969) • NeuralNetworks(mid1980–early1990) • DeepLearning(2006–now) • 1995—2006 • SVM,KernelMachines • Convex;Linear • 好的理论分析 • 容易调参 深度学习成功条件 • 2010-今:在⼯工业界取得巨⼤大成功 • 复杂模型 • ⼤大数据:100x • ⼤大规模计算能⼒力:1000x • ⼤大数据+计算能⼒力+复杂模型+⾼高效算法è智能 深度学习在百度 • 2012年夏天投⼊入研发 • ⽤用GPU提升计算效率,处理海量训练数据 • 语⾳音识别,OCR识别,⼈人脸识别,图像搜索等巨⼤大提升 • 到⺫⽬目前,超过8项技术在产品上线 百度深度学习成果 • 语音:错误率相对降低20-30%• OCR:错误率相对降低30%• 人脸识别:世界最好结果• 全网相似图像搜索:效果显著超谷歌同类产品• 全流量上线广告CTR预估,显著提升广告点击率 语⾳音产品 语⾳音搜索输⼊入法地图搜索语⾳音助⼿手百度魔图 单日最高上载9000张图片,在IOSAPP排行榜总榜排名第一达3周之久百度技术Google搜索结果检索图片图片搜索数据规模• 图像识别:数千万训练样本• OCR:数千万训练样本• 语音识别:数百亿训练样本• 广告:千亿训练样本• …11/4/1328训练数据每年成倍增长…深度学习模型:图像 计算能⼒力和算法 • ⼏几⼗十台GPU并⾏行计算 • 并⾏行算法 深度学习研究 • ⼤大数据的问题 • 基于问题的模型结构 • Nonlinearfeaturediscovery • Knowledgerepresentation • Forminghighlevelsemantics • ⼤大规模分布式算法 • Platform+engineering+algorithm ⼤大数据和深度学习的意义 • ⺫⽬目标:计算机智能和⼈人⼯工智能 • ⼿手段: • ⼤大数据 • 复杂模型 • 计算能⼒力和算法 • 系统合成 • 深度学习:最接近⼈人脑的复杂模型 • ⺫⽬目前向⼈人⼯工智能⾛走得最近的⽅方法