机器学习与深度学习2目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考3小学生解方程a3+b=10a8+b=30a=?b=?4高中,大学---矩阵,矢量5线性回归及分类机器学习背景Y是一个N维向量XT是一转置矩阵N*(p+1)β是一个p+1的向量•线性回归:,给定X,和Y,计算β以最佳匹配X,Y的关系。•Np+1。•β即为线性回归模型的参数。•βk表明对应的维度,Xk的重要性什么为最佳匹配?6参数估计方法一:最小化误差平方和机器学习背景0)(RSS7正则化L2(Ridge)Regularization限制参数的大小,以避免过拟合8正则化L1Regularization(Lasso)限制参数的大小,以避免过拟合pjj...1||Noclosedformforβ9逻辑回归)|0(0xXGPP011)|1(PxXGPPxPPT01logxxTTeeP11xTeP110jG1x2xnx110逻辑回归-参数训练jG1x2xnx1训练目标函数:最大似然对数概率01101log)log)1(log)(PxgPgPgiNiiNiii牛顿迭代:11目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考12神经元网络单层前向网络两阶段回归或分类K-Class分类最底层为数据层最上层为输出层中间层为隐含层这种简单的NN称为Perceptron13神经元网络---输入层到隐含层中间层为输入层线性组合的某函数vev11)(其中δ为激活函数:sigmoid14神经元网络-激活函数δ为激活(Activation)函数(红线)0δ1δ(10v)δ(0.5v)δ(sv),s控制0点的激活强度当s0,δ--线性函数15神经元网络,隐含层到输出层输出层为中间层的线性组合回归问题kkTTg)(K-Class分类问题,softmax函数KlTTklkeeTg...1)(16训练神经元网络:参数集合及维度神经元网络参数集合θ17训练神经元网络优化参数求导最小化目标函数:最小误差平方和及求导18训练神经元网络--BackPropagation梯度下降迭代算法输出层误差:δki隐含层误差:smi19BP算法初始化参数θ两阶段算法:Two-Pass前向Forward-Pass:给定参数,计算输出值后向Backward-Pass:计算输出层误差,计算隐含层误差,更新参数BP算法图示(1985~)inputvectorhiddenlayersoutputsBack-propagateerrorsignaltogetderivativesforlearningCompareoutputswithcorrectanswertogeterrorsignal21神经元网络小结22目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考24BP算法在深层神经元网络中的问题•依赖于标注的训练数据目前大量数据为非标注数据•训练时间长,很难规模化多层神经元网络训练很慢•会停驻在性能较差的本地优化点浅层网络,该问题不明显深层网络,问题显著25支持向量基(SVM)一个特殊的神经元网络StillPerceptron一个特殊的单隐含层网络每个训练案例用于构造一个特征,该特征用于测量改训练案例和测试案例的距离SVM训练选择自由特征集以及特征的权重1990-2010很多让放弃NN,选择SVMnon-adaptivehand-codedfeaturesoutputunitse.g.classlabelsinputunitse.g.pixelsSketchofatypicalperceptronfromthe1960’sBombToy深层信任网络(DeepBeliefNet,DBN)是部分解决了以上问题的神经元网络2728谁重新激活了神经元网络?•GeoffreyHinton出生于:1947专业:•学士,心理学,1970,•博士,人工智能,1978多伦多大学教授Google研究中心1986:神经元网络BP算法发明人之一深度学习主要贡献人IGETVERYEXCITEDWHENWEDISCOVERAWAYOFMAKINGNEURALNETWORKSBETTER—ANDWHENTHAT’SCLOSELYRELATEDTOHOWTHEBRAINWORKS.’29谁重新激活了神经元网络?•NCAP:神经计算和自适应感知项目2004NCAPResearchers•YoshuaBengio•YannLecun(FaceBook)•AndrewNg(Baidu)•20~OthersCoreTeam30深度学习的•2006年,GeofferyHintonScience发表DBN文章。•2012年,Hinton,ImageNet,26%-15%。•2012年,AndrewNg和分布式系统顶级专家JeffDean,GoogleBrain项目,16000个CPU核的并行,10亿个神经元的深度神经网络•2012年,微软首席研究官RickRashid在21世纪的计算大会上演示了一套自动同声传译系统•2013年,Hinton-Google;YannLeCun-Facebook;用户图片信息提取2013年,百度成立了百度研究院及下属的深度学习研究所(IDL),•2014年,AndrewNg-Badidu3132可信任网络BeliefNets(BN)•一个BN是一个由随机变量组成的有向非循环图•一部分变量为可观察已知变量•如何由已知变量推断出非观察变量的状态•调整变量之间连接的参数优化:最大可能重新生成观察变量stochastichiddencausevisibleeffectWewillusenetscomposedoflayersofstochasticbinaryvariableswithweightedconnections.Later,wewillgeneralizetoothertypesofvariable.可信任,信任什么?随机的二元单元(Bernoullivariables)•隐含层的神经元的状态为0或1•该神经元激活的概率为输入层加权和的sigmoid函数001jjijiiwsbsp)exp(1)(11jjijiwsb)(1isp34RestrictedBoltzmannMachines(RBM)•限制神经元之间的链接以简化参数学习.–只包含一个隐含层.•多隐含层后期引入–隐含层单元之间无链接.–给定输入可观察矢量,隐含层单元之间独立–隐含层和输入层之间为无向链接hiddenijvisible35RBM训练0jihvjihvijijijijt=0t=1t=2t=infinityjijiijijhvhvwvp0)(log从可观察训练矢量开始,交替更新隐含层和可观察矢量层单元afantasy36小结一个基础的DBN网络决定DBN的隐含层数以及隐含层的神经元数每两层之间依据RBM单独依次训练参数训练完的两层网络简单叠加起来成为深层网络利用BP算法对叠加后的网络连接参数进一步优化RBMPseudo代码Fort=0ton:Vt-Ht基于sigmoid函数和Gibbs采样Ht-Vt+1基于sigmoid函数和Gibbs采样Vt+1-Ht+1基于sigmoid函数和Gibbs采样更新参数W:RBMCode37目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考38深度学习目前常用的架构•深度神经元全连网络DNN(DeepNeuralNets),Tensor-DNN•卷积神经元网络CNN(ConvolutionalNeuralNets)•深度叠拼神经元网络DSN(DeepStackingNets);Kernel-DSN,Tensor-DSN•循环神经元网络RNNs(RecurrentandrecursiveNeuralNets)39DNN在语音识别中的应用40DNN在语音识别中的应用41语音识别中的BottleNeck特征42图像识别中的神经元网络应用•卷积神经元网络ConvolutionNeuralNetwork(CNN)输入层可以使多元的,也可以是一元的43图像识别中的神经元网络应用:卷积层输入:维度的矩阵X输出:维度的矩阵连接输入和输出的参数:维度的矩阵WNN)1()1(MNMNMM))((1010bjaiMaMbabcijxwxcX44图像识别中的神经元网络应用:Pooling层输入:region,矩阵输出:Asinglevalue,连接输入输出层参数:无最大值pooling均值poolingkk)1()1(MNMN)1()1(kMNkMN45图像识别中的神经元网络应用:全连层同DNN46卷积神经元网络的架构47ImageNet2012年竞赛48ImageNet2013年竞赛目前图像中物体识别性能49语音识别中CNN的使用(2013,Sainath@IEEE)50循环神经元网络RNN51RNN同DNN的比较52BackPropagationThroughTime(BPTT)三类参数训练方式可等同于前向网络在时域的组合53双向RNN实现训练算法:RBM初始化每个时间点t的网络BPTT,BP算法的扩展优化参数训练54神经元网络在自然语言处理中的应用•语言模型•信息分类•信息聚类•信息提取•搜索•翻译•词向量语义表示55一批关键的文章•YoshuaBengio,RejeanDucharme,PascalVincent,andChristianJauvin.Aneuralprobabilisticlanguagemodel.JournalofMachineLearningResearch(JMLR),3:1137–1155,2003.[PDF]•RonanCollobert,JasonWeston,LéonBottou,MichaelKarlen,KorayKavukcuogluandPavelKuksa.NaturalLanguageProcessing(Almost)fromScratch.JournalofMachineLearningResearch(JMLR),12:2493-2537,2011.[PDF]•AndriyMnih&GeoffreyHinton.Threenewgraphicalmodelsforstatisticallanguagemodelling.InternationalConferenceonMachineLearning(ICML).2007.[PDF]AndriyMnih&GeoffreyHinton.Ascalablehierarchicaldistributedlanguagemodel.TheConferenceonNeuralInformationProcessingSystems(NIPS)(pp.1081–1088).2008.[PDF]•MikolovTomáš.StatisticalLanguageModelsbasedonNeuralNetworks.PhDthesis,BrnoUniversityofTechnology.2012.[PDF]•TurianJoseph,LevRatinov,andYoshuaBengio.Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning.Proceedingsofthe48thAnnualMeetingoftheAssociatio