机器学习与深度学习

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

机器学习与深度学习2目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考3小学生解方程a3+b=10a8+b=30a=?b=?4高中,大学---矩阵,矢量5线性回归及分类机器学习背景Y是一个N维向量XT是一转置矩阵N*(p+1)β是一个p+1的向量•线性回归:,给定X,和Y,计算β以最佳匹配X,Y的关系。•Np+1。•β即为线性回归模型的参数。•βk表明对应的维度,Xk的重要性什么为最佳匹配?6参数估计方法一:最小化误差平方和机器学习背景0)(RSS7正则化L2(Ridge)Regularization限制参数的大小,以避免过拟合8正则化L1Regularization(Lasso)限制参数的大小,以避免过拟合pjj...1||Noclosedformforβ9逻辑回归)|0(0xXGPP011)|1(PxXGPPxPPT01logxxTTeeP11xTeP110jG1x2xnx110逻辑回归-参数训练jG1x2xnx1训练目标函数:最大似然对数概率01101log)log)1(log)(PxgPgPgiNiiNiii牛顿迭代:11目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考12神经元网络单层前向网络两阶段回归或分类K-Class分类最底层为数据层最上层为输出层中间层为隐含层这种简单的NN称为Perceptron13神经元网络---输入层到隐含层中间层为输入层线性组合的某函数vev11)(其中δ为激活函数:sigmoid14神经元网络-激活函数δ为激活(Activation)函数(红线)0δ1δ(10v)δ(0.5v)δ(sv),s控制0点的激活强度当s0,δ--线性函数15神经元网络,隐含层到输出层输出层为中间层的线性组合回归问题kkTTg)(K-Class分类问题,softmax函数KlTTklkeeTg...1)(16训练神经元网络:参数集合及维度神经元网络参数集合θ17训练神经元网络优化参数求导最小化目标函数:最小误差平方和及求导18训练神经元网络--BackPropagation梯度下降迭代算法输出层误差:δki隐含层误差:smi19BP算法初始化参数θ两阶段算法:Two-Pass前向Forward-Pass:给定参数,计算输出值后向Backward-Pass:计算输出层误差,计算隐含层误差,更新参数BP算法图示(1985~)inputvectorhiddenlayersoutputsBack-propagateerrorsignaltogetderivativesforlearningCompareoutputswithcorrectanswertogeterrorsignal21神经元网络小结22目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考24BP算法在深层神经元网络中的问题•依赖于标注的训练数据目前大量数据为非标注数据•训练时间长,很难规模化多层神经元网络训练很慢•会停驻在性能较差的本地优化点浅层网络,该问题不明显深层网络,问题显著25支持向量基(SVM)一个特殊的神经元网络StillPerceptron一个特殊的单隐含层网络每个训练案例用于构造一个特征,该特征用于测量改训练案例和测试案例的距离SVM训练选择自由特征集以及特征的权重1990-2010很多让放弃NN,选择SVMnon-adaptivehand-codedfeaturesoutputunitse.g.classlabelsinputunitse.g.pixelsSketchofatypicalperceptronfromthe1960’sBombToy深层信任网络(DeepBeliefNet,DBN)是部分解决了以上问题的神经元网络2728谁重新激活了神经元网络?•GeoffreyHinton出生于:1947专业:•学士,心理学,1970,•博士,人工智能,1978多伦多大学教授Google研究中心1986:神经元网络BP算法发明人之一深度学习主要贡献人IGETVERYEXCITEDWHENWEDISCOVERAWAYOFMAKINGNEURALNETWORKSBETTER—ANDWHENTHAT’SCLOSELYRELATEDTOHOWTHEBRAINWORKS.’29谁重新激活了神经元网络?•NCAP:神经计算和自适应感知项目2004NCAPResearchers•YoshuaBengio•YannLecun(FaceBook)•AndrewNg(Baidu)•20~OthersCoreTeam30深度学习的•2006年,GeofferyHintonScience发表DBN文章。•2012年,Hinton,ImageNet,26%-15%。•2012年,AndrewNg和分布式系统顶级专家JeffDean,GoogleBrain项目,16000个CPU核的并行,10亿个神经元的深度神经网络•2012年,微软首席研究官RickRashid在21世纪的计算大会上演示了一套自动同声传译系统•2013年,Hinton-Google;YannLeCun-Facebook;用户图片信息提取2013年,百度成立了百度研究院及下属的深度学习研究所(IDL),•2014年,AndrewNg-Badidu3132可信任网络BeliefNets(BN)•一个BN是一个由随机变量组成的有向非循环图•一部分变量为可观察已知变量•如何由已知变量推断出非观察变量的状态•调整变量之间连接的参数优化:最大可能重新生成观察变量stochastichiddencausevisibleeffectWewillusenetscomposedoflayersofstochasticbinaryvariableswithweightedconnections.Later,wewillgeneralizetoothertypesofvariable.可信任,信任什么?随机的二元单元(Bernoullivariables)•隐含层的神经元的状态为0或1•该神经元激活的概率为输入层加权和的sigmoid函数001jjijiiwsbsp)exp(1)(11jjijiwsb)(1isp34RestrictedBoltzmannMachines(RBM)•限制神经元之间的链接以简化参数学习.–只包含一个隐含层.•多隐含层后期引入–隐含层单元之间无链接.–给定输入可观察矢量,隐含层单元之间独立–隐含层和输入层之间为无向链接hiddenijvisible35RBM训练0jihvjihvijijijijt=0t=1t=2t=infinityjijiijijhvhvwvp0)(log从可观察训练矢量开始,交替更新隐含层和可观察矢量层单元afantasy36小结一个基础的DBN网络决定DBN的隐含层数以及隐含层的神经元数每两层之间依据RBM单独依次训练参数训练完的两层网络简单叠加起来成为深层网络利用BP算法对叠加后的网络连接参数进一步优化RBMPseudo代码Fort=0ton:Vt-Ht基于sigmoid函数和Gibbs采样Ht-Vt+1基于sigmoid函数和Gibbs采样Vt+1-Ht+1基于sigmoid函数和Gibbs采样更新参数W:RBMCode37目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考38深度学习目前常用的架构•深度神经元全连网络DNN(DeepNeuralNets),Tensor-DNN•卷积神经元网络CNN(ConvolutionalNeuralNets)•深度叠拼神经元网络DSN(DeepStackingNets);Kernel-DSN,Tensor-DSN•循环神经元网络RNNs(RecurrentandrecursiveNeuralNets)39DNN在语音识别中的应用40DNN在语音识别中的应用41语音识别中的BottleNeck特征42图像识别中的神经元网络应用•卷积神经元网络ConvolutionNeuralNetwork(CNN)输入层可以使多元的,也可以是一元的43图像识别中的神经元网络应用:卷积层输入:维度的矩阵X输出:维度的矩阵连接输入和输出的参数:维度的矩阵WNN)1()1(MNMNMM))((1010bjaiMaMbabcijxwxcX44图像识别中的神经元网络应用:Pooling层输入:region,矩阵输出:Asinglevalue,连接输入输出层参数:无最大值pooling均值poolingkk)1()1(MNMN)1()1(kMNkMN45图像识别中的神经元网络应用:全连层同DNN46卷积神经元网络的架构47ImageNet2012年竞赛48ImageNet2013年竞赛目前图像中物体识别性能49语音识别中CNN的使用(2013,Sainath@IEEE)50循环神经元网络RNN51RNN同DNN的比较52BackPropagationThroughTime(BPTT)三类参数训练方式可等同于前向网络在时域的组合53双向RNN实现训练算法:RBM初始化每个时间点t的网络BPTT,BP算法的扩展优化参数训练54神经元网络在自然语言处理中的应用•语言模型•信息分类•信息聚类•信息提取•搜索•翻译•词向量语义表示55一批关键的文章•YoshuaBengio,RejeanDucharme,PascalVincent,andChristianJauvin.Aneuralprobabilisticlanguagemodel.JournalofMachineLearningResearch(JMLR),3:1137–1155,2003.[PDF]•RonanCollobert,JasonWeston,LéonBottou,MichaelKarlen,KorayKavukcuogluandPavelKuksa.NaturalLanguageProcessing(Almost)fromScratch.JournalofMachineLearningResearch(JMLR),12:2493-2537,2011.[PDF]•AndriyMnih&GeoffreyHinton.Threenewgraphicalmodelsforstatisticallanguagemodelling.InternationalConferenceonMachineLearning(ICML).2007.[PDF]AndriyMnih&GeoffreyHinton.Ascalablehierarchicaldistributedlanguagemodel.TheConferenceonNeuralInformationProcessingSystems(NIPS)(pp.1081–1088).2008.[PDF]•MikolovTomáš.StatisticalLanguageModelsbasedonNeuralNetworks.PhDthesis,BrnoUniversityofTechnology.2012.[PDF]•TurianJoseph,LevRatinov,andYoshuaBengio.Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning.Proceedingsofthe48thAnnualMeetingoftheAssociatio

1 / 84
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功