研究生课程考核报告科目:高性能算法研究前沿教师:向涛姓名:周月玥学号:20161402032t专业:计算机科学与技术类别:学术型上课时间:2016.3——2016.6考生成绩:卷面成绩平时成绩课程综合成绩阅卷评语:阅卷教师(签名)重庆大学研究生院制深度学习算法研究与实现深度学习原理深度学习是机器学习拉出的分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中表征学习方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的矢量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别[6])。深度学习的好处是将用非监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征。表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。表达方式类似神经科学的进步,并松散地创建在类似神经系统中的信息处理和通信模式的理解上,如神经编码,试图定义拉动神经元的反应之间的关系以及大脑中的神经元的电活动之间的关系。至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度信念网络和递归神经网络已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。另外,深度学习已成为类似术语,或者说是神经网络的品牌重塑。深度学习的研究发展过程和最新研究现状以前,绝大多数机器学习和信号处理技术都利用浅层结构,这些结构一般包含最多一到两层的非线性特征变换,这种状况直到近几年才得以改变。浅层结构包括高斯混合模型(GMM),线性或非线性动力系统,条件随机场(CRF)、最大熵模型(MaxEnt)、支持向量机(SVM)、逻辑回归(LR)、核回归以及多层感知器(MLP)(包括极限学习器而且只包含一个隐层)。已近证明,浅层结构在解决很多简单的或者限制较多的问题上效果明显,但是由于其建模和表示能力有限,在遇到实际生活一些更复杂的涉及自然信号的问题时就会遇到各种困难。然而,人类信息处理机制,总是需要深度结构从丰富的感官输入信息中提取复杂结构并构建内部表示。例如,由于人类语言的产出和感知系统都具有清晰的层结构,这就使得信息可以从波形层转换到语言层。同理,人类视觉系统也有分层的特点这些虽然基本都只是存在于感知层面,但有趣的是,有时候在产出时也有分层的特点。我们应该相信,如果能提出更高效且更有效的深度学习算法,那么用于处理这种自然信号的最前沿技术也将进一步得到提高。深度学习的概念起源于对人工神经网络的研究。前馈神经网络或具有多隐层的多层感知器是深度结构模型中很好的范例。加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要的信息:1.很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2.深度神经网络在训练上的难度,可以通过“逐层初始化”(Layer-wisePre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。正如文章开头所描述的,今天Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测深度学习的应用情况语音识别语音识别系统长期以来,在描述每个建模单元的统计概率模型时,大多采用的是混合高斯模型(GMM)。这种模型由于估计简单,适合海量数据训练,同时有成熟的区分度训练技术支持,长期以来,一直在语音识别应用中占有垄断性地位。但这种混合高斯模型本质上是一种浅层网络建模,不能充分描述特征的状态空间分布。另外,GMM建模的特征维数一般是几十维,不能充分描述特征之间的相关性。最后,GMM建模本质上是一种似然概率建模,虽然区分度训练能够模拟一些模式类之间的区分性,但能力有限。微软研究院语音识别专家邓立和俞栋从2009年开始和深度学习专家GeofferyHinton合作。2011年微软宣布基于深度神经网络的识别系统取得成果并推出产品,彻底改变了语音识别原有的技术框架。采用深度神经网络后,可以充分描述特征之间的相关性,可以把连续多帧的语音特征并在一起,构成一个高维特征。最终的深度神经网络可以采用高维特征训练来模拟。由于深度神经网络采用模拟人脑的多层结果,可以逐级地进行信息特征抽取,最终形成适合模式分类的较理想特征。这种多层结构和人脑处理语音图像信息时,是有很大的相似性的。深度神经网络的建模技术,在实际线上服务时,能够无缝地和传统的语音识别技术相结合,在不引起任何系统额外耗费情况下,大幅度提升了语音识别系统的识别率。其在线的使用方法具体如下:在实际解码过程中,声学模型仍然是采用传统的HMM模型,语音模型仍然是采用传统的统计语言模型,解码器仍然是采用传统的动态WFST解码器。但在声学模型的输出分布计算时,完全用神经网络的输出后验概率乘以一个先验概率来代替传统HMM模型中的GMM的输出似然概率。百度在实践中发现,采用DNN进行声音建模的语音识别系统相比于传统的GMM语音识别系统而言,相对误识别率能降低25%。最终在2012年11月,百度上线了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一。国际上,Google也采用了深层神经网络进行声音建模,是最早突破深层神经网络工业化应用的企业之一。但Google产品中采用的深度神经网络只有4-5层,而百度采用的深度神经网络多达9层。这种结构差异的核心其实是百度更好地解决了深度神经网络在线计算的技术难题,因此百度线上产品可以采用更复杂的网络模型。这将对于未来拓展海量语料的DNN模型训练有更大的优势。图像识别图像是深度学习最早尝试的应用领域。早在1989年,YannLeCun(现纽约大学教授)和他的同事们就发表了卷积神经网络(ConvolutionNeuralNetworks,简称CNN)的工作。CNN是一种带有卷积结构的深度神经网络,通常至少有两个非线性可训练的卷积层,两个非线性的固定卷积层(又叫PoolingLaye)和一个全连接层,一共至少5个隐含层。CNN的结构受到著名的Hubel-Wiesel生物视觉模型的启发,尤其是模拟视觉皮层V1和V2层中SimpleCell和ComplexCell的行为。在很长时间里,CNN虽然在小规模的问题上,如手写数字,取得过当时世界最好结果,但一直没有取得巨大成功。这主要原因是,CNN在大规模图像上效果不好,比如像素很多的自然图片内容理解,所以没有得到计算机视觉领域的足够重视。这个情况一直持续到2012年10月,GeoffreyHinton和他的两个学生在著名的ImageNet问题上用更深的CNN取得世界最好结果,使得图像识别大踏步前进。在Hinton的模型里,输入就是图像的像素,没有用到任何的人工特征。这个惊人的结果为什么在之前没有发生?原因当然包括算法的提升,比如dropout等防止过拟合技术,但最重要的是,GPU带来的计算能力提升和更多的训练数据。百度在2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题,并推出相应的桌面和移动搜索产品,2013年,深度学习模型被成功应用于一般图片的识别和理解。从百度的经验来看,深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率。可以很有把握地说,从现在开始,深度学习将取代“人工特征+机器学习”的方法而逐渐成为主流图像识别方法。自然语言处理除了语音和图像,深度学习的另一个应用领域问题是自然语言处理(NLP)。经过几十年的发展,基于统计的模型已经成为NLP的主流,但作为统计方法之一的人工神经网络在NLP领域几乎没有受到重视。最早应用神经网络的NLP问题是语言模型。加拿大蒙特利尔大学教授YoshuaBengio等人于2003年提出用embedding的方法将词映射到一个矢量表示空间,然后用非线性神经网络来表示N-Gram模型。世界上最早的最早的深度学习用于NLP的研究工作诞生于NEC美国研究院,其研究员RonanCollobert和JasonWeston从2008年开始采用embedding和多层一维卷积的结构,用于POSTagging、Chunking、NamedEntityRecognition、SemanticRoleLabeling等四个典型NLP问题。值得注意的是,他们将同一个模型用于不同任务,都能取得与业界最前沿相当的准确率。最近以来,斯坦福大学教授ChrisManning等人在将深度学习用于NLP的工作也值得关注。总的来说,深度学习在NLP上取得的进展没有在语音图像上那么令人影响深刻。一个很有意思的悖论是:相比于声音和图像,语言是唯一的非自然信号,是完全由人类大脑产生和处理的符号系统,但模仿人脑结构的人工神经网络却似乎在处理自然语言上没有显现明显优势?我们相信,深度学习在NLP方面有很大的探索空间。从2006年图像深度学习成为学术界热门课题到2012年10月GeofferyHinton在ImageNet上的重大突破,经历了6年时间。我们需要有足够的耐心。搜索广告CTR预估搜索广告是搜索引擎的主要变现方式,而按点击付费(CostPerClick,CPC)又是其中被最广泛应用的计费模式。在CPC模式下,预估的CTR(pCTR)越准确,点击率就会越高,收益就越大。通常,搜索广告的pCTR是通过机器学习模型预估得到。提高pCTR的准确性,是提升搜索公司、广告主、搜索用户三方利益的最佳途径。传统上,Google、百度等搜索引擎公司以LogisticRegression(LR)作为预估模型。而从2012年开始,百度开始意识到模型的结构对广告CTR预估的重要性:使用扁平结构的LR严重限制了模型学习与抽象特征的能力。为了突破这样的限制,百度尝试将DNN作用于搜索广告,而这其中最大的挑战在于当前的计算能力还无法接受1011级别的原始广告特征作为输入。作为解决,在百度的DNN系统里,特征数从1011数量级被降到了103,从而能被DNN正常地学习。这套深度学习系统已于2013年5月开始服务于百度搜索广告系统,每天为数亿网民使用。DNN在搜索广告系统中的应用还远远没有成熟,其中DNN与迁移学习的结合将可能是一个令人振奋的方向。使用DNN,未来的搜索广告将可能借助网页搜索的结果优化特征的学习与提取;亦可能通过DNN将不同的产品线联系起来,使得不同的变现产品不管数据多少,都能互相优化。我们认为未来的DNN一定会在搜索广告中起到更重要的作用。深度学习实践平台选择:在本次实验我选择了比较熟悉java语言作为开发语言,在具体的深度学