华东理工大学2014—2015学年第_1_学期《计算机科学与技术前沿讲座》课程论文2015.1班级:计算机科学与技术3班学号:Y30140713姓名:谢毅刚开课学院:信息学院任课教师:虞慧群成绩__________论文题目:大数据背景下的深度学习算法论文要求:根据研一上半学期听过的讲座,介绍深度学习的背景、国内外发展的现状,深度学习的模型,以及面临的问题。最后以论文的形式上交。教师评语:教师签字:年月日大数据背景下的深度学习算法摘要随着大数据时代的到来,基于深度学习技术的机器学习方法被用于有效地分析和处理这些数据。本文详细的介绍了深度学习算法(DeepLearning)的由来,国内外发展的现状,深度学习的模型,以及面临的问题。表明了大数据背景下深度学习的重要性和以及它的发展方向。关键字:大数据、深度学习、DeepLearning背景大数据的存储、计算和分析是大数据处理中的关键技术,大数据的价值产生于对大数据的有效分析。因此,数据分析环节是大数据处理流程的核心和关键。互联网是大数据的主要来源之一。据数据分析公司Domo在2011年和2014年对每分钟新增网络数据的不完全统计,上传到YouTube的视频时长从48h上升为72h,在Facebook上分享的信息从684478条上升为2460000条,对Google的搜索请求从200万次上升为400万次等。每时每刻互联网上都有无数的网页和海量的音频、视频、图像等数据产生。现今大数据已触及并影响和改变着人们工作和生活的方方面面。从网络上的电子商务交易到对整个国家经济决策的制定,从医生诊断疾病、作出治疗方案到公路交通治理,从天气预报灾害预测到降低犯罪率、提高安全保障等,到处可见大数据的身影,但是却只有极少量的数据被分析和有效利用。这些数据呈现出非结构化和多源等特点,需要开发新的更加智能的数据挖掘和智能算法技术,从众多复杂的数据中发现规律和模式,提取出新的知识,辅助人类决策或给出可能的预测。采用人工智能和机器学习技术来分析大数据,让机器代替人工获得从数据中提取知识的能力,具有广泛的应用前景。以互联网上的应用为例:计算广告学、垃圾邮件过滤、推荐系统、时间序列(趋势分析)等都是大数据的用武之地。大数据时代背景下,如何对纷繁复杂的数据进行有效分析,让其价值得以体现和合理的利用,是当前迫切需要思考和解决的问题。深度学习方法正是开启这扇大门的一把钥匙[1]。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(Convolutionalneuralnetworks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(DeepBeliefNets,简称DBNs)就是一种无监督学习下的机器学习模型[2]。国内外发展概况深度学习起源于对神经网络的研究,20世纪60年代,受神经科学对人脑结构研究的启发,为了让机器也具有类似人一样的智能,人工神经网络被提出用于模拟人脑处理数据的流程。最著名的学习算法称为感知机。当时人们对人工神经网络的发展持乐观态度,曾掀起研究的热潮,认为人工智能时代不久即将到来。但随后人们发现,两层结构的感知机模型不包含隐层单元,输入是人工预先选择好的特征,输出是预测的分类结果,因此只能用于学习固定特征的线性函数,而无法处理非线性分类问题。Minsky等指出了感知机的这一局限,由于当时其他人工智能研究学派的抵触等原因,使得对神经网络的研究遭受到巨大的打击,陷入低谷。直到20世纪80年代中期,反向传播算法(backpropogation,BP)的提出,提供了一条如何学习含有多隐层结构的神经网络模型的途径,让神经网络研究得以复苏。由于增加了隐层单元,多层神经网络比感知机具有更灵活且更丰富的表达力,可以用于建立更复杂的数学模型,但同时也增加了模型学习的难度,特别是当包含的隐层数量增加的时候,使用BP算法训练网络模型时,常常会陷入局部最小值,而在计算每层节点梯度时,在网络低层方向会出现梯度衰竭的现象。因此,训练含有许多隐层的深度神经网络一直存在困难,导致神经网络模型的深度受到限制,制约了其性能。20世纪90年代开始,机器学习领域中兴起了对核机器和基于概率方法的图模型的研究。核机器具有一套完善的数学理论基础,且模型易于训练,并能获得令人满意的实际使用效果,因此机器学习研究人员大多转向对其的研究,而对神经网络的研究再次搁浅[1]。2006年,加拿大多伦多大学教授,机器学习领域的泰斗Hinton和他的学生Salajhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要的讯息:1)很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻划,从而有利于可视化或分类;2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wisepre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目[3],参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构.一个最著名的例子就是Hubel-Wiesell模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖[4]。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已经显现巨大能量.2011年以来,微软研究院和谷歌的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域10多年来最大的突破性进展.2012年6月,《纽约时报》披露了谷歌的GoogleBrain项目,吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授AndrewNg和在大规模计算机系统方面的世界顶尖专家Dean共同主导,用16000个CPUCore的并行计算平台训练一种称为“深度神经网络”(deepneuralnetworks,DNN)的机器学习模型,在语音识别和图像识别等领域获得了巨大的成功。2012年11月,微软在中国天津的一次活动上,公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。据报道,后面支撑的关键技术也是DNN,或者深度学习(Deepliearning,DL)。2012年DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。2013年的1月,在中国最大的互联网搜索引擎公司百度的年会上,创始人兼CEO李彦宏高调宣布要成立百度研究院,其中第一个重点方向的就是深度学习,并为此而成立InstituteofDeepLearning(IDL)。这是百度成立10多年以来第一次成立研究。2013年5月开始使用深度学习系统服务于百度搜索广告系统。这其中最大的挑战在于当前的计算能力还无法接受10^11级别的原始广告特征作为输入。作为解决,在百度的DNN系统里,特征数从10^11数量级被降到了10^3,从而能被DNN正常的学习。2014年7月1日,为打造百度的技术领先地位,加强对未来技术的投资和积累,百度研究院正式组建成立,下设三个实验室,原深度学习研究院(IDL)更名为深度学习实验室[5]。2013年4月,《麻省理工学院技术评论》(MITTechnologyReview)杂志将深度学习列为2013年十大突破性技术(BreakThroughTechnology)之首。深度学习模型深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提高分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:突出强调模型结构的深度,通常有5层、6层,甚至10多个隐层;明确特征学习的重要性,通过逐层特征变换,将样本集从原始入空间变换到一个新的特征空间,使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。深度学习是无监督学习的一种。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。相同之处,deeplearning采用了与神经网络类似的分层结构,系统由包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个logisticregression模型;这种分层结构比较接近于人类大脑的结构[6]。为了克服神经网络训练中的问题,DL采用了与神经网络很不同的训练机制。传统神经网络采用backpropagation迭代算法来训练整个网络;随机设定初值,计算当前网络的输出,然后根据当前输出和label之间的差去改变前面各层的参数,直到收敛。整体是一个梯度下降算法。DeepLearning整体上是一个layer-wise(逐层)训练机制。这样做的原因是,如果采用backpropagation机制,对于一个deepnetwork(7层以上),残差传播到最前面层已经变得太小,出现所谓的gradientdiffusion(梯度扩散)。Deeplearning训练过程:采用自下上升非监督学习(就是从底层开始,一层一层的往顶层训练):采用无标定数据(有标定数据也可)分层训练各层参数。这一步可看作是一个无监督训练过程,是和传统神经网络区别最大的部分(这一过程可看作featurelearning过程):先用无标定数据训练第一层,训练时先学习第一层参数(这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层)。由于模型capacity的限制以及稀疏性约束,使得得到的模型能够学习到数据本身的结构,从而得到比输入更具有表示能力的特征;在学习得到第n-1层后,将n-1层的输出作为第n层的输入,训练第n层,由此分别得到各层的参数;自顶向下的监督学习(就是通过带标签的数据去训练,误差自顶向下传输,对网络进行微调)。深度学习面临的问题随着数据规模的不断增大,需要采用更为复杂的深度模型去捕获其中更丰富的信息和包含的模式,因而对计算能力提出了更高的要求。已有的学习算法如随机梯度下降,其自身是序列化的,如何通过异步更新模式更有效地改进为并行计算模式,并充分利用GPU的并行处理能力等问题是提高模型训练效率的关键。此外,在训练深度结构模型时,需要选择大量的超参数,如模型的深度、每层包含的隐单元数、学习率等,往往某个超参数不适合就会造成模型性能的大幅下降,但对于如何选择这些超参数,仍没有一个好的指导方法,这进一步增加了训练深度模型的难度。另一方面,当前取得的突出进展都是基于经验性的,还没有很好的理论支撑,需要进一步的研究和探索,完善理论,使之更好地指导实践[1]。探索新的特征提取模型是值得深入研究的内容。此外有效的可并行训练算法也是值得研究的一个方向。当前基于最小批处理的随机梯度优化算法很难在多计算机中进行并行训练。通常办法是利用图形处理单元加速学习过程。然而单个机器GPU对大规模数据识别或相似任务数据集并不适用。在深度学习应用拓展方面,如何合理充分利用深度学习在增强传统学习算法的性能仍是目前各领域的研究重点[6]。结束语在讲座