基于深度学习的文本挖掘研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于深度学习的文本挖掘研究崔嘉乐1,姜明洋2,裴志利2,卢奕南3(1.内蒙古民族大学数学学院,内蒙古通辽028043;2.内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043;3.吉林大学计算机科学与技术学院,吉林长春130012)〔摘要〕随着互联网的快速发展,网络上的文本信息急速增长,如何从庞大的信息库中提取有用的信息就依赖于文本挖掘技术.由于文本挖掘是深度学习中重要的一部分,论文对基于深度学习的文本挖掘研究进行了综述.首先介绍了文本挖掘的过程及应用领域,由此说明了文本挖掘的重要性;其次通过浅层神经网络算法的局限性,说明提出基于深度学习文本挖掘的必要性;然后提出了融合深度学习特征的文本挖掘技术,主要对浅层学习特征、深层学习特征展开介绍;最后总结了深度学习的最新研究进展及对它在文本挖掘的应用进行了综述.〔关键词〕深度学习;文本挖掘;特征融合〔中图分类号〕TP393〔文献标识码〕A〔文章编号〕1671-0185(2016)05-0403-05TextMiningBasedonIn-DepthLearningCUIJia-le1,JIANGMing-yang2,PEIZhi-li2,LUYi-nan3(1.CollegeofMathematics,InnerMongoliaUniversityforNationalities,Tongliao028043,China;2.CollegeofComputerScienceandTechnology,InnerMongoliaUniversityforNationalities,Tongliao028043,China;3.CollegeofComputerScienceandTechnology,JilinUniversity,Changchun130012,China)Abstract:WiththerapiddevelopmentoftheInternetandincreasingofonlinetextinformation,textminingtechnolo-gyisbecomingindispensabletoextractingusefulinformationfromlargedatabases.Theimportanceandtheresearchoftextminingbasedonin-depthlearningarereviewedinthispaper.Theprocessandapplicationfieldoftextminingarefirstintroducedandthelimitationsofneuralnetworksareanalyzedtostressthenecessityoftextmining.Finallythecharacteristicsofshallowlearninganddeeplearningareillustratedandthelatestresearchachievementsofin-depthlearninganditsapplicationintextminingarereviewed.Keywords:In-Depthlearning;Textmining;Featurefusion1引言由于互联网的迅速发展以及信息技术的逐渐完善,导致了“信息极大增长而知识却相对缺乏”等问题,文本挖掘在有效的处理、组织文本方面具有很好的效果.文本挖掘的内容主要包括文本信息的抽取、自动文摘、文本聚类、文本分类,其中文本聚类和文本分类是文本挖掘的核心问题〔1〕.大量的研究证明,如果想对高维特征向量空间中具有高阶抽象概念的复杂函数进行表示且使其简单化,并能够解决文本挖掘中语音感知和语言理解等人工智能相关的问题,这就需要引入深度学习.深度学习的概念主要来源于对人工神经网络的研究,或者可以将其理解为人工神经网络的延伸,人工神经网络(ANNs)是通过模拟人脑或生物神经网络对数据信息进行特征提取、建模,进行分布式并行信基金项目:国家自然科学基金资助项目(61163034,613730067);内蒙古自治区2013年度“草原英才工程”项目;自治区“高等学校青年科技领军人才”项目(NJYF-14-A09);内蒙古自然科学基金(2013MS0911);吉林省科技发展项目(20140101195JC);内蒙古自治区高等学校科学技术研究项目(MZY16177)作者简介:崔嘉乐,内蒙古民族大学数学学院硕士研究生.裴志利为通讯作者.第31卷第5期内蒙古民族大学学报(自然科学版)Vol.31No.52016年9月JournalofInnerMongoliaUniversityforNationalitiesSep.2016DOI:10.14045/j.cnki.15-1220.2016.05.011息处理的算法数学模型〔2〕.而深度神经网络作为人工神经网络的延伸,在计算智能中占有重要地位,为解决文本挖掘中的复杂问题和智能控制提供了新思路.20世纪80年代,美国学者、机器学习领域的领军人物Hinton等人提出了反向传播算法(BP算法)〔3〕,并将其运用到人工神经网络中,这为文本挖掘的研究注入了新的血液,但是研究人员发现随着神经网络层数的增加,BP算法很容易出现陷入局部最优和出现过拟合现象等问题.进入20世纪90年代以后,各种浅层网络模型不断出现,例如朴素贝叶斯、K最近邻(KNN)算法、支持向量机(SVM)〔4〕、浅层神经网络等,各种模型无论是在理论分析还是在应用领域都很成功.然而这个时期由于对含有多个隐含层的深度神经网络的理论分析还不够成熟,因此研究深度神经网络的人才相对较少.这一现象最终于2006年打破,Toronto大学教授、机器学习领域的领军人物Hinton和他的研究生Salakhutdinov在《Science》上发表的一篇文章中提出了深度网络和深度学习概念〔5〕,从而带来了人工智能领域的新进展并引起了工业界广泛关注.本文主要从深度学习的层面对文本挖掘技术的研究进行了综述,针对现有的研究现状进行了介绍说明,希望对以后的研究有所帮助.本文第2节介绍了文本挖掘的过程及应用;第3节通过分析浅层神经网络一些算法的局限性,说明基于深度学习文本挖掘的重要性;第4节概括了融合深度学习特征的文本挖掘技术,最后对深度学习在文本挖掘的应用进行了概述与展望.2文本挖掘的过程及应用2.1文本挖掘的过程〔6〕文本挖掘是机器学习中尤为重要的一部分,它是指以数理统计学和计算机语言学为理论基础,利用信息检索技术从大量文本数据中提取未知的,隐含的,可能有用的信息的过程,它的基本思想是将文本数据转化为能描述文本内容的结构化数据,然后利用聚类、分类技术和关联分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念和获取相应的关系.文本挖掘也被称为文本知识发现,而一些人只是把文本挖掘视为文本知识的一个基本步骤.文本挖掘的过程主要分为以下几步,如图1所示:图1文本挖掘流程图Figure1Theflowchartoftestmining具体内容如下:(1)特征集的建立.首先文本特征指的是关于文本的元数据,通俗点讲就是能够体现文本特点的词与词组,它主要分为描述性与词义性两种.而文本挖掘的主要研究对象是海量、异构、散布的文档(web),内容大多还是自然语言并非机器语言,缺乏计算机可理解的语义,这就需要我们对文本进行预处理,通常包括文档切分、文本分词、去停用词、特征的选择与提取等操作.传统数据挖掘所处理的数据是结构化的,而文本结构都是半结构或者无结构,即使具有一些结构,也只是着重于格式,而不着重于内容.(2)特征集的缩减.当我们将文本转化为计算机可以识别的语言,一种类似于关系数据库中记录的文本内容特征的表示(文本特征向量)后,此时我们会发现文本向量的维数太大,不利于我们更有效的提取信息,这时特征集的缩减就显得尤其重要,因此成为文本挖掘中不可或缺的一部分.(3)学习和知识模式的提取.当我们完成文本特征集缩减时,便可利用构造评估函数、基于粗糙集加权方法、词频方法等机器学习中一些算法进行分类或聚类操作,形成一定的知识模式.内蒙古民族大学学报2016年404(4)模式质量评价.知识模式形成后,对其进行质量评价,如果评价结果达到一定的水平,满足要求,则保存该知识模式,否则返回之前的某个环节对其进行分析修改后进一步挖掘.2.2文本挖掘的应用领域〔7〕文本挖掘作为数据挖掘的新领域,目的就是把文本信息转化为人们利用的知识,因此文本挖掘是抽取有用的、有效的、可理解的、散布在文本中的有价值的知识,并利用这些知识更好地组织信息的过程,它的应用领域很广泛,例如信息服务的网站、金融业中的商业信息提取、企业业务部门的决策需求、企业商家数据分析等.文本挖掘作为信息挖掘的一个研究分支,可以利用人工智能相关算法并结合计算机中的文字处理技术,对海量的非结构化文本源进行处理,从而提取关键字、分析文字间的关系,并对文档(Web)进行分类,获取有用的信息.现如今,随着互联网时代的更新换代,从企业的角度看,任何一个企业都不能只关注于本身,还需要关注来自市场的规则压力、竞争对手、合作伙伴等外部环境,而信息网络技术是获取这些信息的最好方法.随着网络的迅猛发展,浅层的神经网络算法已经不很很好的解决多层结构下的信息处理,大规模的模型也只是考虑采用文档的少量特征作为输入,没有考虑到足够的信息量,使得文本挖掘技术停滞,这就需要深度学习(深度神经网络)方法的引入,利用其很好的学习能力,解决文本挖掘技术中出现的问题.3深度学习的概述3.1深度学习的由来3.3.1人脑视觉机理启示.虽然我们每天都面对着海量的感知数据,但我们的大脑却很容易地从中捕获到重要的信息.因此,神经学家研究人员对人脑的工作方式进行了分析发现:感官信号通过视网膜传到前额大脑皮质再到运动神经,其中大脑皮质并没有对数据信号进行特征提取处理,而是将接收到的信号通过一个复杂的层状网络模型,进而获得观测数据.换句话说,人脑并不是直接通过视网膜辨别事物,而是根据经聚集和解析过程处理后的信息识别物体.因此视皮层是对感知信号进行特征提取,而人工智能恰恰利用了这一点,通过模仿大脑机能高效准确地表示信息.深度学习相较于浅层结构更能提高学习的准确性正是模拟、利用人脑这种多层次的分析方式,并保留较为完整的数据结构信息.3.1.2现有机器学习的局限性.深度学习(深度神经网络)是对浅层神经网络的延伸,现在神经网络的学习算法大部分都是浅结构神经网络,一个可视层、一个隐层、一个输出层的神经网络是最简单的结构,当我们相应的增加输入层或者隐层时,它们就会出现一定的局限性,出现过拟合现象以及表示复杂函数的泛化能力受到制约,有时还会出现维数灾难、局部最优等问题.而深度学习是一种深层非线性网络结构,它较浅层学习相比具有良好的特征学习能力,能够较好的表征复杂目标函数,而且大大降低了网络结构的计算复杂度.虽然现在人们普遍研究使用浅层学习算法,但它只对简单的计算有效,并不能和人脑达到一样完美的效果,这就需要引入深度的机器学习.深度机器学习是一种深层神经网络结构,数据表示有局部、分布、稀疏分布三种表示形式.它们不仅可以很好的描述概念间的相似性,而且还可以在有限的数据下体现出更好的泛化能力.在机器学习和神经网络的研究过程中深度学习可以很好地处理维数灾难和局部泛化限制〔8〕.人类认知活动的重要环节是对接收到的信号进行理解和处理,由于这些信息的结构都很复杂,因此构造深度的机器学习去实现一些人类的认知活动是很有必要的.3.2特征提取的需要机器学习,顾名思义就是通过机器从外界输入的大量数据中学习,利用学习到的特征对未知的文本内容进行识别判断的过程.机器学习在解决图像识别、语音识别、自然语言理解等问题都需要通过算法,然而文本挖掘技术在预处理、特征提取、特征选择,再到推理、预测和识别都需要大量的时间,而且良好的特征表达影响着最终算法的准确性,这一环节恰恰还是机器最主要的计算和测试工作.然而这一环节大部分都是靠人力完成的,

1 / 5
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功