基于自动编码器的短文本特征提取及聚类研究_刘勘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

282北京大学学报(自然科学版)第51卷第2期2015年3月ActaScientiarumNaturaliumUniversitatisPekinensis,Vol.51,No.2(Mar.2015)doi:10.13209/j.0479-8023.2015.040基于自动编码器的短文本特征提取及聚类研究刘勘†袁蕴英中南财经政法大学信息与安全工程学院,武汉430074;†E-mail:liukan@znufe.edu.cn摘要针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性。实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题。关键词深度学习;自动编码器;特征提取;聚类中图分类号TP391ShortTextsFeatureExtractionandClusteringBasedonAuto-EncoderLIUKan†,YUANYunyingSchoolofInformationandSafetyEngineering,ZhongnanUniversityofEconomicsandLaw,Wuhan430074;†E-mail:liukan@znufe.edu.cnAbstractAccordingtothecharacteristicsofshorttexts,theauthorsproposeafeatureextractionandclusteringalgorithmnameddeepdenoisesparseauto-encoder.Thealgorithmtakestheadvantageofdeeplearning,transformingthosehigh-dimensional,sparsevectorsintonew,low-dimensional,essentialones.Firstly,L1paradigmisintroducedtoavoidoverfitting,andthenoiseisaddedtoimprovetherobustness.Experimentalresultshowsthatapplyingextractedtextfeaturescansignificantlyimprovetheeffectivenessofclustering.Itisavalidmethodtosolvethehigh-dimensional,sparseproblemintheshorttextvector.Keywordsdeeplearning;auto-encoder;featureextraction;clustering互联网已经成为人们日常生活不可或缺的一部分,越来越多的人习惯于通过微博、新闻网站、论坛等浏览热门话题、了解社会动态、参与热点讨论、发布自己的观点[1]。由于网络的高速与便捷,大部分网络信息都是以短文本的形式存在,这些短文本能让读者快速了解主题内容,准确理解作者观点,又不占用过多的阅读时间。因此,以微博为代表的短文本成为网络信息交流的主要载体。由于人们本身思维的发散性以及发布方式的随意性,短文本的结构极其不统一。单条短文本提供的信息十分有限,在处理大量短文本时,存在高度稀疏的问题。如何将海量、不规则、稀疏的短文本有效地组织和分析,成为一个具有挑战性的研究热点。本文针对短文本特征提取及聚类问题,利用深度学习[2]的思想,采用自动编码器处理技术,提取短文本中的隐含特征,从而得到更准确的短文本聚类结果。1相关研究自动编码器是深度学习中一种重要的训练模型,在自然语言处理中取得较好的效果[3–5],也越来越受到研究人员的重视。Glorot等[6]在自动编码器算法的基础上添加纠正激活函数,实验结果表明,此方法比传统的sigmoid或tangent激活函数更能提高文本分类的效果。Glorot等[7]使用该自动编码器方法,提取出评论的高层抽象特征,解决了跨领域的文本分类问题。Lu等[8]利用深度自动编码器国家社会科学基金(14BXW033)和教育部人文社会科学基金(11YJAZH060)资助收稿日期:2014077;修回日期:20140;网络出版日期:2014刘勘等基于自动编码器的短文本特征提取及聚类研究283图1算法的基本流程Fig.1Frameworkforbasicidea算法,为基于词汇的翻译模型提取到有效的特征集,并在中英文翻译过程中取得很好的效果。Salahu-tdinov等[9]在自动编码器的基础上扩展了LSA模型,成功地发现隐藏在查询和文档中的层次语义结构。张开旭等[10]将自动编码器算法运用到中文词性标注过程中。由此可见,依靠深度学习强大的无监督学习特征的能力,自动编码器能较好地提取文本中的隐含特征,并利用这些特征解决文本的分析与挖掘问题。针对短文本的聚类问题,本文也首先利用自动编码器来完成文本的特征提取。由于短文本的词频过低,建立的空间向量往往是高维且稀疏的,为相似度计算带来较大的困难,使文本分析的效果较差。目前的解决方法主要集中在扩充信息方面。Fan等[11]借助搜索引擎扩充文本的信息。Banerjee等[12]利用维基百科的词条信息丰富文本信息。邱云飞等[13]根据文本中包含的3种特殊符号对短文本进行特征扩展。Jin等[14]借助与聚类短文本内容相似的长文本内容,实现短文本的高效聚类。Tang等[15]通过机器翻译,从其他语言中抽取特征来扩充短文本的特征值。虽然单条短文本的信息较少,仅反映某个小方面的内容,但大量相同主题的短文本聚集在一起,就能体现该类短文本所具有的共性,因此可以作为利用关键特征来降低向量维度的另一种思路。杨婉霞等[16]基于该思想提出一种语义和统计特征相结合的短文本聚类算法,其核心是引入语义词典,将相似度较高的词汇进行合并处理,提高了短文本的聚类效率,但这种方法对语义词典的依赖性较大,词典的内容在很大程度上决定了聚类的效果。本文将延续同类短文本自身包含潜在共性的思路,来解决短文本向量高维、稀疏的问题。与杨婉霞等[16]的词合并方法不同,本文利用的自动编码器算法可以模仿人脑机制,通过非线性组合高维底层特征学习得到低维抽象特征的特性。结合短文本向量的特点,通过添加L1范式以避免算法的过度拟合,通过对输入数据进行加噪处理以提高模型的鲁棒性,从而完成从大规模无标注短文本中提取低维有效特征的任务。这样得到的结果受外部因素的影响较小,能够提高聚类的准确度,还能保证计算的高效性。2算法流程2.1基本思路基于噪音稀疏的自动编码(denoisesparseauto-Encoder,DSAE)文本聚类算法的基本思想是利用深度学习的自动编码过程,将短文本的高维稀疏向量转化为低维向量,并且学习过程使低维向量包含文本信息的本质特征,去除高维中不必要的干扰部分,由此得到的结果用于聚类分析,能够提高昀终的聚类效果。算法分为5个过程。首先对短文本进行预处理,构建向量空间模型,每条短文本都会转化成空间中的一个向量;然后将这些高维稀疏向量输入到构造好的深层噪音稀疏自动编码器中学习,经过逐层抽象,提取得到低维抽象的特征向量,这一部分还包括正则化过程和加噪过程。昀后利用聚类算法得到短文本聚簇结果。算法流程如图1所示。短文本的预处理包括清洗、分词等,得到构成这些短文本的词袋。词袋中的每个词都可以表示为短文本特征向量中的一个度量。如果短文本中出现该词,就记为1,否则记为0。由此,每条短文本都可以表示为空间中的一个向量x,表现方式如下:123(,,,...,...,),imtttttx(1)m代表词袋中词的总数;ti代表该短文本是否包含第i个词,如果包含该词,则ti=1,否则ti=0。2.2基本自动编码器基本的自动编码器接受一个输入向量x后,首先对其进行线性变化,在激活函数的作用下得到一个编码结果y。选取sigmoid函数作为激活函数,北京大学学报(自然科学版)第51卷第2期2015年3月284图2基本的自动编码器结构Fig.2Structureforauto-encoder计算方法如式(2)所示。该编码结果y在解码器的作用下,得到重构的向量z,计算公式见式(3)。()(),fsyxWxb(2)()()gsyWybz。(3)编码参数是θ={W,b},解码参数是θ′={W′,b′}。其中W是一个d′×d的权重矩阵,W′是W的转置,即W′=WT,b和b′是偏倚向量。自动编码器的学习过程是无监督的,优化的目标是使重构后的向量z尽量还原输入向量x,即昀小化重构带来的损失,得到昀优参数和′,见式(4)。本文使用的损失函数为Kullback-Leibler散度,见式(5)。*,,,argmin(,)argmin(,(())),LLgfxxxz(4)(,)(||)LKLxxzz。(5)自动编码器采用经典随机梯度下降算法进行训练,在每个迭代过程中,用式(6)更新权重矩阵:(,),Llx(6)其中l为学习率,b和b′采用相同的方式更新。自动编码器的结构如图2所示,编码和解码的过程完成了文本信息的特征提取,学习过程和误差控制保证了输出结果能够反映输入文本的主要特征。2.3L1范式正则化自动编码器强大的非线性表达能力使得它会经常出现对输入数据的过度拟合,即对个别对象特有的特征也进行充分描述。短文本的结构差异较大,特有的特征较多,如果直接运用自动编码器算法,将导致昀终抽取的特征向量不能反映短文本的公有分布性特点,训练出来的模型泛化能力比较差,无法推广运用到其他短文本中。因此,本文对自动编码器的学习能力进行约束。L1范式正则化是一种常用的变量选择方法,广泛运用于模型的改进。本文采用这种思想,利用绝对值函数作为惩罚项来压缩自动编码器的系数,使绝对值较小的系数自动压缩为0,从而保证算法中各项参数的稀疏性,避免过分学习短文本中的非显著特性。具体地,是将式(5)调整为式(7)和(8)来计算。(,)(||)Lasso(),LKLxxzz(7)||0Lasso()||jj。(8)λ是L1范式的参数,其值越大,惩罚力度越大,训练得到的结果会越稀疏,其取值需要根据实际数据进行多次调试,帮助模型达到拟合能力和泛化能力的均衡。2.4加噪处理根据Bengio等[17]的研究可知,自动编码器在输出层维度大于或等于输入层维度时,可以得到比较好的特征提取效果。但由于短文本构成的输入向量十分稀疏,在输出层维度较高的情况下,自动编码器算法中的编码器极有可能不会进行任何非线性的变换学习,而直接复制稀疏的输入向量,将其输出到解码器中,无法达到提取短文本中抽象特征的目的。此外,网络短文本的输入随意性很高,大量的网民会在发布的文字中添加一些个性化的符号和语言,或者由于输入太匆忙,多输、漏输甚至错输一些文字,给基于短文本的特征提取提出更高的要求,训练出来的模型必须具有较强的鲁棒性。针对这些问题,本文采取的方法是先在短文本向量中添加一定噪音,再将其输入到编码器中进行训练。与Vincent等[18]直接选取一定比例的数据强制变为0的方法不同,本文一方面选取部分数据强制变为0,另一方面也随机挑选一定比例的数据,强制变为1。前者是考虑到高维的输入向量中可能存在一些数据缺失,训练出来的自动编码器应该能够还原这些缺失的特征;后者是考虑到网络短文本输入的不规范性,保证模型避免受到个性化或者无关输入的影响。加入噪音后,输入向量x变成x,随机梯度下降算法优化的计算方法如下:*,,,argmin(,)argmin(,(()))LLgfxxxz。(9)将多个噪音稀疏自动编码器叠加起来就形成深度学习网络。在训练的过程中,K层网络的输入是K–1层网络中编

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功