中文短文本自动分类(lda)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

中文短文本自动分类技术研究StudyonChineseShort-TextClassification(申请清华大学工程硕士专业学位论文)培养单位:计算机科学与技术系工程领域:计算机技术申请人:樊迪指导教师:孙茂松教授二○○九年十一月中文短文本自动分类技术研究樊迪关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容。本人保证遵守上述规定。作者签名:导师签名:日期:日期:摘要I摘要文本分类技术作为信息处理的一门重要学科受到了人们的高度重视,特别是随着互联网的高速发展,快速准确地对文本进行分类是信息处理的一个重要环节。目前,对于文本分类处理大多是针对长文本进行的,即所处理的文本信息片段长度较长,包含了一定量的信息内容。然而在实际情况中,包含信息量较少的短文本同样大量存在于海量信息中,这些短文本信息由于自身内容的长度相较于长文本而言比较短,因此就会产生包含信息量少、存在语义歧义等特点。如何对这类信息进行处理目前尚未有切实可行的方法,特别是在中文领域,涉及到的相关技术就更为不足了。本文分析了中文短文本分类过程中各主要因素对分类造成的影响,继而提出了两种根据短文本特点对特征进行补充的方法。论文主要工作如下:1、分析了特征维数的不同、特征单元选取的不同(两种分词方式以及字的Bigram分别作为特征)等情况对中文短文本分类的影响。2、提出了一种利用标题与正文信息进行“联想”的方法,以此来弥补短文本信息量匮乏,并对实验结果进行了分析。3、提出了一种利用LDA补充特征信息进行中文短文本分类的方法,在分类效果上取得了一定的提高。关键词:中文短文本分类SVMLDAAbstractIIAbstractTextClassificationisanimportanttaskinnaturallanguageprocessingwhichhasdrawnalargebodyofresearchers.Mostexisitingmethodsoftextclassificationaredesginedforlongdocuments.Howtoeffectivelyclassifyshortdocumentswhichmaycontainnotenoughinformationforclassificationbecomesatechnicalchallengeproblem.Inthispaper,wefocusonshorttextclassificationproblem.Wefirstinvestigateonseveralfactorsthatmayinfluencetheperformanceofshorttextclassification.Thenweproposetwomethodstoenrichthepotentialinformationofshorttextstoenhancetheclassificationperformance.Themainworkofthispaperisasfollows:1.Weanalyzetheeffectofsomefactorssuchasdimensionalityandfeatureunit(characterBigramorword)onshorttextclassification.2.Weproposeamethodthattriestoenrichthemissinginformationinshorttextbyusingco-occurrenceofwordsincontextswithwordscorrespondingtitles.3.WeproposeamethodthatusesLDAtoenrichfeaturesforshorttextclassification.Experimentalresultsshowthatitcanimprovetheperformanceofshorttextclassification.Keywords:Chineseshort-textclassificationSVMLDA目录III目录第1章引言...............................................................................................................11.1短文本涵盖范围简介.....................................................................................11.2短文本研究的传统领域.................................................................................31.2.1短文本相似度计算...................................................................................31.2.2短文本聚类...............................................................................................51.2.3短文本分类...............................................................................................61.3短文本研究的新领域.....................................................................................81.3.1垃圾信息过滤...........................................................................................81.3.2奇异短语识别...........................................................................................81.3.3趋势检测研究...........................................................................................91.4论文主要内容...............................................................................................10第2章中文短文本特征单元分析.........................................................................112.1数据集说明...................................................................................................112.2短文本分类实验结果...................................................................................132.2.1不同数据集分类效果比对.....................................................................132.2.2特征维数对短文本分类的影响.............................................................142.2.3字的Bigram停用词信息及标点等符号对短文本分类的影响...........162.2.4分词对短文本分类的影响.....................................................................172.2.5专业领域词汇抽取.................................................................................20第3章基于联想的中文短文本信息补充.............................................................263.1设计思想.......................................................................................................263.2实验及分析...................................................................................................273.2.1标题和正文高频共现字的Uni-gram的提取........................................273.2.2标题和正文高频共现字的Bigram的提取...........................................313.2.4标题和正文共现字的Bigram互信息的提取.......................................35第4章基于LDA的短文本特征信息补充...........................................................384.1背景介绍.......................................................................................................38目录IV4.2实验流程及分析...........................................................................................40第5章总结与展望.................................................................................................44参考文献.....................................................................................................................46致谢.........................................................................................................................50声明.........................................................................................................................50附录A

1 / 68
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功