基于主题的关键词提取方法对比研究-I-摘要关键词提供了文档的概要信息,在信息检索、文本聚类和分类系统中受到了越来越多的应用,关键词的提取算法也受到了越来越多的重视。传统的方法主要依靠词汇的统计信息进行关键词提取,本文在回顾关键词提取的算方法的基础上,从文档主题的角度,综述了基于主题的关键词提取的三种算法--潜在语义分析(LSA)、概率潜在语义分析(PLSA)、隐含狄利克雷分布(LDA)。LSA方法将文档从稀疏的高维词汇空间映射到一个低维的向量空间,主要通过奇异值分解SVD的方式来求解。PLSA方法它用概率的方法来表示LSA,在文档和词汇之间引入一个潜在语义层(即主题层)。LDA的基本思想是:利用概率推导等方式可以将单个文档表示为这些潜在主题的集合,对于主题而言,它又可以看成是若干词汇的概率分布。为了验证这三种方法的性能的优越与否,将理论与实践结合,本文通过实验将三种基于主题的关键词提取算法与TF-IDF方法进行对比,对实验结果进行总结归纳;实验证明,这三种方法无论是从召回率上还是从准确率上都优于TF-IDF方法,能够有效推荐关键词。关键词:关键词提取;LSA;PLSA;LDA基于主题的关键词提取方法对比研究-II-ResearchonAlgorithmsofTopicBasedKeywordExtractionAbstractKeywordsprovidesemanticmetadataproducinganoverviewofthecontentofadocument.Theyarewidelyusedininformationretrieval,textclusteringandclassificationsystem.Asaresult,peoplepayalotofattentiontokeywordextractionalgorithm.Traditionalmethodsforkeywordextractionsimplyrankkeywordsaccordingtothestatisticalinformationofwords.Afterreviewingsomemethodsofkeywordextraction,thisarticlesummarizesthreetopicbasedmethodsofkeywordextractionwhichareLatentSemanticAnalysis(LSA),ProbabilityLatentSemanticAnalysis(PLSA),LatentDirichletAllocation(LDA).LSAmapsthedocumentfromsparsehighdimensionspacetoalowdimensionalvectorspace,mainlythroughthesingularvaluedecomposition(SVD).PLSAbringsinalatentsemanticlayerwhichiscalledthemelayerbetweendocumentsandwords.ItexplainsLSAinaprobabilisticway.ThebasicideaofLDAis:documentcanberegardedasthecombinationofseveralpotentialthemes.Asingledocumentcanbedescribedasthecollectionoftheunderlyingthemeinaprobabilisticway.Toprovewhetherthetopicbasedkeywordextractionalgorithmsareefficient,thisarticlecombinestheorywithpractice.Afterexperiment,itcomparesthesethreealgorithmswiththetraditionalTF-IDFalgorithm.Itprovesthatboththerecallandtheprecisiongetimproved.Thethreetopicbasedkeywordextractionalgorithmdosewellinkeywordextraction.KeyWords:keywordextraction;LSA;PLSA;LDA基于主题的关键词提取方法对比研究-III-基于主题的关键词提取方法对比研究–1–1绪论1.1研究的背景和意义1.1.1研究背景随着网络信息量的激增,人们对信息质量的需求不断地提升,促使信息的组织和获取方式发生了极大的变化也面临着极大的挑战。信息量的剧增,信息内容的丰富多样、信息结构的复杂多变,信息传递的速度加快;用户范围宽广,需求多样化,处理信息的方式透明化、易用化等这些成为新型互联网环境下的主要特点[1]。2012年1月16日,中国互联网络信息中心(CNNIC)发布《第29次中国互联网络发展状况统计报告》(下简称报告)。报告显示,截至2011年12月底,中国网民规模突破5亿,达到5.13亿,全年新增网民5580万(见下图1.1)。随着网络表达和传递信息的渠道和形式不断丰富,传播方式更具互动性、自主性、多样性,这也促使网络媒体的发展更加活跃,而各类网络资源使用情况也在不断增长。图1.1中国互联网络信息中心(CNNIC)发布《第29次中国互联网络发展状况统计报告》图网络门户网站层出不穷,网页浏览量也呈几何倍数不断地增加。国内著名的门户网站有“新浪”、“搜狐”等。门户网站的主要特色在于提供及时滚动的分类新闻,以此来满足不同兴趣爱好的资讯浏览者的浏览需求。信息总量的增长速度呈现指数上升,对于浩渺无穷的网页,如果不能有效地组织和分类,很难吸引用户的眼球;而分类组织有序,重点主题突出的门户网站才是用户的首选。信息环境的这一巨变确实为用户提供了海量的信息,但同时却使得用户辨别和选择适合自己的信息带来了很大的困难。因此,在保证及时性的同时,如何按照用户兴趣来分类组织新闻信息并以快速、醒目的方式(如关基于主题的关键词提取方法对比研究–2–键词、标签)表示出来,最大限度地吸引用户眼球,是门户网站需要考虑的重要问题。信息迅速发展的速度与用户获取信息的能力不匹敌,人们面临着众多的信息资源无从下手,很难找到和他们的需求最相关的信息,用户不得不通过浏览大量的网页来查找所需信息。当人们在浏览信息时,一些内容很有价值而标题却不够醒目的信息易于被忽略。此外,仅仅从检索到的模糊的概括,人们很难确定是否是自己所需的资讯。因此,解决这些问题的有效方法就是给出资源内容的关键词。在最为理想的情况下,关键词应该是人为给出的。如今,我们已经进入了Web2.0时代,相对于web1.0,Web2.0则更注重用户的交互作用,用户既是网站内容的浏览者,也是网站内容的制造者。每一个用户不再仅仅是互联网的读者,同时也成为互联网的作者;不再仅仅是在互联网上冲浪,同时也成为波浪制造者,从而更加人性化!许多网站给用户提供了进行标签的功能,使用户能够对他们感兴趣的资源进行标注,包括:图片、视频、文章等,因此社会标签(socialtags)应运而生。广义上来说,社会标签也是关键词的一种。关键词作为对文章内容的简要概括[2],它可以帮助用户通过一种有意义的方式来对信息进行分类。关键词可以帮助提高搜索结果的质量,通过筛选得出特定关键词,可以辅助人们快速了解文章的主要内容,节省浏览的时间。此外,关键词在信息检索、自动摘要、文本聚类和主题搜索领域中也起了很大的作用。然而,当前互联网上的众多新闻网页没有提供关键词,人工编辑关键词不仅耗费时间而且还具有很强的主观性。因此,使用人工智能的方法对网页、文本等进行关键词的自动提取成为一个重要的而又有意义的研究课题。(a)(b)图1.2关键词的示例基于主题的关键词提取方法对比研究–3–如上图1.2所示,图(a)为百度文库某篇文章上的关键字;图(b)为新浪博客中作者为自己的博文添加的标签。百度文库中的关键词有5个,而新浪博客中的标签有9个,这些关键词都很好地体现了文章的主题。1.1.2研究的意义文本的关键词提取是文本挖掘的有效方法之一,其目的都是为了能提高文本信息检索的效率和准确率,既是对文本集知识的获取,也是对文本集的处理。对文本集进关键词提取研究有重要的意义,其研究意义主要有以下几点:(1)关键词提取是文本信息管理的基础以文本作为信息的载体是Internet上信息资源的主要形式,在海量的文本信息中,要快速准确的找到自己所需要的信息是相当困难的。因此,解决这个问题是人们迫切需要的。对于大量的文本信息,构建一个清晰的框架结构和简要的文本内容说明对于文本集的存储和管理是非常必要的。对于文本信息基本处理的学术研究和应用在近些年来非常活跃,如数字图书馆、搜索引擎、电子商务和微博等,虽然文本挖掘技术在这些领域中对取得了相当大的进展,但仍然存在一些问题有待于解决,如处理过程需要人为的帮助,缺少对文本主题内容的描述,处理结果不是十分的令人满意等。所以,对文本进行聚类和关键词提取作为文本挖掘的基础性工作就显得格外重要。(2)关键词提取是对信息检索的有效手段信息检索是指从海量的信息集合中寻找用户需要的相关信息的一种重要手段。为了能使用户在最短的时间内从海量的文本信息中找到真正有用的信息,就需要自动化的工具来提高信息检索的效率。对于大量杂乱无章的文本进行关键词提取,检索范围有所减小,搜索的准确率相应会有所提高。对于搜索引擎返回的结果按照主题进行聚类,推荐给用户比较感兴趣的相关文本,有助于用户更合理的利用文本信息。信息检索主要是通过关键词进行检索,关键词能够反映文本的主要内容。用户根据文本的关键词进行索引查找相关文本信息,可以快速筛选过滤掉大量无关文本,大大降低了文本索引的工作量。对于文本搜索引擎技术,文本的关键词提取始终是基础性的关键技术。(3)关键词提取可以减少文本处理的人为因素和工作量文本关键词是对文本主题的简要概括,有助于用户更快的了解文本信息,有助于文本的自动摘要生成、文本聚类、文本分类、文本索引等文本处理工作。对于一些没有文本关键词的文本信息,无法简单的表达文本的主题,而且在用户使用、信息检索等方面都很不方便。自动生成文本的关键词,降低了手工选择关键词的人为主观因素,同时也减少了人力的工作量,提高了工作效率。基于主题的关键词提取方法对比研究–4–综上所述,关键词给新时代网络用户提供了极大的便捷,是新时代人们进行检索资源、管理资源的重要途径,因此进行关键词算法的研究成为了的研究的重点,本文就是在此背景下,研究基于主题的关键词提取的方法。1.2国内外研究现状随着Internet的发展,人为给出文档的关键词是不现实的,所以,高性能的关键词自动提取算法的研究是十分重要的。迄今为止,关键词自动提取吸引了不少国内外学者的关注和研究,其理论成果主要包括基于统计信息的方法、机器学习方法、基于结构的方法、基于语言分析和基于复杂网络分析方法五大类。其中应用最为广泛的是基于统计信息的关键词提取方法,具备简洁易懂、通用性强等优势。从Luhn于1957年进行自动标引后开始,到目前为止,自动标引研究经历了50多年的发展历程。一直到20世纪90年代初,关于关键词自动抽取的研究一直没有停止过。20世纪90年代初到90年代末,自动标引研究渐渐减少,主要有以下原因:(1)全文索引逐渐被人采用,并且基本上能满足用户需要;(2)传统的自动标引方法的效率到了极限。20世纪90年代末一直到现在,关键词自动抽取的研究逐渐深入,产生该现象的主要原因有:(l)全文索引的功能越来越难以满足实际需求,用户需要更加精确地结果;(2)互联网的很多服务,例如自动摘要、文档分类与聚类、文本分析、主题检索等都要依赖于关键词自动抽取的结果,只有更好的解决关键词抽取基础问题才能从根本上提高信息服务质量。在文本关键词提取方面,国外起步较早,发展较快,取得的成果很多。文献[2]提出了基于遗传算法的