基于主题的关键词提取方法对比研究–1–3.4.2LDA模型的优缺点(1)优点①和PLSA类似,定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释;②此外优化目标是是KL距离最小,而不是依赖于最小均方误差等准则;文档数和单词个数增加时,所求的变量数不变。(2)缺点采用了Dirichlet分布、变分推理或者吉布斯抽样的方式来进行求解,求解过程中需要反复的迭代,从而需要很大计算量;基于主题的关键词提取方法对比研究–2–4模型应用及实验分析4.1实验背景介绍对关键词提取进行分析时,通常需要对大规模数据进行分析,过程中包括大量的数学运算以及矩阵分析。前面我们介绍了基于主题的一些算法,不过只是从理论上对算法进行了简单的给出定义而已。接下来我们通过关键词抽取实验来更好地阐述基于主题的关键词提取算法。本文主要在MATLAB平台下进行了实验:(1)开发工具:Matlab7.0(2)开发语言:Matlab语言(3)操作系统:WindowsXPMatlab是集数值计算和可视化与一体的高性能、高精度开发平台。因其在符号运算、图形处理、模拟仿真等方面的出色表现,近年来Matlab已经得到了业界的普遍认可,被广泛的应用于科学计算、控制系统、信息处理等领域的分析、仿真和设计工作上。另外,Matlab系列产品具有开放式的结构,可以非常容易的对Matlab进行功能扩充,不断的进行完善。目前,利用整个Matlab产品系列,可以完成如下的功能:(1)数据分析;(2)数值和符号计算;(3)工程与科学绘图;(4)控制系统的设计与仿真;(5)数字图像处理;(6)建模、原型开发;(7)数字信号处理;(8)通信系统设计与仿真;Matlab有属于自己专有的程序设计语言,与其他计算机语言(如C,java等)进行比较,其最大的特点是简单和直接。它具有编程效率高、使用方便、扩充性等特点。除此之外,Matlab提供了十分丰富的函数库,在进行复杂数学运算时可以在Matlab语言中直接调用,这大大降低了程序开发的难度。按照其功能,Matlab的主要组成部分包括:开发环境,数学函数库,文件输入/输出,图形处理,图形用户界面,外部接口等。Matlab的系统主界面如图4.1所示:基于主题的关键词提取方法对比研究–3–图4.1Matlab主界面4.2实验数据集及评价标准前面我们介绍了基于主题的一些算法,不过只是从理论上对算法进行了简单的给出定义而已。接下来我们通过关键词抽取实验来更好地阐述基于主题的关键词提取算法。本文中运用两个的实验数据,第一个实验数据来自这样一个经典案例:HumanComputerInterface(HCI)与graphtheory,第二个实验数据集是从网络上下载得到的20篇文档。目前对关键词提取算法的评估方法是将算法提取出来的关键词与标准的人为提取出来的关键词作词法上的匹配。著名的Precision(精确度,又称查准度)和Recall(召回率,又称查全率)被用来对我们的关键词提取算法进行评价。召回率(Recall)=系统检索到的关键词数/所有的关键词数(4.1)准确率(Precision)=系统检索到的关键词数/系统检索到的所有词数(4.2)假设A:检索到的相关的关键词数;B:检索到的不想关的词C:未检索到的相关的关键词数;那么召回率=A/A+C;准确率=A/A+B;注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高。传统的提取关键词的方法中有一个很重要的方法:TF-IDF(termfrequency–inversedocumentfrequency),它是一种用于资讯检索与文本挖掘的常用的加权技术。TF-IDF基于主题的关键词提取方法对比研究–4–是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。本实验中将三种基于主题的算法与传统的TF-IDF的准确率和精确率进行对比分析,最终来判断实验算法的优劣。