西南交通大学研究生学位论文基于潜在语义索引的中文文本检索研究年级二00五级姓名李媛媛申请学位级别工学硕士专业计算机应用技术指导教师马永强二00八年三月SouthwestJiaotongUniversityMasterDegreeThesisResearchofChinese-textretrievalbasedonLatentSemanticIndexingGrade:2005Candidate:LiYuanyuanAcademicDegreeAppliedfor:MasterDegreeSpecialty:ComputerApplicationTechnologySupervisor:MaYongqiangProfessorMarch2008西南交通大学硕士学位论文第I页摘要互联网上绝大多数的信息是以文本的形式保存的,文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。在目前使用最多的基于关键词的字符匹配检索中,参与匹配的只有词的外在形式,而日常语言中多词同义、一词多义等不确定性因素的存在,使得用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。而潜在语义索引(LSI--LatentSemanticIndexing)模型的出现有效地克服基于关键词检索无法处理多义词和同义词问题,它具有可计算性强、需要人参与少等优点。LSI通过截断的奇异值分解建立潜在语义空间,词汇和文本都被投影在该空间,进而可以提取词汇间深层次的语义关系,从而呈现出自然语言中的语义结构,进一步提高了检索性能。本文围绕着如何利用LSI技术及其特点进一步提高中文文本检索的性能展开讨论。首先对LSI的相关关键技术以及数学基础进行了深度挖掘,对其在中文文本中的应用进行了举例和深入分析。其次对LSI的重要优化过程——权重计算进行了深入分析,提出了一种基于“非线性函数”和“位置因子”的新权重方案,并对其效果进行了对比验证。然后利用LSI能够方便计算出文本和文本相似度的特点,提出了“文本—文本检索”功能,弥补了由于检索语句较短和输入不准确等问题对检索查准率的影响,能够更好的帮助用户进行更加有效的检索。最后,开发了“中文潜在语义索引分析系统”作为实验平台,针对LSI的每个相对独立的环节专门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中作了验证。关键词:信息检索;潜在语义索引;权重计算;文本-文本检索西南交通大学硕士学位论文第II页AbstractMostinformationonInternetisbasedontext.Theexplosivegrowthoftextinformationisagreatchallengetoinformationretrieval,makingitincreasinglydifficulttofindusefulinformationoninternetrapidlyandaccurately.Inthemostusedinformationretrievalbasedonkeywordsmatch,whatmatchistheexplicitrepresentation,butthereexistsuncertaintyinnaturallanguages,suchassynonymandpolysemy.Itisnoteasyforuserstoexpresswhattheyreallywanttoretrievejustwithkeywordsorkeywordchains.LatentSemanticIndexingModeliseasytocalculateandrequireslesshumanintervention.LatentsemanticSpaceisestablishedbytruncatedsingularvaluedecomposition,termsanddocumentsareprojectedontotheLSI-Space.Thenthesemanticrelationshipsamongtermsareabstractedtopresentthesemanticstructureofnaturallanguages,itimprovestheretrieveperformance.ThethesisfocusesonhowtoimprovetheChinesetextinformationretrievalsystemperformancebasedonLSIanditsfeatures.Firstly,ThekeytechnologyandmathematicalbasisofLSIwereanalyzeddeeply.ExamplesweregivenandanalyzedwhichaimedatChinesetextretrieval.Secondly,ThetermweightingwhichisofgreatimportanceinLSIisstudiedindetail,andanewweightingdesignbasedonnon-linearfunctionandlocationfactorwasproposed.Theretrievalperformancehasbeenimprovedfurther.UsingtheconceptthattheLSI-Spacecancalculatetherelationamongdocumentsconveniently,“doc-docretrieval”isputforwardtomakeuers’retrievalmoreeffectively.Itoffsetstheeffectsthattheretrievalsentencesandinputinaccuratelyaffectstheretrievalprecision.Atlast,anexperimentalplatform,namely“ChineseLSIAnalysisSystem”,hasbeendeveloped.Inthissystem,eachvitallinkinLSIiscorrespondtospecialexperimentalmethod,andpresentstheresultvisually.Allaspectsinthedissertationareevidencedwithexperimentsonthissystem.Keywords:InformationRetrieval;LatentSemanticIndexing;TermWeighting;doc-docretrieva西南交通大学硕士学位论文第III页目录第1章绪论.......................................................11.1信息检索综述..............................................11.1.1信息检索的发展.......................................11.1.2信息检索的基本定义...................................21.2信息检索模型..............................................31.3潜在语义索引..............................................51.3.1潜在语义索引综述.....................................51.3.2潜在语义索引的研究概述...............................61.4本文的研究意义...........................................71.5论文结构..................................................71.6本章小结.................................................8第2章潜在语义索引的基本理论....................................92.1潜在语义索引的基本思想...................................92.2奇异值分解...............................................92.3潜在语义索引的数学依据...................................132.4LSI/SVD的特点...........................................142.5潜在语义索引中相似关系的计算.............................152.6潜在语义索引中词汇和文本的扩充...........................172.7本章小结.................................................18第3章中文潜在语义索引的处理....................................193.1LSI在中文文本处理中的应用...............................193.1.1LSI中文样本实例分析.................................19西南交通大学硕士学位论文第IV页3.1.2LSI中文文本信息检索的处理...........................243.2中文LSI信息处理的特点...................................253.3中文LSI检索系统性能评价指标.............................263.4本章小结.................................................28第4章潜在语义索引的权重改进....................................294.1潜在语义索引权重计算综述.................................294.1.1布尔权重............................................304.1.2tfc权重.............................................314.1.3熵权重..............................................314.1.4TF-IDF-IG...........................................314.2潜在语义索引权重改进方案.................................324.2.1非线性加权方法......................................334.2.2特征词在文本中的位置对权重的影响....................344.3本章小结.................................................35第5章中文潜在语义索引分析系统的开发...........................365.1系统总体设计.............................................365.2“中文潜在语义索引分析系统”的预处理.......................375.3中文潜在语义索引分析系统的设计与实现.....................385.3.1模块与LSI过程的对应关系...................