讲稿2-索引的建立

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1二索引的建立1、目的、标准在大量的文档集中(通常情况下大约为100,000个文档以上),为了提高检索性能和速度,需要找到文档中比较重要的内容并为这些内容创建内部表示,这些表示形式被称为索引。为了找到这些内容,必须进行语义分析来确定哪些是某一文档中的概念。对于IR来讲,这种分析是非常复杂的也是很难进行的。目前存在的技术,大多限制在某一特别领域。建立索引的目标是找出主要内容,创建内部表示。表示法的选择应考虑下面三个准则:-精确表示语义-涵盖所有内容-易于计算机处理实际上,人们更加倾向于研究概念的表示形式。概念表示形式可以是字、词、词组等,概念表示形式与精确度关系如图2-1所示。选用词作为概念的表示形式的想法是很自然的。事实上,词是最容易识别的语言单位,并且,它们也能充分地表达语义。在现有的系统中,它是最常用的方法。但是,单词经常不能给出专一的描述。例如,“专家系统”,被表示为“专家”和“系统”,失去了一定的精确性。因此,研究者们提出了新的方法,建议将单词组织起来形成合成词,文献可以由词和短语联合来描述。研究表明使用中文分词,按词索引结合二元组(bi-gram)索引是检索效率和效果较优的索引综合考虑方式,通常通过自动分词来选择索引词。在文档索引过程中,先通过中文自动分词程序的处理,把文档正文分割成为独立的分词单位,然后在这些分词单位基础上选择索引词。分词单位是指具有确定语义或语法功能的基本单位,通常被直接选作索引词[7]。图2-1概念表示形式与精确度关系文档集合通常由文档逻辑视图来表示,可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。索引词的选取过程见图2-2、2-3所示。首先,对文本信息进行预处理,预处理技术主要包括结构提取、分词(中文)、词干提取等,然后选择特征表示形式和进行特征提取,以一定特征项(如词或词组)来代表文档,在检索时只需对这些特征项进行处理。涵盖率(Recall)精确度(Precision)字符串词合成词概念2图2-2索引词选取框图(英文文档)图2-3索引词选取框图(中文文档)语言学界、人工智能领域和情报检索界的学者在汉语自动分词与索引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法。80年代以来见诸报端的自动分词方法归纳起来有:最大匹配法、逆向最大匹配法,逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想———回溯法、双向扫描法、邻接约束法、扩弃转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种[3]。由于汉语结构上的复杂性、切分的模糊性以及语法分析问题等诸多因素的影响,汉语自动分词未能取得重大的实质性突破。这一问题的搁浅直接影响了汉语文献的自动索引及汉语的句法分析与语义分析研究,成为中文自动索引研究发展的瓶颈。如何高效低成本地实现信息索引是信息检索领域重要的研究课题。索引从原理上分抽词索引和赋词索引,各种方法和技术以自然语言的规律为基础,构建在相应的数学模型上。在这一章中,我们将介绍以单词和合成词为表示形式的自动索引方法。首先,介绍自动索引的基本原理,然后,介绍基于词汇分布特征的索引方法:统计标引法、n-gram标引法和概率标词或词组停用词中文切词中文文档自动或手工索引结构识别索引词集合结构3引、基于语言规则与内容的索引:句法分析标引法、语义分析标引法和基于概念的标引法、人工智能索引法:知识产生式表示法、语义网络表示法和框架表示法和汉语自动索引。其中,重点介绍基于词汇分布特征的索引方法,其它方法只是简单讲解,同学们课后可以查阅相关的资料,对每个方法进行总结,形成介绍性的文章。2、自动索引的基本原理2.1自动抽词标引原理自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词。1、自动抽词标引思路在手工标引中,标引员总是尽量选择能较好反映文献主题的原文词语。他们的选择结果可能要受到一些因素的影响,如词语在文献中出现的频率、词语出现的位置(标题、结论、插图说明等)及其语境。假定文本以机器可读的形式存在,计算机程序就可以模仿人,通过对文本中词的频率、位置和语境标准来实施抽词标引。标引程序的基本算法是,抽取文本中的词汇,将词汇与一个“禁用词表”比较,除去各种非实义词(冠词、介词、连词等),然后统计剩下的词汇的出现频率,并按其降序排列,排在前面的一些高频词被选作文献的“标引词”。选择标引词的分界点可根据下面几种标准来确定:词的绝对数、与文本长度有关的数、词频超过一定阈值的词数。更复杂一些的算法可抽出在文本中经常出现的重要短语。文献因此可以由词和短语联合来描述,选择短语的频率要比选择重要词的频率标准低一些。除了选择词和短语,标引程序还可以选择词根。因此词根(如“beat”)可以被选择并存储,它代替了多种对应的变体“beat”、“beating”、和“beated”。取词根程序可以自动去除指定的词尾,如“ed”、“ing”等。当然,词、短语或词根都可以给予反映它们在文献中出现频率的权重。词和短语除了根据频率抽取之外,还可以通过与某种机内词典中“可接受的”词语相匹配的方式从文本中抽取。2、选取标引词的原则在文本的计算机处理中,计算词在一篇文献中出现的频率并不是唯一的方法(tf),有时考察词在整个文献库中出现的频率可能更重要(df,idf)。最好的区分词(能将一篇文献与其他文献区分开的词)应能保证在非相关的文献集合中很少出现或不出现,如“石棉”在图书馆学文献中,“图书馆”在石棉公司数据库中。实际上,没有必要计算词在整个文本数据库中的出现频数,而只需计算词在倒排文档中的频数即可。除了词在文献中出现的绝对频率,还可使用相对频率方法来选择词语,即选择那些在一篇文献中的出现几率大大高于在整个文献库中出现几率的词和短语。这种方法比绝对频率法要复杂一些,因为它需要知道一个词在数据库中出现频率,并将该频率与词在一特定文4献中的频率相比较。基于相对频率从文献中抽出的词和短语集合将不同于基于绝对频率得到的集合,但是不是完全不同,许多仍然相同。少数新词语将是那些在一特定文献中很少出现,但是在整个数据库中更少出现的词语,如果一个词在一个有1000万词的数据库中只出现5次,则它尽管在一篇5000词的期刊论文中只出现1次,仍然是很重要的,而那些在一篇文献和整个数据库都频繁出现的词语(可称为“泛滥词”)则要去除。频率标准还可用其他标准来补充。例如,Baxendale在1985年提出了对段落主题句抽词的思想,认为只需对每段文本的第一个和最后一个句子进行处理。因为一项研究表明,第一个句子是段落“主题句”的比例为85%,最后一个句子也超过7%。还有许多利用文本中“信息丰富”部分的抽词标引的思路被提出,如利用一下一些元素:文章各级标题,介词短语、后接入“conclusions”和“summary”的线索词的文本等等。一般情况下,检索系统普遍采用全文索引技术,即网页文档中所有词都选择参与索引。在理想情况下,索引词应该是表达文档内容的语义单位,对应着语言学里的词汇词的概念,它是专门表示含义,而其实际意义无法由组合成分相加得到的最小语言单位[7]。2.2自动赋词标引原理赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程,即将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法。自动赋词标引类型主要有以下两种:1、基于概率的赋词标引Maron于1979年提出的概率标引模型采用基于相关概率的赋词标引方法,其标引过程是:选一批样品文献,去掉高频词和低频词,把这些文献按其主题归入适当的类目中,然后统计候选关键词在类目中出现的频率,再由人工最后确定一个词表。标引时用被标引文献中的词与词表中的词进行比较,将匹配成功的词赋予该文献。DIA(DarmstadtIndexingApproach)方法则是基于决策概率(某标引词赋予某文献这一决策事件正确性概率)的一种赋词标引方法。在这种方法中,加权函数r(s,t)近似等于将叙词s赋给含有词条t的文献的正确性概率P(c/s,t)。如果词条t在文献d中被识别出来,同时也符合r(s,t),则形成从t到s的叙词指引。从文献d到叙词s的全部叙词指引集合称为s与d的相关性描述y(s,d)。下面的过程就是用相关性描述y(s,d)来估算概率P(c/y),P(c/y)是给定相关性描述y,叙词s标引文献d正确的概率。信任函数模型(BeliefFunctionModel)也属于概率标引模型,它的标引过程是:将被标引文献与一个具有叙词集合的受控词表进行比较,对出现在文献中的受控词表的每一叙词,根据其出现频率以及同义词出现情况定义一个基本概率数。基本概率数大于零的叙词,5便可用于对具有该词的文献进行标引。2、基于概念的赋词标引基于概念的赋词标引主要是使用概念词表作为标引词的来源。FASIT法就是一种典型的基于概念的赋词标引方法,FASIT法的实现过程是:对文献中与其主题相关的词或短语赋予一定的句法范畴或几个范畴的组合,并给出相应的标记;然后采用与上下文相关的消除歧义规则,消除多重标记词的歧义性;最后利用一个概念形式词典进行概念选择,选出的概念经规范化处理后,计算其与其他概念之间的关联度,进而将统一概念进行概念归类,最终以概念类来标引文献。3自动标引的模型3.1向量模型文献的向量空间模型较好地描述了文献之间的相关程度,由此确定了文献空间密度。由于文献标引性能可以从文献空间密度直接反映出来,因此这种以文献向量空间为基础的抽象描述就构成了自动标引的一种数学模型。若用X(a,b)确定二维平面上点X的位置,用X(a,b,c)表示三维空间中点X的位置,同理,如果D为t维文献空间,则可以用Di=(di1,di2,...,dit)表示,其中,Di可以看成是文献空间D的第i维向量,dij为文献Di的第j个标引词的权值。(1)文献向量的相关性有了文献空间,每一篇文献在其中都有一个确定的位置,文献的空间位置就为我们计算它们之间的相关程度提供了途径。从文献空间上看,两篇文献相关就是指代表这两篇文献的向量靠得很近,具体讲就是这两个向量的夹角很小。根据向量代数中数量积计算公式有:cos||||baba其中,|a|,|b|分别为向量a和b的模,=(a,b)为向量a和b的夹角,||||cosbaba又设向量a和b的坐标分别为a={a1,a2,...,at}和b={b1,b2,...,bt},则:tiitiitiiibaba12121cos由余弦函数的性质可知,在[0,90]上,其余弦值随其角度变小而增大。这一现象正好反映了文献空间中某两篇文献的相关程度的大小,即余弦值小,夹角大,则相关度低;反之,则相关度高。若余弦值为1,则夹角为零,则两篇文献完全重合,即相等。因此,可6将两文献之间的相关度S(Di,Dj)定义为其夹角的余弦值,即S(Di,Dj)=cos,其中,=Di,Dj为文献Di,Dj之间的夹角。由于文献Di是由相应的标引词的权值来表示的,即Di=(di1,di2,...,dit),故文献之间相关度为:tkjktkiktkjkikJiddddDDS12211),(可以设想,在一个理想的文献空间中,满足用户情报需求的文献应是紧紧地聚集在一起。但如果对一个给定文献集合的全部检索历史不了解,则很难产生出这种理想空间。因此,为了达到理想的检索效果,应将文献空间中的点尽可能地分开,即对式(2-1)求最小值。ninjjiDDSF11),((ij)(2-1)式(2-1)的最小值表明空间中文献之间的相关性将变得很小,当某篇文献与某个提问相关时,只有这篇文献被检索出来,从而保证了较高的查准率。但这会产生两个方面的问题:第一,这种将点分开的方式是否基于这样一个事

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功