信息检索笔记

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章信息资源的概述一.传统信息资源的概述1.概念与特征2.类型:(1)一类文献:原始文献(2)二类文献:对一类文献的加工整理,报道揭示一类文献,提供的是一类文献的线索和地址(书目,索引,文献)(3)三类文献:来源于一类文献,有丰富的权威的资料,可以解决各种问题。如:百科全书,字典,词典,手册,年鉴,名录二.数字信息资源1.与传统信息资源相比具有的特征:(1)以多媒体为内容特征(2)内容复杂多样(3)更新速度快,时效性强(4)利用不受时空限制(5)具备检索系统(6)具备全方位的动态的信息服务功能2.数字信息资源的类型:(1)按性质和功能划分:a)一次文献:原始文献b)二次文献:参考数据库,搜素引擎,网资,导航等。c)三次文献:元搜素引擎(关于搜素引擎的搜素引擎)(2)按载体划分:光盘,网络数据库,联机检索系统(三)主要数字信息资源1.参考型数据库:包含各种数据信息的来源和属性的数据库。包括:书目数据库,索引数据库,文献数据库2.全文数据库:收录有原始文献全文的数据库3.事实数据库;直接提供原始文献的数据库,分为数值数据库,指南数据库,术语数据库4.电子图书5电子报纸6.搜索引擎/分类指南7.网络学术资源学科导航:对各类信息资源进行筛选整理之后,按学科属性对其进行分类、组织。第二章信息检索概述一.信息检索:信息检索就是利用一定的检索工具,运用一定的检索技术和方法查找信息的过程。二.信息检索的原理1.利用计算机进行信息检索的前提和基础是信息的组织和贮存。没有贮存就没有检索对象。2.信息的组织与贮存就是数据库的建立过程。在这一过程中,系统对收集到的信息进行概念分析(即找出能够表达主题的关键词),然后赋予其特征标识(这一过程也叫对信息内容进行标引),并按特定的编排方法将其组织起来,形成有序的具有可检性特征的数据库。3.计算机进行信息检索的原理就是指用户和检索人员将能够表达其信息需求的检索式提交给检索系统,检索系统即自动将检索式与系统中的信息进行匹配,凡是信息特征标识和逻辑组配关系与用户检索式一致的,既未命中内容。这种“匹配”实际上就是一种字符串的类比运算。三.信息检索语言(也即标识)1.检索语言的概念与作用(1)检索语言是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。它是人与检索系统对话的基础。信息信息抽取主题标识内容概念检索存储检索系统结果信息信息主题标识需求概念检索(2)标引即对信息内容进行分析,并运用一定的语言和方法,根据信息内容的学科属性和其他特征赋予其标识,并以此作为信息组织、存储、检索依据的过程。(3)标引过程:主题分析——标引——标引结果记录狭义的对文章的标引:从上图可知,信息检索语言的作用:对文献的外部特征和内容进行多维描述,提供多种检索过程,以便用户从不同角度进行检索。2.检索语言的类型:分类检索语言人工语言主题检索语言代码检索语言a)分类检索语言:将各种概念按学科类型进行系统排列,并用分类号表示。b)主题检索语言:用于描述、存储、检索信息主题的受控词(规法化的词),按字母顺序排列。其选取依据为出现频率、标引频率、查找频率。标题词语言主题检索语言单元词语言叙词语言叙词:经过词汇控制后,在信息组织中显示文献主题,在信息检索中构造检索提问式的一种检索词汇。它以语词的概念组配而不是字面组配为特征。又称为描述词、叙述词、主题词。叙词法就是以叙词为标识符号,标引和检索信息的方法,可用复合词来表达主题概念,检索式是由多个叙词组成复合逻辑的组配,形成多种组合方式。自然语言检索词:是从信息内容中直接抽取的,主要依赖计算机自动抽词完成。其中标识词包括:关键词、题名,作者,全文、引文、摘要。限制性自然语言:对自然语言进行限制,只保留其中的重要词。3.索引(也即标引)检索语言就是索引语言,索引是信息标引的过程;索引是表明文献特征的信息。(1)概念:索引就是对信息组织的过程。它包括分析信息内容和用索引语言或检索语言对信息内容进行描述。部分索引结构举例:索引标目出处项Informationretrizevalp4,p10,p18(内容分析检索)主题分析主题分析检索过程标引过程音乐检索与利用/李四—情报学报,2008(5),85-89(题名索引)新华文摘2008(1),118架,189位(定位位置检索)(2)索引的类型:a.按对象划分:机构索引、姓名索引、图书索引、论文索引、专利索引、报刊索引b.按标目所使用的提示符号划分:语言检索、代码检索、图形检索、数据检索自动索引:自动索引就是指计算机在没有人工干预的前提下,根据一定的自动分析算法对信息内容进行分析与描述。索引的目的:a.通过主题词确定文件地址b.分析文件的分布状态c.决定文件和查询之间的关系最终目的:进行信息检索自动索引的作用:避免不一致性,节约检索时间(这里的一致性指用户输入检索系统的检索式与检索系统中对信息特征进行描述的标识词相匹配)自动索引的过程:a.输入全文b.通过空格、标点来分析分解全文,作为结果把有用和无用的词放入词库c.把有用词(最能表达文章主题的词)和无用词分开d.给有用词赋予权重(相关性)如何把有用词和无用词分开,找出最能表达文章主题的标识词,从而有效进行检索:停用词表法:停用词:通用的表达语法关系、以及其他的相关词,当他们离开上下文后就不再具有任何的语义。(停用词是相对的,在某些特定环境下也是有用的)停用词表:由在信息处理过程中可以被忽视或者过滤的词组成。停用词的缺陷:a.无法识别索引词的重要性,无法给实义词赋予权值;b.无法对短语做出索引,过滤掉某些虚词之后短语就不再具有原来的含义,或者整个短语都会被过滤掉,无法有效进行检索。原始词频法:一个词在文章中出现的频率越高,它越能够表达文章的主题思想。因此,出现频率越高的词就会被留下来作为索引。反之,低频词就会被去除。通常在原始词频法中有一个底线,如果一个词出现的次数超出或者等于这个底线,那么它就会被选出来作为索引词底线发生变化,索引词也发生变化原始词频法的缺陷:未考虑到文章的长短,底线的设定无法适应任何文章。标准词频法:(词频=一个词在文章中出现的次数/一篇文献中包含的所有词的数量)0≤≤1,f即频率k即关键词:关键词在一个句子中并不是独立的,该方法为考虑到一个词在整个数据库中的影响力其作为鉴别词的鉴别力就越强,精度就越大。反向词频法:的频率,N指数据库中包含文件的个数,指数据库中包含关键词k的文件的数量。在信息检索领域,log一般默认为以2为底,此处用log是为了弱化k对权重的影响,因为影响权重的因素还有其他的。反向词频法一种计算词在文章中权重的方法。反向就是指词k在数据库中出现的频率越低,鉴别能力就越。其他影响权重的因素:a.词在文章中的位置,如:标题、摘要、结论b.斜体字c.句子形式:提出了……,讨论了……,显示了……d.用and和or等连接起来的词通常具有相同的含义。自动摘要:非全文摘取,摘取关键句子,删除无用的句子频率,N指一个文件中句子的数量,K的句子的个数。通过将一个句子中所包含的各个词的权值相加得出一个句子的权重根据各个句子权重的大小按降序将文件中所有句子进行排序选出具有最高权重的句子将所选出的句子整理成文摘四.信息组织的结构1.从信息检索的视角来看,数据组织的两个重要方面是:他所描述的概念和关系,以及它是如何支持检索运行的。2.数据库的构成:文档——记录——字段(1)文档是由若干条记录构成的信息集合。文档是书目数据库和检索系统中数据组织的基本形式。(2)根据数据库的内部形式,一个数据库最少包含一个顺排文档和一个倒排文档(其实是一个索引数据库,它可以使用户在顺排文档中快速有效实现检索)。顺排文档:1)概念:按文献记录的输入顺序(文献序号)排列的文档。顺排文档相当于印刷型检索工具的正文部分。在顺排文档中,记录按顺序一个接一个存放,一个序号代表一条记录,存取号越大对应的记录就越新。由于顺排文档存取的是最完整的信息,所以通常又把它成为主文档。这种贮存方法决定了,在对信息进行检索时,需要对记录按顺序一一进行扫描,存取的记录越多,检索的速度越慢。2)优点:易于存储、操作和贮存3)缺点:a.很难更新和插入一个新的记录,需要移动大量的数据信息。b.随机存取一篇文献太难。c.不能表达文献中复杂的多层次的关系。倒排文档1)概念:它是一种指南结构,在倒排文档中每款关键词都与包含该关键词的文件地址相连。(所以,它类似于C语言中的指针,指向的是地址)2)对于信息检索而言,这就意味着每给出一个关键词就能迅速找出包含关键词的文件地址。3)倒排文档要求文件地址按文件编号顺序编排。4)倒排文档是把顺排文档中的标引词抽出,按字母顺序依次排列5)倒排文档中的倒排是相对于顺排文档而言的。其实在计算机处理器中,倒排文档也是按顺排文档的存取方式存取的。二者的区别在于:顺排文档是以完整的记录作为处理和检索单元,而倒排文档则是以字段作为处理和检索单元。倒排文档相对于印刷检索系统中的辅助索引。6)可以按不同的字段分别组织不同的倒排文档(如:按主题词、作者……),也可以把不同的字段组成一个混排文档。倒排文档(表一)Term(标识词)Numberofposting(输入输记录的数量)PostingoffileAddress(命中文献的记录地址Browsers271233center363245community236100development21456检索时倒排文档对应的顺排文档(表二)Term(标识词)Address(在顺排文档中的地址)Rewordnumber(在顺排文档中的记录号Browsers123388、51、27……development145623、45……center32451、87、25……community61004、5、6、7……(注:该表相当于关系型数据库中表关键词即主键不同的两表的对应关系)五.信息检索工具1.概念:指具有检索性、资料性功能的所有文献资料、数据库和信息检索系统。检索性:具备完备的检索系统,是有序建立的索引。资料性:必须具有权威性、可靠性。注:具备检索性但不具备资料性的可以是检索工具(例如:搜索引擎),但反之就不是检索工具。2.类型:(1)按功能划分:线性型,资料型,综合型线性型:提供的是信息的出处、来源和地址,如:书目,索引,文摘。资料性:有丰富的资料,如:工具书综合型:电子版的,如:电子数据库、大型联机系统等(2)从检索手段、方式上划分:手工检索工具和计算机检索工具五.信息检索的步骤与方法(一)步骤:1.课题分析2选择相关检索工具3.构选检索式4.调整检索策略5.评价检索结果(二)信息检索的方法1.浏览2.简单检索(用于信息量比较小、检索手段缺乏的时候)3.复杂检索(高级、专家、指南检索)4.自然语言检索5.指令检索:又称命令检索,它是由检索者自行输入检索指令,系统即按该指令进行相应的运行,查出所需结果)6.二次检索六.信息检索方法/功能/技术(一)布尔检索法布尔检索法就是指利用布尔运算符连接各个检索词,然后由计算机进行相应的逻辑运算,以找出信息的方法。布尔运算符Booleanlogic(布尔逻辑)【1】AND逻辑与——它要求用其连接的两个检索词必须出现在检索到的文件中【2】OR逻辑或——它要求用其连接的两个检索词必须有一个出现在检索文件中【3】NOT逻辑非——它要求用其连接的两个检索词中,其后面的词不能出现在检索到的文件中【4】复合使用【5】布尔逻辑运算符的优先使用级别圆括号中的检索式优先执行()notandor在同意级别中按从左到右的顺序进行操作【6】规则:not(AandB)==notAornotBNot(AorB)==notAandnotB布尔逻辑的局限性:1)关键词的重要性不能按权重体现出来2)查询到的文件不能按查询相关度进行排序3)用户必须严格遵循算法并且必须理解每个运算的含义4)“非”运算对检索查询结果影响很大5)布尔逻辑和布尔查询并不完全相同6)缺乏有效反馈信息来支持用户调整检索、查询(二)词位检索法(课本P109)利用位置运算符号连接各个检索词,

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功