第2章信息检索的基本原理与方法2.1信息检索的基本概念(1)定义广义的信息检索(InformationRetrieval)是将大量分散的、无组织的信息按照一定的原则和方式搜集、加工和存储起来,并根据用户的特定信息需求,依据一定的规则从信息集合中查找出有关信息的过程,因此又被称为信息存储与检索。(2)类型根据检索对象的不同,信息检索可分为文献检索、事实检索和数值检索。文献检索是指以文献本身为检索对象的检索。用户需要的是文献内容——间接检索事实检索是指对事实、概念、思想、知识等非数值数据的检索——确定性检索数值检索是根据需要查出可回答某一问题的数据的过程。2.2信息存储技术信息存储是指按照一定的原则对信息进行搜集、著录、标引和排序,使之成为二次信息的过程,也是信息的组织和编排过程。2.2.1信息检索语言在信息的存储过程中,需要对信息依据一定的原则进行整理和加工,再以一定的方式组织和存储起来,形成能揭示信息的内容特征(如主题词和学科属性)及外表特征(如著者、出版者及出处等)的检索系统。(1)概念理解信息检索语言是根据信息存储与检索的需要而创制的人工语言。是表达一系列概括信息内容的概念及其相互关系的概念标识系统,是信息检索系统的语言保证。利用信息检索语言对信息的内容特征加以表述的过程被称作标引。因此,信息检索语言又称标引语言。通过标引而获得的表达信息内容的信息检索语言符号被称作标识。(2)功能A.标引(描述)功能在信息存储和检索过程中,用来描述信息的内容特征。B.集中相关信息的功能对内容相同或相关的信息加以集中。C.组织(排检)功能将大量的信息以一定的逻辑次序组织和编排成便于检索和利用的检索工具或检索系统。D.匹配功能是信息的标识和检索用语进行相符性比较的理论依据。常用的信息检索语言:(1)等级体系分类语言《中国图书馆分类法》简称(中图法)语言符号:分类号I247.53(2)主题法语言《汉语主题词表》语言符号:主题词、关键词读者服务、信息咨询分类号包括:纯数字型:例如:86.13为《科图法》的分类号字母与数字结合型:例如:TU723.1(施工合同)为《中图法》的分类号《中图法》,是我国体系分类法的代表作。语言符号是字母与数字结合型,称为分类号。该表由5大部类、22个基本大类的简表及4万多条类目的详表组成。五大部类马列主义、毛泽东思想和邓小平理论哲学社会科学自然科学综合性图书A马克思主义、列宁主义、B哲学、宗教毛泽东思想、邓小平理论C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书主题法语言主题法语言是直接用自然语言中代表事物的名词术语(词组)为标识来揭示和表征文献信息的内容,并按字顺排列标识和采用参照系统等方法来间接表达各种概念之间的相互关系的检索语言。例如:计算机管理F处理机管理F存储管理F虚拟存储计算机教学(机器教学Y机器教学D计算机教学)计算机结构语言(程序系统Z程序系统F计算机结构语言)⑤主题分析方法主题类型:单主题和多主题单元主题和复合主题整体主题和局部主题主要主题和次要主题显形主题和隐含主题主题词的组配:①概念相交:例,社会学+心理学=社会心理学②概念限定:例,计算机+应用=计算机应用③概念概括:例,广播+电视+文化事业=广播电视事业主题结构模式分析法:主题分面公式主体面——通用面——位置面——时间面——文献类型面例,信息需求:“中国当代文学评论论文”文学——评论——中国——当代——论文集(期刊)企业技术创新的信息需求及其满足技术创新(主体面)信息需求(通用面)企业、中国(位置面)期刊论文等(文献类型面)2.2.2信息的著录所谓著录是依据一定的标准,对一种文献信息的形式特征和内容特征进行全面的描述和记录﹐以编制可以揭示文献信息特征的款目的方法。(1)传统著录法•指按照《国际标准书目著录》(ISBD)等标准和规则的要求统一进行规范化的著录,采用手工或计算机进行分项著录,形成规范的卡片目录,由手工编排款目的著录法。F127/22西部大开发指南/西部开发课题组编.—长春:吉林文史出版社,2000.63册(2486页)ISBN7-80626-570-8,精装:Y698.00内容摘要:该指南系统论述了……(2)机读目录•指任何形式的计算机可以阅读和识别的目录。是文献内容和外表特征(数据)经过计算机处理,以代码形式记载在一定载体上而形成的一种目录,是书目数据库的基础。•1977年国际图书馆协会和机构联合会主持制定了《国际机读目录格式》(UNIMARC)。中国国家图书馆即北京图书馆于1987年开始了中国机读目录(CNMARC)的开发工作,1991年1月正式发行机读目录。2.2.3信息检索系统(1)概念:是根据一定的社会信息需求和为达到特定的信息交流目的而建立的一种有序化的信息资源集合体。按载体形划分:手工检索系统卡片目录书本式检索刊物计算机检索系统脱机检索联机检索网络检索系统缩微品检索系统光盘检索系统分布式信息数据库•信息检索系统,全称信息存储与检索系统。以广义上讲,它是将用户的信息需求同信息源之间联系起来,包含有信息集合,具备一定的物质载体和设备,并具有一定的检索功能的有机整体。•这种系统具备信息的采集、标引、组织等存储和检索的全部功能。(2)信息检索系统的有机组成①信息选择子系统②信息检索语言子系统(词表)③标引子系统④检索子系统⑤匹配子系统(3)信息检索系统的检索效率主要由检全率、漏检率、检准率、误检率四个指标组成。A—信息总量X—检出的相关信息量Y—检出的无关信息量M—未被检出的相关信息量①检全率(Recallfactor)漏检率(Omissionfactor)衡量检索系统输出全部相关信息能力的指标。表示为:检全率=检出的相关信息量/信息集合中的相关信息总量=X/X+M漏检率=未被检出的相关信息量/信息集合中的相关信息总量=M/X+M②检准率(Pertinencyfactor)误检率(Noisefactor)衡量检索系统准确检出相关信息能力的指标。表示为:检准率=检出的相关信息量/检出的信息总量=X/X+Y误检率=检出的无关信息量/检出的信息总量=Y/X+Y2.3信息检索技术2.3.1检索方法(1)工具法顺查法倒查法抽查法(2)追溯法(3)循环法2.3.2检索途径检索途径就是检索的入口和路径。手工检索工具的检索途径是通过正文的编排形式和各种辅助索引提供的。计算机检索系统的检索途径是通过各可检字段提供的。(1)内容途径①主题途径(关键词、摘要等)②分类途径(分类号、类目等)(2)外表特征途径①题名②著者③文献序号(专利号、报告号等)④出版信息2.3.3计算机检索技术(1)布尔检索布尔逻辑算符常用的有逻辑或、逻辑与、逻辑非、逻辑异或四种。①逻辑或(OR)+A+B、AORBA+B②逻辑与(AND)*A*B、AANDBABA*B③逻辑非(NOT)—A-B、ANOTBA-BB④逻辑异或(XOR)AXORB、AB+AXORBAXORB(2)截词检索是指检索者将检索词中具有一定词形变化的部分截断,并用截词符号来代表这部分的变化,以截断的检索词加上截词符号构成合法检索词进行检索,凡满足这个词局部的所有字符(串)的记录,均为命中记录。①后截词(前方一致检索)如:comput*,检索出包含下列一些词的文献:computercomputingcomputerizationcomputerized对于中文:定心结构的偏正词组最适用于采用后截词检索进行扩检例如:校园网—图书馆—书目查询②前截词(后方一致检索)如:*经济学,检索出以下记录:西方经济学宏观经济学微观经济学技术经济学知识经济学③中间截词如:wom?n,检索出包括以下两个词的记录:womanwomen(3)字段限制检索将检索词限定在一定的字段范围之内的检索方法,主要作用是缩小检索范围。字段代码TI题名字段AU作者AB文摘SU主题PY出版年CC分类号码例如:检索CNKI《中国期刊全文数据库》:TI=数字图书馆ANDAU=宛文红(4)位置逻辑检索或称邻接检索,是利用位置算符来限定检索词之间的位置关系,或指定检索词在数据库记录中某一特定位置进行检索。①词位置检索常用的词位置算符有:(W)、(Wn):词位置不变(N)、(Nn):词位置可变如:tax(N5)reform(词位置可变)tax(W5)reform(词位置不可变)例如:检索EBSCO学术信息、商业信息数据库EBSCO公司的网络版数据库:AcademicSearchPremier(学术期刊数据库)BusinessSourcePremier(商业资源数据库)②同句检索:位置算符为(S)如:计算机(S)检索技术③同字段检索:位置算符为(F)如:计算机(F)检索技术/TI,SU2.3.4检索策略(1)定义检索策略是根据检索需求,对整个检索过程进行科学而合理的安排,制定出一个能达到理想检索结果的全盘计划和方案。(2)构造检索策略的步骤①分析检索课题的主题内容。②在分析课题的基础上,确定检索系统。③确定检索方法。④确定检索途径。⑤确定检索词,明确各词之间的逻辑关系,构造检索提问表达式,简称检索式。⑥输入检索式,对数据库进行检索,查找出相关文献信息,并予以分析筛选。⑦如果尚未达到检索需求,可以对检索式进行修改,或修改其他步骤,再次检索。⑧索取原文。分析检索课题:•分析并确定信息需求的性质与类型1.对现期文献的需求:求新2.对某一理论、技术片断性文献的需求:求准3.对某一课题的历史、发展等进行了解的检索需求:求全4.对已知特定文献的需求:特定需求前三种:主题需求第四种:原文需求不同类型的检索需求对信息数据库的收录对象、时间范围、学科范围、语种、可检字段类型以及检全率、检准率的要求有所不同。分析课题的步骤:明确检索需求类型确定学科属性明确已知信息:题名、作者、出版信息等析出关键词明确时间范围、文献类型需求•检索式:利用布尔逻辑算符、位置算符、截词符等检索逻辑符算符将各个检索词组配起来,用以表达和描述检索提问,并提交计算机检索系统进行运算和匹配的逻辑表达式。•是对检索需求的精确而全面的综合表述•是检索策略的具体体现构造检索式的方法:①确定检索字段(检索途径)②抽取检索词③确定检索词之间的逻辑关系④确定检索技术⑤用选定的逻辑算符组配检索词检索课题示例:①“基于网络的公司采购系统设计”前缀检索式:TI=(公司+企业+合资企业……)*SU=采购*AB=(网络环境+计算机网络+Internet+网络……)②“防火墙与入侵检测技术”后缀检索式:(网络安全+防火墙+计算机病毒……)/SU、TI*检测技术/TI、AB③“除二氧化氮以外的空气污染”检索式:(空气+大气层)/AB*(污染+环境保护)/SU、AB、TI—二氧化氮/TI、SU④网络环境下知识产权问题的探讨查找相关文献:“论全球电子商务中的知识产权”作者:复旦大学法律系张乃根检索式:张乃根/AU*知识产权/TI*电子商务/TI检索课题:大学生信息素质教育