1一、绪论1.信息社会信息对于经济发展和人类社会进步的作用日益增强。《财富》杂志调查美国100家大企业的执行总裁,他们均认为知识信息是企业最重要资产世界经合组织调查:高科技企业对GDP的贡献率达50%带动了新兴产业的出现,如:信息服务与信息经济人.2.信息检索教育的意义:培养学生信息意识,增强信息素养.培养学生的信息获取和利用能力,增强其综合素质.(1)培养自学能力和知识更新能力;(2)培养科研能力;(3)培养工作能力和管理能力.3.美国教育技术信息检索与利用CEO论坛2001年第4季度报告提出21世纪的能力素质总的方面:基本学习技能(指读、写、算)信息素养,创新思维能力,人际交往与合作精神,实践能力。4.信息素养是全球信息化需要人们具备的一种基本能力。这种能力包括以下三个要素:能够判断什么时候需要信息?懂得如何去获取信息?懂得如何去评价和有效利用所需的信息?5.信息素养涉及各方面的知识。信息素养的重点是:内容、传播、分析,包括信息检索以及评价,需有更宽的能力。一种了解、搜集、评估和利用信息的知识结构,既需要通过熟练的信息技术,也需要通过完善的调查方法、通过鉴别和推理来完成。信息素养是一种信息能力,信息技术是它的一种工具。以前,当我们碰到不懂的问题时,第一反应是跑图书馆,找工具书或其它资料,而现在,人们首先想到的是上网。随着信息化、网络化时代的到来,特别是Internet功能的不断扩充,性能不断提高,信息资源日益丰富。传统的、以印刷媒体为主的图书馆,正在向电子化、网络化图书馆过渡,出现了“虚拟图书馆”和“数字图书馆”等新形式。超星数字图书馆:全球最大的中文数字图书网,40多万种电子图书在线阅读、下载。书生之家:由北京书生科技有限公司创办,主要提供1999年以来中国大陆地区出版的新书的全文电子版。数字图书馆以网络和高性能计算机为环境,向读者和用户提供比传统图书馆更为广泛、更为先进、更为方便的服务,从根本上改变了人们获取信息、组织信息、使用信息的方法。信息检索课是以图书馆学、情报学、文献学为理论基础,侧重培养学生信息意识,使其掌握获取文献信息的技能,提高自学能力的一门科学方法课。主要介绍人文科学领域各类主要古今工具书及其使用方法;介绍各类数据库和互联网上的信息资源及其使用,学术论文调研和写作等。第一章信息检索概述第一节基本概念第二节信息源第三节信息检索基本原理第一节基本概念1.信息检索(Informationretrieval)定义:收集、组织、存储一定范畴的信息,提供用户按需要查询文献中的信息或知识单元。广义的信息检索是指信息存储与检索.(InformationStorageandRetrieval)狭义的信息检索则仅指该过程的后半部分,即相当于人们所说的信息查寻(informationsearch)。本课程主要涉及后者.对用户来说信息检索是从任何信息集合中获取所需信息的过程及其所采取的一系列方法和策略.2.相关概念信息(Information):是客观事物的运动状态和特征的反映,是人们认识事物发展的基础。由于信息涉及的领域广、内容丰富,人们的研究点不同,对信息的界定也不同。我们可以从三个层面把握信息概念。(1).本体论层面:事物运动的状态和方式(2).各学科领域层面:进入认识领域和传播领域,可以被理解或被接受的消息、情报、知识、事实、数据等。包括以下要点:(3)大众交流信息.相互之间交流的所有内容.学科领域层面的信息之要点:A已被人类认识、理解、开发利用的信息;B信息是认识过程中不确定性的消除和减少。即信息的作用是消除信息接受者认识过程中的不确定性;C信息不是已知消息的重复,而是未知的内容。学科领域层面的信息具有以下特征:形式特征:信息的寄载性、多样性和综合性。信息必须借助于载体才能呈现。2内容特征:信息的可转换性。必须对信息进行加工,使其在内容上具有完整性、准确性、针对性、精练性。运动特征:信息的传递性。信息源经信道传递至信宿的信息交流过程。包括空间和时间上的传递。价值特征:信息的效用性。具有使用价值,能满足人们某方面的需要。人文科学信息处于信息的第二层面,即进入认识领域和传播领域的各学科领域中的信息。按其内容性质分为:理性信息和记述信息。理性信息:即学术信息,是人文科学领域信息的核心。学术信息的重要特征是:要进入学科问题研究,在学科不同层次的研究中产生的信息。蔡元培论学术:学为学理,术为应用。即理论和应用。记述信息:描述性信息,对具体现象、事实(包括数据)进行记述或描述而产生的一种最基本、客观的信息,是一种感性认识。在人文科学领域中这种信息具有特别的重要性。因为人文科学研究的一个重要的方法论原则是全面性,即在研究过程中尽可能全面地认识和把握研究对象,要做到这点,就必须全面掌握客观的原始资料.没有离开记述信息的所谓人文科学研究,在人文科学信息中,记述信息的数量也是最多的.信息知识情报的相互关系:信息是知识的源泉;知识是系统化、理论化的信息;情报是活化的知识和信息,能为人们所利用。知识(Knowledge):是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的过程。系统化、理论化的信息就称为知识。情报(Information):是人们在一定的时间内为一定的目的传递的有使用价值的知识或信息。信息包含知识,知识包含情报。系列化的信息成为知识,知识中的特定需要部分就是情报。但也有的情报只是消息,并非知识。文献:记录有知识的一切载体。包括图书报刊、声像资料、电子出版物。资料:含有自己所需情报内容的那部分文献。数据:原始符号,数字,文字。文献、资料、数据都是信息的物质载体。3.信息检索的分类按信息组织方式与获取方式划分,(信息检索可分为手工检索和计算机检索)。计算机检索是信息检索的发展方向,但是手工检索也有其独特的优势,在信息检索过程中应该多种形式结合互补.手工检索:以手工方式,利用印刷型工具书查找文献信息的过程.优点:不需要特殊设备,查找方法简单,灵活。不需要检索经费或费用较低。缺点:效率低,检索速度慢,大的课题相当费时。在进行复杂问题的多途径检索时,需要反复查找若干检索工具。查全率一般较低。计算机检索通过计算机及网络设备,利用光,磁等媒介存贮检索文献信息的过程.计算机检索是手工检索功能在数字化,网络化环境下的深化发展.按信息组织方式的不同,计算机检索分为:文本检索:依据关系型数据库系统查找信息的检索方式,亦称为自然语言检索。文本检索的对象,可以是整个出版的文本,包括文章、报告甚整本图书,也可以是它的部分,如文摘、摘录或只是文献的题名。以整个文献正文为对象进行的匹配查找,称为全文检索。超文本检索:依据超文本数据库系统查找信息及信息关联过程的检索方式.超文本技术将自然语言文本和计算机交互式地转移或动态显示线性文本的能力结合在一起,它的本质和基本特征就是在文档内部和文档之间建立关系.和线形文本检索不同,用户可不必进行概念提问或关键词组配,不需按顺序去查询信息,而是通过链接访问网络中的节点.超媒体检索:依据超媒体数据库系统查找多媒体信息及多媒体信息关联过程的检索方式.超媒体(HyperMedia),即以多媒体的方式呈现相关文件信息。是超文本利用引用链接其他不同类型(内含声音、图片、动画)的文件,这些具有多媒体操作的超文本和多媒体在信息浏览环境下的结合就称为超媒体.按信息内容划分,信息检索可分为:文献检索:利用检索工具或检索系统查找文献的过程.包括文献线索检索和文献原文检索.文献线索检索:利用检索工具或检索系统查找文献的出处,检索结果是文献线索,包括书名或论文题名,著者,出版者,出版地,出版时间等文献外部特征.用于检索文献线索的的检索工具有书目,索引,文摘等,以及书目型数据库,索引题录型数据库.文献原文检索:利用检索工具或检索系统获取文献原文的过程.这是计算机全文数据库检索系统所提供3的一种检索类型,在全文数据库系统中,不仅可以检索到文献线索,而且可以直接获取原文,检索结果是原始文献.事实信息检索:利用检索工具或检索系统查找某一特定事物的过程.是一种确定性检索,检索结果是有关某一事物的具体答案.如:名词术语,概念,定义,某一事件,事实或某一机构,人物的状况等.用于检索事实信息的检索工具有字词典,百科全书,年鉴,手册,以及术语型数据库和指南型数据库.数值信息检索:利用检索工具或检索系统查找数值信息的过程.也是一种确定性检索,检索结果是确定的数据,可直接用于定量分析与研究.如各种科学数据,人口数据,管理数据,金融数据,财政数据,商业数据等统计数据.用于检索数据信息的检索工具有统计年鉴,统计资料汇编以及数值型数据库.例:“长江有多长,洪水期最高水位有多高?”使用年鉴、手册或水利专题数据库能获取这类信息。小结:文献线索检索是一种相关性的检索,检索的结果是信息线索,只能作为初步的检索,还必须进一步查找,直到找到有关的一次信息。数值与事实检索是一种确定性检索,检索的结果是可供科研人员直接利用的信息,而不是某一信息线索。4.检索语言检索语言:是各种具有检索作用的语言总称.也称标引语言,索引语言,信息检索语言,是根据信息检索系统存储和检索的需要而编制的,用来描述检索提问主题、学科分类等内容的语言,包括自然语言和人工语言。人工语言,也称受控语言,是依据一定的规则对自然语言进行事先规范,将其编制成表,以供信息资源标引和检索时使用的语言.主要有主题语言和分类语言。自然语言:未受控语言,为不懂人工语言的用户提供极大的便利。自然语言:文献作者原来使用的语言,包括文献题名,摘要,正文及参考文献中的具有一定意义的语词.缺点:自然语言无法排除多词一义,一词多义的现象,并且,由于一个概念可以用几个不同的相关词汇来表达,使得同一主题的文献不能相对集中,容易造成漏检.自然语言无法显示词语间的各种复杂关系,因而无法实现扩检,缩检,和相关检索.人工语言之主题语言:主题语言一般称为主题法.所谓主题,通常指文献论述的对象,经过筛选的用以表述文献主题的语词,称为主题词.主题语言的依据是主题词表,又称叙词表,检索词表或词库,它是一些规范化的主题词及使用规则的集合体,是进行主题标引和主题检索的工具.主题语言之关键词语言——关键词:对表达文献主题内容具有实质意义的语词.关键词语言:将描述主题内容的关键词抽出,按字顺排列提供检索,一般不加或加以少量规范处理,所以是一种准主题语言.常规的做法是编制”非关键词表”(“禁用词表”)分别列出冠词,介词,连词,代词等无检索意义的词.在标引或检索时,只要是不在禁用词表中的词,都可作为关键词的备选词.优点:能够自动化标引,实现多途径检索,具有较高的检准率.缺点:不显示概念之间的关系,难以进行族性检索.例:利用英文搜索引擎查找网络信息检索方面的资料。网络WebInternet*retrieval*逻辑关系检索式可表示为:(WebORInternetOR)AND(search*ORretrieval*)主题语言的优点——直接性,专指性,集中性和灵活性。主题语言以概括文献内容的主题词为标目,按字顺组织排列,无论文献内容的属性如何,都可用简明扼要的词语将文献所包含的各个主题直接反映出来,并且将从不同学科角度来研究同一主题的文献集中在一起,提供按事物名称检索文献的途径,满足特性检索需求.同时,由于主题语言系统按字顺排列,对主题词的增删不会影响其结构,可根据需要及时增补新词,删除调整旧词.《汉语主题词表》我国第一部大型综合性叙词型检索语言词表。按社会科学与自然科学两个系统分别编列。全书包括主表(字顺表)、附表、词族索引、范畴索引和英汉对照索引。收录正式主题词。91,158条,非正式主题词17,410条。主表(字顺表)是标引、检索和组织目录的主要工具,1991年又出自然科学(增订本)。汉语主题词表收录的主题词包括下列类型:⑴表示具体事物名称的名词术语,如汽车、变压器、反应堆、水稻、坐标仪等;⑵表示事物的状态或现象的名词术语,如强度、失真、土壤熟化、日冕、船舶过载等。⑶表示科学分