图书馆胡小莉目录第一节信息检索的涵义及类型第二节信息与信息源第三节信息检索途径与步骤第四节信息检索效果的评价4123学习目的和要求1、掌握信息检索的基本概念和类别2、掌握常用的布尔逻辑、截词、位置检索等检索技术3、了解信息检索的基本流程第一节信息检索的涵义及类型信息检索的涵义广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索”。狭义:是指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。信息检索的原理:就是将读者(用户)的信息需求与存贮在信息集合体中的信息进行比较和选择,即匹配(match)的过程。即对信息集合与需求的匹配与选择。检索与查找的区别检索查找、搜索、搜寻英文Retrival或Retrievalsearch过程和方法有一定的策略,是系统的查找资料随机或更随意一些。技能需要一定的专门知识和技能简单,任意词用途课题或专题日常生活结果检索前通常不知道会有什么结果通常知道结果效率迅速、准确一般如果不刻意区分:你完全可以认为它们没有区别!信息检索的类型根据信息检索对象形式不同,分为:分类检索内容书目检索以文献线索为检索对象的文献检索;信息用户通过检索获得的是与检索课题有关的一系列文献线索,然后再通过阅读决定取舍。全文检索以文献所含的全部信息作为检索内容的;可以查找到原文或相关的句、段、节、章等文字。计算机检索发展趋势之一数据检索以数值或图表形式表示的数据为检索对象;数据检索是一种确定性检索,用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。事实检索以从文献中抽取的事项为检索内容;包括事实、概念等非数值信息和数据信息;确定性检索,用户获得的是有关某一事物的具体答案问答:下面这些图片所示属于什么类型的信息检索?信息检索的类型根据信息储存媒体和检索手段不同,分为:分类检索工具利弊应用备注手工检索(手检)书本式和卡片式的书目、索引、文摘和各类工具书优点:方便、灵活、直观,查准率较高,回溯查找的年份不受限制缺点:检索效率低,漏检现象比较严重,不利于进行复杂概念课题的检索。查找数据库中通常没有收录的文献依靠印刷载体,由人脑进行筛选计算机检索(机检)计算机设备、终端、通信设施、数据库和检索应用软件等优点:速度快、效率高、查全率高。缺点:成本高、费用大、回溯年份有限。光盘检索系统、联机系统和互联网信息检索系统利用计算机存储和检索信息信息检索的类型根据信息检索信息形式不同,分为:分类检索内容文本检索(自然语言检索)不对文献进行任何标引,直接通过计算机以自然语言中的词语匹配查找的系统。多媒体检索能够支持两种以上媒体的数据库检索,查找含有特定信息的多媒体文献的检索。超文本检索用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。我们日常浏览的网页上的链接都属于超文本。1、信息检索是获取新知识的捷径,节省学习者的时间。信息检索的意义及目的据估计,现在全世界每年出版的图书有80万种以上,科技期刊8万种以上;发表期刊论文大于600万篇以上;公开的专利说明书100多万件;国际会议文献1万多件;美、英、德、日等国产生的科技报告达20万件左右。科技文献浩如烟海,具备一定的信息检索能力才能查找出有用的科技信息。美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。信息检索的意义及目的2、信息检索是科学研究的向导,避免重复研究或走弯路。信息检索的意义及目的2、信息检索是终身教育的基础学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。联合国教科文组织提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。第二节信息与信息源一、信息(一)什么是信息?(Information)信息论的奠基人,美国数学家克劳德·香农(ClaudeE.Shannon):“信息是用来消除不确定性的东西。”控制论的创始人,美国科学家维纳(N.Wiener):“信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行相互交换的内容的名称。”中国学者钟义信:“信息是事物运动的状态与方式,是物质的一种属性。”信息爆炸客观性载体性传递性可塑性时效性信息的使用周期越来越短可以进行加工和处理必须依附于一定的载体才能流通和传递是实现信息资源共享的基础共享性可被多个用户使用信息可被感知、获取、传递和利用(二)信息的特征二、信息源信息源,顾名思义,就是信息的来源。联合国教科文组织出版的《文献术语》将其定义为:个人为满足其信息需要而获得信息的来源。类型存在方式特点口语信息源交谈、聊天、授课、讨论等方式传递快、互动性强、但稍纵即逝、久传易出差异体语信息源手势、表情、姿态等方式直观性强、生动丰富、印象深刻、富有感染力实物信息源以实物如文物、产品样本、模型、碑刻、雕塑等形式表示直观性强、感受实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息文献信息源以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后、部分信息尚待证实的情况。(一)零次信息源不借助实物媒体,通过直接交流所获得的的信息来源。包括口头交谈、参观、现场交流、听演讲、听报告会等。(二)一次信息源已出版的原始文献、科研人员根据科研成果撰写的文稿、第一手资料就是一次信息源。它包括:专著、期刊论文、科技报告、会议论文、专利说明书、学位论文等,是人们检索和利用的主要对象。(三)二次信息源通过对大量分散、无序的一次信息源进行加工、提炼、浓缩和组织,成为系统的、便于查找一次信息的工具,如收录目录、索引、文摘等的数据库与网络检索工具。它不产生新的知识,但提供了一次信息源的线索。信息检索主要讲的就是二次信息的编排体系和使用方法。(四)三次信息源在利用二次信息的基础上,对检索到的一次信息进行广泛、深入的分析研究之后,再次加工出来的成果,如专题报告、综述,以及词典、手册、百科全书、年鉴等工具书。具有综合性强、针对性强、系统性好的特点。课堂讨论:我们是否需要了解多种文献信息源类型呢?你平时使用比较多的是哪种类型的信息源?一、了解一种就可以了;二、了解几种常用的和常见的就可以了;三、各种类型都需要了解;第三节信息检索途径与步骤(一)信息检索的途径1、文献外部特征的检索途径(1)责任者途径(著者姓名途径)(2)题名途径(书名途径)(3)文献类型途径(4)代码途径(序号途径)以文献的编号为特征,检索文献的途径。根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN等作为检索点。2、文献内容特征的检索途径(1)分类途径是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。一般检索系统均提供数据库所使用的分类表的分类号索引。如:《中国图书馆分类法》(2)主题途径是根据表达文献主题内容的主题词及其派生出的关键词为标识查找文献信息的途径。(3)分类主题途径是分类途径与主题途径的结合,能够尽量避免两者的不足,取其多长。(4)其他检索途径①出处途径②时间途径③任意词途径④专门术语途径分类途径分类途径主题途径(二)计算机检索技术1、布尔逻辑检索是应用布尔逻辑代数的原理设计的、应用于计算机信息检索系统的一种主流检索技术与方法。三种类型:逻辑与(AND)逻辑或(OR)逻辑非(NOT)布尔逻辑得名于GeorgeBoole,他是考克大学(现爱尔兰国立考克大学)的英国数学家,他在十九世纪中叶首次定义了逻辑的代数系统。现在,布尔逻辑在电子学、计算机硬件和软件中有很多应用。布尔逻辑检索1)逻辑“与”运算符:AND或*检索式:AANDB或A*B含义:检出的信息中必须同时含有“A”和“B”两个检索词。提高查准率,增强检索专指性。BA例:逻辑与(AND或*)计算机在图书馆的应用计算机图书馆计算机AND图书馆人类活动对群落多样性的影响检索概念:人类活动群落多样性影响检索式人类活动AND群落多样性人类活动AND群落多样性AND影响人类活动AND群落多样性AND影响布尔逻辑检索2)逻辑“或”运算符:OR或+检索式:AORB或A+B含义:数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。提高查全率,扩大检索范围如:“微机+电脑+PC机”“微机or电脑orPC机”BA布尔逻辑检索3)逻辑“非”运算符:NOT或-检索式:ANOTB或A-B在含检索词A的记录中,去掉含检索词B的记录例1查“玉米但不是甜玉米”方面的文献。检索式=玉米-甜玉米例2查“国外有关数字图书馆方面”的文献检索式=数字图书馆-国内BA布尔逻辑检索布尔逻辑运算符的运算顺序优先级高优先级低NOTANDOR布尔逻辑运算符号在baidu、google搜索引擎中的运用1、百度搜索引擎三种逻辑运算符的使用方法:逻辑与为空格,例如“中国最长公路桥”可以用这样的检索式进行检索:“中国最长公路桥”;逻辑或为“︱”,例如“番茄︱西红柿”;逻辑非为“-”【注意:“-”前必须输入一个空格】,例如“马铃薯晚疫病-番茄”;2、Google搜索引擎三种逻辑运算符的使用方法:AND:有优先,逻辑与为空格(使用方法同百度);逻辑或为OR【注意:OR必须用大写】,例如:“番茄OR西红柿”逻辑非为“-”【注意:“-”前必须输入一个空格】,(使用方法同百度)。百度搜索引擎逻辑或的使用方法:截词检索2、截词检索截词检索是在词干的不同位置添加截词符,以此代表词的可变部位,从而减少相同词干的检索词的输入数量,提高查全率的一种常用检索方法。主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。在不同的检索系统里用不同的符号,一般为:*、?、!提高查全率,防止漏检的有力手段截词检索1)按截词的数量划分●有限截断:即一个截词符只代表0或1个字符。如:apple?可检出apple、applet等结果●无限截断:一个截词符可代表多个字符。如:comput!可检出:computer、computers,computering等结果注:不同的数据库所用的截词符不一样,使用时应先查一下各数据库的帮助加以确认。截词检索2)按截词的位置划分1.把截词符号置放在一个检索词的中间;2.中截断不允许有限截断1.将截词符号放在一个字符串左方,表示其左的有限或无限个字符不影响该字符串的检索;2.实质:后方一致检索1.最常用的截词检索技术;2.放在字符串右方,表示其右有限或无限个字符不影响该字符串的检索;3.实质:后截断是前方一致检索后截断前截断中截断截词检索●后截断主要使用于如下几种情况:检索词的单复数的描述;如:book?同根词的表达;如:chemi*可以检索出chemical、chemistry、chemist等同根词年代的表达;如:20??(21世纪),199?(20世纪90年代)作者如:Moyer*可以检索出所有姓Moyer的作者截词检索●前截断:又称左截断,截词符在词的左边如:输入*computer检索结果microcomputerminicomputer截词检索●中截断:截词符在检索