第2章:信息检索的基本方法主讲人:盛芳Email:shengfang@sues.edu.cn电话:67791306地址:图文信息中心535室信息检索的基本方法2.1信息检索及其基本原理2.2检索途径2.3检索语言2.3.1分类法中国图书分类法国际专利分类法2.3.2主题法2.4检索方法2.1信息检索及其基本原理信息检索(InformationRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。又称信息的存储与检索(InformationStorageandRetrieval),这是广义的信息检索。狭义的信息检索就是从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(InformationSearch或InformationSeek)。信息检索的基本原理对信息集合与需求集合的匹配与选择检索需求:读者或者用户要求检索系统提供服务的真实需求,这种需求通常用检索语言来表达。检索语言:用于标引文献内容特征和标识用户检索需求的一套体系和规则,由检索标识和标引规则组成。信息检索的基本原理文献信息检索课题检索提问信息文献信息特征分析分析形成形成输入检索输出标引著录选用检索语言和名称规范文献信息标识(检索点)检索提问标识(检索词)检索工具检索结果检索过程存储过程文献信息检索的实质:—文献标识和检索标识的匹配和选择检索工具:是指用以存储、报道和检索文献的工具。因此,具有存储和检索的功能。四个基本条件:详细著录文献的外部特征和内容特征。具有既定的检索标识。必须根据标识的顺序,系统科学地排列文献、使其成为一个有机的整体。提供多种检索途径。检索工具信息检索的基本方法2.1信息检索及其基本原理2.2检索途径2.3检索语言2.3.1分类法中国图书分类法国际专利分类法2.3.2主题法2.4检索方法2.2检索途径是由提取信息源的外部与内部特征形成的,又称为检索点或检索入口。外部特征责任者(著者、译者、编者等)形成责任者途径题名(书名、刊名等)形成题名途径专利号、ISBN等形成代码途径引用文献形成引文途径内容特征分类途径主题途径外部标识检索标识内容标识书名、刊名题名专利号、ISBN、文献号代码著者、译者、编者责任者分类号主题词分类途径的优缺点优点具有族性检索的功能,查全率较高。以学科分类为基础,容易被人们接受和应用。适用于信息需求不很明确时的闲逛搜索。缺点不适用于特性检索,查准率比主题词低。不能适应学科发展中的变化,难以反映新学科和新名词术语。人的认识不统一,往往造成分类不一致及排检错误,不易反映交叉学科。主题途径的优缺点优点:1、适合特性检索,查准率高例如:主题词“C语言—程序设计”就比分类号TP312表达得更准2、能将不同学科的信息集中到一起缺点:1、通常不适合族性检索,查全率比分类号低2、由于很规范,非专业人士难以掌握信息检索的基本方法2.1信息检索的基本原理2.2检索途径2.3检索语言2.3.1分类法中国图书分类法国际专利分类法2.3.2主题法2.4检索方法2.3.1检索语言—分类法分类是人类的基本逻辑思维形式之一,是人类认识客观事物和区分客观事物的思维活动。分类法反映了对人类全部知识体系的认识。是一种专用于文献标引和检索的人工语言体系,由分类号和分类规则组成。中国图书馆分类法发展简介体系结构宏观结构微观结构图书资料分类规则1975年正式出版第一版;1980年出版第二版;1990年出版第三版;1999年出版第四版,更名为《中国图书馆分类法》,ChineseLibraryClassification,简称CLC;2010年出版第五版。中图法体系结构以自然科学、社会科学、哲学作为人类知识领域的基本构成建立基本序列。并将作为社会主义分类法编制指导思想的“马列宁主义”和文献特殊性设置的“综合性图书”,形成五个部类的基本序列。设置了22个基本大类,大体按“上层建筑-经济基础-意识形态”,即“政治-经济-文化”的次序排列。第一部类A马克思主义﹑列宁主义﹑毛泽东思想第二部类B哲学第三部类C社会科学总论H语言、文字D政治﹑法律I文学E军事J艺术F经济K历史、地理G文化、科学、教育、体育第四部类N自然科学总论S农业科学O数理科学和化学T工业技术P天文学、地球科学U交通运输Q生物科学V航空、航天R医药、卫生X环境科学、劳动保护科学第五部类Z综合性图书自然科学各大类的排列则按学科的属性遵循从一般到特殊、从简单到复杂、从低级到高级、从理论到应用的次序进行,并形成“基础理论-技术科学-应用科学”三个层次。表2-2文学类的类目设置Ⅰ文学Ⅰ0文学理论Ⅰ1世界文学Ⅰ2中国文学Ⅰ3/7各国文学Ⅰ22诗歌、韵文Ⅰ23戏剧文学Ⅰ24小说Ⅰ25报告文学Ⅰ26散文Ⅰ27民间文学……………..Ⅰ222古代至近代作品(~1919年)Ⅰ226当代作品(1919~1949年)Ⅰ227现代作品(1949年~)Ⅰ227.1自由诗Ⅰ227.2抒情诗Ⅰ227.3叙事诗Ⅰ227.7格律诗Ⅰ227.8词Ⅰ227.9其他国际专利分类法(InternationalPatentClassification,IPC)结构:部大类小类组一级类目。一个字母。(八部)A:生活需要(农、轻、医)B:作业、运输C:化学、冶金D:纺织、造纸E:固定建筑物(建筑、采矿)F:机械工程;照明;加热;武器;爆破G:物理H:电技术二级类目两个数字三级类目一个字母C04B35/00主组C08F210/16小组斜线(/)之前规定最多三位数斜线之后最多为五位数国际专利分类法符号X,为暂时无法归类的新类的标记比如:B01G/00X。符号//发明情报与附加情报之间的区分括号(),表示补充类号发明情报:与专利申请所要求保护的技术主题直接的内容,是以权利要求书为主确定的技术特征。附加情报:对发明情报进行限定的从属权利要求中内容,但没写入权利要求书中的有检索意义的内容完整的IPC:发明情报//附加情报(补充情报)完整的IPC号码C08F210/16、255/04//A61K47/00、C09J151/06(C08F210/16,214:06)(C08F255/04、214:06)C08F210/16乙烯与α-链烯的共聚物,如乙丙橡胶C08F255/04接到乙烯—丙烯共聚物上的高分子化合物A61K47/00以所用的非有效成分为特征的医用配制品,C09J151/06接枝到只含有1个碳—碳双键的脂族烃的均聚物或共聚物上C08F214:06氯乙烯(C08F210/16,214:06)含氯的乙烯与α-链烯的共聚物(C08F255/04,214:06)信息检索的基本方法2.1信息检索的基本原理2.2检索途径2.3检索语言2.3.1分类法中国图书分类法国际专利分类法2.3.2主题法2.4检索方法2.3.2检索语言—主题法主题法的类型概括主题词的一般方法主题法的类型主题法是指直接以表示文献或信息主题的语词作标识,提供字顺检索途径,并主要采用参照系统揭示词间关系的标引和检索文献的方法。主题法一般分为:标题法、单元词法、叙词法、关键词法关键词属于自由词凡是能概括文献主题或读者需求的、有检索意义的实词都可以作为关键词;没有词表,不是受控制词;适应计算机检索需要;全文检索技术的实现。检索语言—主题法主题法的类型概括主题词的一般方法概念转换的方法复杂概念分析方法主题词替换方法概念转换的方法适于用固定词组表示检索需求的情况概念比较单一的文献需求单字段检索适于用逻辑组配表示检索需求的情况用单词表示复杂的概念逻辑与组配检索通用的专称、术语经济危机、万有引力复合的概念(字面分解后会产生歧义或是失去了检索意义)剩余价值、猎户星云复杂概念分析方法“最小概念原则”弥雾喷粉喷烟机划分成具有交叉关系的并列概念食品的低温贮藏划分成主体概念和限定概念环境污染取样分析液压系统油泵日本电子工业钛合金管超音速飞机空气动力学弥雾机喷粉机喷烟机食品贮藏低温贮藏主题词替换方法同义词、近义词计算机→电脑客运→旅客运输上位词(概念扩大)计算机键盘→键盘下位词(概念缩小)信息检索→计算机检索概括课题主题时的注意事项注意主题概念中含有而课题字面上没有直接表示出来的概念,这些概念可能是用同义词、近义词或具有从属关系的词表示的。注意同一概念可能用不同语词表示的情况。名牌、商标我国、国内如:中国市场的品牌效应检索语言主要特点分类语言主题语言以学科和专业集中文献能将不同学科的信息集中到一起适宜族性检索适宜特性检索信息检索的基本方法2.1信息检索的基本原理2.2检索途径2.3检索语言分类法主题法2.4检索方法顺查法:按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。倒查法:倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。引文法:利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献。交替法:先利用常规检索工具找出一批有用文献,然后利用这些文献所附的引文进行追溯查找,由此获得更多文献。2.4检索方法引文法CitedReferences越查越旧20001998200119932003TimesCited越查越新RelatedRecords越查越深200320041999200219942004Citing课题如何起源、修正、变迁、发展。该课题的演变、最新进展。从一篇高质量的文献出发……引文检索作用发现有谁在引用你的研究,以及你的工作对全球研究界的影响找到某个重要理论或概念的开创性研究衡量同事或竞争者工作的影响跟随当今最热门的想法和概念的思路、方向确定某个理论是否已被证实、更改或改进找出一个基本概念是如何被应用的在几年间的研究文献中追踪某个题目验证参考文献的准确性找出在标题或主题检索中遗漏的相关文章信息检索的基本方法2.1信息检索的基本原理2.2检索途径2.3检索语言分类法主题法2.4检索方法2.4.1数据库检索的基本流程2.4.2检索技术2.4.3课题检索步骤2.4.1数据库检索的基本流程选择数据库选择检索途径输入单个检索词输入组配表达式显示命中的文献数和题录显示文摘或全文反馈信息检索的基本方法2.1信息检索的基本原理2.2检索途径2.3检索语言分类法主题法2.4检索方法2.4.1数据库检索的基本流程2.4.2检索技术2.4.3课题检索步骤2.4.2检索技术布尔检索限制检索全文检索检索技术—布尔检索1.逻辑与表示两个检索词的交集用以缩检,减小范围或是提高查准率AANDB;A*B注意:AB概念等同的词从属概念的词不相邻的词检索技术—布尔检索2.逻辑或用于组配具有从属关系和等同关系的词提高查全率,降低漏检率。属扩大检索。AORB;A+B同义词异形同义词缩写和全称商品名、俗名、学名英文同根词AB检索技术—布尔检索3.逻辑非用以排除不希望出现的检索词缩检,提高查准率A-B;ANOTB例如:查找“上海地区的大学但不包括医学院”AB上海*(高等院校+大学+学院)-医学院检索技术—布尔检索注意事项针对存在整体和部分关系的检索如果检索词涉及到表达整体的概念,就要针对具体情况分别列出每一个表达部分概念的检索词,否则将出现漏检。OR逻辑处理原则:“检索关于欧洲能源问题的文献”欧洲AND能源但欧洲无法代表英国、法国、意大利等能源也无法代表煤、石油、天然气等(欧洲OR英国OR法国OR意大利OR…)AND(能源OR煤OR石油OR天然气OR…)检索技术—布尔检索注意事项∵如果两个关系紧密的检索词同在一检索逻辑中,对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。例如:(计