第二章 信息检索的原理与方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章信息检索的原理与方法信息检索的定义信息检索的类型信息检索的原理检索语言检索途径信息检索系统的类型信息检索定义(1)广义:分信息存储和信息检索两个过程信息存储:将信息中具有检索意义的特征标识出来,按一定方式组织和存储起来,形成检索工具或系统。信息检索:根据信息特征,利用检索工具或系统查找所需信息的过程。(2)狭义:指广义信息检索的后一过程,即信息查询过程。信息检索类型根据检索对象的不同,信息检索可归纳为三方面:数据检索(dataretrieval)事实检索(factretrieval)文献检索(documentretrieval)数据、事实检索数据检索:以数据为对象的检索。如数学公式、数据图表、某种材料的成分性能等。数据的概念是广义的,不仅指数值性数据,还包括方程、分子式、图像和流程图等。使用参考工具书:字典、词典;百科全书;年鉴、手册;名录、书目指南等。如:查找2004年中国工业经济总产值2006年全国研究生招生数量数据、事实检索事实检索:以特定的事实为检索对象。如某一事物发生的时间、地点、参与人员及过程,某类产品产自哪个国家哪个厂家、哪个品牌最好,某个机构的状况等。使用参考工具书:字典、词典;百科全书;年鉴、手册;名录、书目指南等。如:“有哪些海外华人得过诺贝尔奖?”第一届奥运会在哪个城市召开,有多少个国家参加比赛,产生了多少枚奖牌等等?综合性(中文、外文)字典、词典百科全书年鉴、手册名录、指南专业性(中文、外文)字典、词典百科全书年鉴、手册名录、指南按收录内容按语种按功能和编排方法数据、事实检索参考工具书的分类数据、事实检索字典:专门解释文字的声音、意义、形体结构极其用法的工具书。词典:专门解释词汇的概念、意义及其用法的工具书。释义辞典对照辞典缩略语辞典数据、事实检索百科全书英文名为“Encyclopaedia”,是汇萃人类一切知识门类或某一知识门类的概述性著作,集各类工具书之大成,被称为“工具书之王”,“知识的小宇宙”、“没有围墙的大学”。百科全书不仅能回答是什么,还能回答怎么样、为什么、何时、何地。数据、事实检索《中国大百科全书》:中国第一部大型综合型百科全书,15年编撰完成,共74卷。世界最著名的百科全书(百科全书A、B、C):《新不列颠百科全书》EB《美国百科全书》EA《科利尔百科全书》EC数据、事实检索年鉴:almanac一般为综合性年鉴,yearbook为专科年鉴,但实际上彼此并无严格区别。年鉴是一种按年编纂出版的参考工具书,它汇集了一年之内的新闻、事件、数据和统计资料,按类编排。数据、事实检索特点:可靠性、统计性、新颖性、连续性、知识性、趣味性、检索性种类(按性质分为3类):1.综合性年鉴2.专业性年鉴(专科性年鉴)3.统计性年鉴数据、事实检索手册英文名为“manual”或“handbook”,其含义是置于手边可以方便参考的一种图书,它是某一范围内基本数据资料的汇编,其内容通常是简明扼要地概述某一专业或某一方面的基本知识以及一些基本的公式、数据、规章、条例等。数据、事实检索1、数据性手册:汇集各种数据、资料与计算公式,按表格的形式分类编排,主要用于查找数据。2、条目性手册:其著录形式是条目或文摘形式,按事物名称字序排列,用于查找产品的结构、性质、制备工艺、用途、规格等。数据、事实检索3、图表性手册:主要是图的汇集,如光谱图、结构图、流程图、通过图来了解事物的结构、过程、性能等。4、综合性手册:用文字、图表、表格、公式等相结合的形式对其有关领域内的基本知识原理、概念和方法加以简单叙述。它一般按类编排,书后有索引。数据、事实检索名录、指南,是提供有关专名(人名、地名和机构名录等)简要工具书,内容涉及比较广泛。可从中查找关于人物生平、机构组织和某一行政区划沿革等信息。文献检索文献检索:以文献为对象的检索。凡是查找某一课题、某一事物、某一作者、某一机构等的有关文献以及查找这些文献的来源均为“文献检索”。主要利用目录、文摘、索引(题录)类检索工具。文献检索1、查找天津工业大学图书馆是否有新概念英语第三册教师用书,是否可借,去哪里借?2、查找多媒体英语教学方面的文献资料。数据检索、事实检索与文献检索的不同:检索对象不同:数据检索、事实检索给出直接、确定性的检索结果;文献检索是间接的、相关性检索,给出来源文献的线索,指引原始文献。采用工具不同:数据检索、事实检索采用参考工具;文献检索采用检索工具。信息检索的作用1.信息检索是科学决策的依据2.继承和借鉴前人的成果,启迪创造性思维,实现创新3.避免重复劳动,减少浪费4.不断拓宽知识面,改善知识结构5.节省查找文献的时间,提高工作效率信息检索的原理1.文献信息存储过程:将大量分散的文献信息搜集起来,根据其内容特征或外表特征进行标引,形成表征这些文献信息的特征标识,并存储在一定的载体上,成为有查询功能的检索工具。标引:对文献内容特征和外部特征进行分析形成概念标识,再依据一定的标准或规则(检索语言:如分类号、主题词、关键词及著者选用规则等)将其用相应的标识充分、准确地表达出来。2.文献信息检索过程:用户根据自己的信息需求,提出检索提问,然后使用有关的标引语言(也称检索语言)将拟定的检索提问规范成检索标识,用于检索的过程。检索语言描述文献信息特征和表达检索提问的人工语言。检索语言在标引和检索过程中的作用见下图:检索语言的定义:采用某种约定的语言把文献信息的存贮与检索联系起来,把标引人员与检索人员联系起来以便取得共同理解的语言,称为检索语言。检索语言分类检索语言分类检索语言分类2、按结构或原理,可分为分类语言、主题语言、代码语言和引文语言分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排。分类语言包括等级体系分类语言(体系分类法)和分析一综合分类语言(组配分类法)。它们统称为分类法系统。主题语言是采用表达某一事物或概念的名词术语,用于标引、存储、检索分类语言文献内容按学科性质进行划分,用分类号表达各个学科概念,按分类号顺序排列与检索。各级类目都一一列举,事先予以固定组配,每一级类目都用一定的标记表示,这个标记就是分类号。分类号连同它的类目一起构成了分类表。这一套号码便称为分类语言。分类语言有上位类、下位类、同位类这样的关系。用分类号来表达文献主题内容的一种人为的间接性的检索语言。中图法除《中图法》外,国内在很长一段时间使用的比较知名的图书分类法还有《科学院图书馆分类法》和《人民大学图书馆分类法》。国外常用杜威十进分类法(DeweyDemicalClassificationandRelativeIndex)和美国国会图书馆分类法(LibraryofCongressClassification)。《中国图书馆分类法》,简称中图法,分五大部22大类。两个学院(材料和电子)把图书按其学科属性及其他特征对其进行划分,并分门别类系统地把其组织起来的一种方法。实现将内容相近的书类集到一起,将内容不同的书区分开,并使其排列有序,便于管理和查找。A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D-K社会科学各学科N自然科学总论O-X自然科学各学科Z综合性图书I文学I2中国文学I24小说I247建国后作品I247.4章回小说I247.5新体长篇、中篇小说I247.7新体短篇小说I247.8故事、微型小说I25报告文学★排列顺序时,上位类在前,下位类在后,同位类按类别的序列排列,也就是字母顺序或数字大小。逐位比较如TP11TP112TP13TP21如G252.7TS190.6/9G252.8Z3:3TS1/17TS114.8G25排序为:?G25G252.7G252.8TS114.8TS190.6/9Z3:3TS1/17种次号:H319.4/655(2)G252.7/29Z3:3G25/2G254/2-2Z3:3TQ/5-3种次号按数字大小排,如TP11/5TP11/15TP11/25分类号中的卷次号:“()”、“—”先排卷数,再排版次。如,H31/35H31/35(2)H31/35—2同类书?中图分类号种次号卷次号★对于综合性图书,采用组配方法表示其分类号,如:Z3:TS19染整专业方面的词典采用中图法进行排架的原则:★排架时从左到右★同一个书架,从上到下★同一层书架,从左到右Z字形排列请按图书排架规则找出先后次序用《中国图书馆图书分类表》查询“大学英语四级20天综合技能冲关快训”此书的分类号(H310.42)百度(中国图书馆图书分类号查询)H(语言、文字)H3(常用外国语)H31(英语)H310.4(英语水平考试)H310.42(中国)用《中国图书馆图书分类表》查询“大学英语四级20天综合技能冲关快训”此书的分类号(H310.42)百度(中国图书馆图书分类号查询)H(语言、文字)H3(常用外国语)H31(英语)H310.4(英语水平考试)H310.42(中国)国际专利分类表(IPC)(InternationalPatentClassification)IPC自1968.9.1生效后,每五年修订一次,其版次表示为:(以第五版为例):IPC5或int.Cl5(1990.1.1~1994.12.31国际外观设计分类表IPC的基本结构是按部(section)、分部(sub-section)、大类(class)、小类(sub-class)、组(group)、分组(sub-group)逐级分类的,从而构成一个完整的分类系统。IPC将世界专利技术领域分为8个部,分别用A~H八个字母表示:A人类生活必需(农、轻、医)B作业:运输C化学;冶金D纺织;造纸E固定建筑物(建筑、采矿)F机械工程;照明;加热;武器;爆破G物理H电技术查询“一种中空纤维织物”的IPC用百度查“IPC国际专利分类(找到最新版本的IPC电子版)D01F1/103主题语言是一种描述性语言。用词语直接表达文献概念,将这些词语按字顺排列,并使用参照系统来间接表达各概念之间的关系。用主题词来表达文献主题内容的一种直接性的检索语言。主题语言主题语言是采用规范化或不规范化的自然语言作为文献资料内容的标识符号。这种检索标识表达概念比较直接,便于检索,同时不受体系的约束,增删灵活。主题语言根据文献中研究对象的主题集中文献,把同一主题的文献用字顺集中,同一学科的文献可能分散到不同的主题词标题下。主题语言可以直接采用新的事物名称为主题反映边缘学科、交叉学科和新技术等,同时对具有复合主题文献的表达比较直观。主题检索语言的类型1.标题词语言:标题词表的利用2.单元词语言3.叙词语言:概念组配是叙词语言的基本原理4.关键词语言:直接选用自然语言,基本上不作规范化处理的一种检索语言Theeffectofthermalagingontensilestrengthofthree-dimensionandfive-directionbraidedcarbonfiber/BMIcompositesGuo,Qiwei(KeyLaboratoryforAdvancedTextileComposites,MinistryofEducation,TianjinPolytechnicUniversity,Tianjin300160,China);Li,Jialu;Zhang,Guoli;He,Yehong;Zhang,Ming;Chen,LiSource:AdvancedMaterialsResearch,v150-151,p1139-1142,2011,AdvancesinCompositesEI题录记录汉语主题词表主题检索语言的特点主题检索语言与分类检索语言相比,具有明显的优点1.专指性高2.直观性好3.灵活性强检索途径◊反映文献外表特征的途径●文献名称途径●著者姓名途径●文献代码途径◊反映文献内容特征的途径●分类途径●主题途径●分子式途径检索途径文献名称途径文献名称包括图书书名、期刊刊名、篇名等,是根据书名、刊名等的字顺进行检索的检索工具或系统。检索途径著者姓名途径根据著者姓名字顺

1 / 92
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功