第二章信息检索基础理论.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章信息检索理论与技术第一节信息检索系统第二节信息标引及检索原理第三节检索语言第四节检索技术第五节检索途径与步骤第一节信息检索系统一、信息检索系统的概念与类型二、书本式检索系统三、计算机检索系统四、检索系统的质量评价一、信息检索系统的概念与类型1.信息检索系统的概念信息检索系统是一类具有信息存储和检索功能的信息服务设施2.信息检索系统的类型按使用设备书本式检索系统卡片式检索系统缩微式检索系统计算机检索系统书本式检索系统又称检索工具检索工具是用来报道文献、存储文献和提供查找文献线索的工具检索工具的类型按著录方式分:﹡目录型﹡题录型﹡文摘型(1)、目录型检索工具目录——以单位出版物为著录对象,主要揭示出版物的外表特征。著录格式:西葫芦、南瓜高产栽培与加工技术/李海真等编著.-北京:中国农业出版社,2003.03.-242页;19cm.-ISBN7-109-07770-5:¥12.00书名编者出版地、出版者出版年月总页数规格国际标准书号价格目录的种类⑴馆藏目录①分类目录——依据分类法组织而成的目录②书名目录——按书名字顺组织起来的一种目录③著者目录——按著者姓名或名称字顺组织起来的目录④主题目录——按主题标识字顺组织排列的一种目录⑵联合目录⑶国家书目⑷出版社与书店目录(2)、题录型检索工具题录——以单篇文献为著录对象,主要描述文献的外表特征。著录格式:031007529铲式精播打穴播种机结构参数的设计/李成华(沈阳农业大学,110161);赵凤琴;夏建满等//农机化研究(哈尔滨).-2003,(2).-124-126题录号题名著者及工作单位刊名出版年、期、页(3)、文摘文摘——以单篇文献为著录对象,既描述文献的外表特征,又描述文献的内容特征。著录格式:题录+摘要20034168辽沈Ⅰ型日光温室的建造/刘文合(沈阳农业大学水利学院),王铁良…//温室园艺.-2003,(1).-21~22为使辽沈Ⅰ型日光温室实现正常年份冬季不加温可越冬生产耐低温蔬菜的目标,施工时应注意以下关键环节…题录文摘2、检索工具的结构(1)、编辑与使用说明(2)、目次表和主题词表(3)、正文部分(4)、辅助索引(5)、附录部分(1)、编辑与使用说明(2)、目次表和主题词表(3)、正文部分(4)、辅助索引(5)、附录部分3、索引(INDEX)(1)、索引的定义(2)、索引的结构(3)、索引的类型(1)、索引的定义将图书、报刊、资料等文献中的一些重要的、有价值的知识单元,如人名、题名、分类号、主题词等,根据需要分别摘录出来,并注明它们所在的地址(页码或文献号),再按一定的顺序排列组织起来,附在检索工具之后,或单独编辑成册,称为索引。(2)、索引的结构喷灌春小麦产量干旱地区土壤水分20031331冬小麦节水优化20032372径流量水土流失预测模型20033380…喷灌机大型适应性中国20033298喷灌技术喷灌系统20031346…标目说明语存储地址Microcomputers(see:computers)Computersoftware(seealso:expertsystems)“参见”参照“见”参照索引款目参照系统标目注释参照系统——连接相关标目的媒介物等义参照(直接参照)——see如:SouthKorea(see:KoreaRepublic)用于同义词之间、旧名与新名之间、缩写与全称之间、俗名与学名之间…see后面的词为标题词相关参照(间接参照)——seealso如:Drainage(seealso:subsurfacedrainage;surfacedrainage)指示其他相关标题词(3)、索引的类型⑴著者索引——以著者为标目,按著者名称字顺排列。⑵主题索引——以主题词为标目,按主题词字顺排列。⑶分类索引——以分类号或类目的名称为标目,按分类顺序排列的索引。⑷题名索引——以题名为标目,按题名字顺排列。⑸专用索引——分子式索引、地名索引、报告号索引、专利号索引…著者索引主题索引分类索引界门纲科属3.计算机检索系统计算机检索系统由:计算机检索软件(指令、程序或程序组)计算机硬件(主机、外围设备)数据库(信息源)数据库的类型•文献型数据库•非文献型数据库全文数据库书目数据库数值型数据库事实型数据库图像数据库概念数据库数据库结构字段记录顺排文档倒排文档数据库检索工具结构著录项目著录款目检索工具正文索引文档字段记录主要字段TI——题名AU——著者SO——出处JN——刊名PY——出版年AB——文摘DE——主题词LA——语种AN——记录号IS——国际标准书号、期刊号DT——文献类型AD——著者单位CL——分类主要字段英文题名作者作者单位出处语种出版年文摘(1)文献检索系统书目检索系统全文检索系统超文本检索系统存储关于文献外表、内容特征的一般描述性信息。如引文、文摘。也称为二次文献检索系统,如CABI、Agris、Agricola等。存储原始文献的全文信息。包括题名、著者、摘要、关键词、正文、参考文献和著作日期全部数据。主要用于检索网络信息资源,如网络信息检索工具搜索引擎。第二章第一节信息检索系统计算机检索系统的类型以事实为检索对象的非文献型检索系统提供有关人物、机构、地域、事件等事实信息。如人物传记数据库、机构名录数据库、万方《中国企业与产品数据库》、电子形式的百科全书、年鉴、手册、名录。(2)事实型检索系统第二章第一节信息检索系统以数据形式记录物质、材料等实物的特性、参数、常数、价格等。如人口数据库、商品价格数据库、世界粮农统计数据库。(3)数值型检索系统第二章第一节信息检索系统存储和检索各种图像或图形及有关说明文字资料。(4)图像检索系统(5)多媒体信息检索检索主题的“全方位”信息分为基于文本方式的多媒体信息检索;基于内容特征的多媒体信息检索第二章第一节信息检索系统四、检索系统的质量评价1、检索工具收录文献的齐全情况2、摘录及标引的质量3、索引完备情况4、报道时差5、使用方便情况第二节信息标引及检索原理一、信息标引二、检索原理一、信息标引的类型及作用1、信息标引的含义在信息处理过程中,将文献的内容特征和外部特征转换成检索标识,即对有检索价值的特征信息,例如题名、作者、主题内容、类别等进行提取与标识,并组织成索引文档,为用户的查询和访问提供准确而有效的检索入口。标引——给出信息标识地下水土壤水动态变化井灌区S152.7分类号主题词2、信息标引的类型分类标引——赋予信息分类号标识的标引过程主题标引——赋予信息主题词标识的标引过程按标识的形态和性质分按标引手段分人工标引自动标引(1)标引深度(网罗度)详尽程度——网罗度越高,有利于提高查全率(2)标引专指度精细程度——专指度越高,有利于提高查准率3、信息标引的质量二、检索原理匹配命中信息提问标识存储标识原始信息标引检索工具标识匹配存储标识检索标识标引信息需求检索语言命中信息检索者存储过程检索过程第三节检索语言一、检索语言的含义及作用二、检索语言的类型一、检索语言的含义及作用检索语言的含义检索语言的作用把文献信息的存储与检索联系起来,把标引人员与检索人员联系起来以便取得共同理解的语言,就叫检索语言。检索语言就是根据检索需要而创造的一种人工语言。检索语言的含义保证检索语言的作用1、存储的一致性2、检索与存储的一致性3、使分散的信息系统化4、获得最高的查全率和查准率二、检索语言的类型及特点检索语言分类检索语言主题检索语言代码检索语言标题词语言叙词语言关键词语言1、分类检索语言是用分类号和类名来表达信息的主题概念。以科学分类为基础,运用概念划分的方法,将知识按一系列的标准和逻辑规则进行层层划分,形成一个严格有序的直线式的知识门类等级体系。构成原理体系分类表◆马克思主义、列宁主义、毛泽东思想、邓小平理论◆哲学◆社会科学◆自然科学◆综合性图书C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书S1农业基础科学S2农业工程S3农学(农艺学)S4植物保护S5农作物S6园艺S7林业S8畜牧、动物科学、狩猎、蚕、蜂S9水产、渔业《中国图书馆分类法》S11农业数学S12农业物理学S13农业化学S14肥料学S15土壤学S157水土保持X1环境科学基础理论X2社会与环境X3环境保护管理X4灾害及其防治X5环境污染及其防治X7废物处理与综合利用X8环境质量与环境监测X9安全科学体系分类表T工业技术X环境科学TH机械、仪表工业TK能源与动力工程TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TU建筑科学TV水利工程体系分类表U交通运输U1综合运输U2铁路运输U4公路运输U6水路运输41道路工程44桥涵工程45隧道工程46汽车工程48其他道路运输工具49交通工程与公路运输技术管理TS轻工业、手工业TS2食品工业TS20一般性问题TS22食用油脂加工工业一般性问题TS27饮料冷食制造工业TS29罐头工业TS20一般性问题TS201基础问题TS202食品原料及添加剂TS205食品加工与保藏TS206食品包装学TS208食品加工厂TS209食品工业副产品加工与利用分类检索语言的特点按学科专业集中相关文献体现了学科的系统性从知识分类的角度揭示文献信息之间的区别与联系提供从学科专业领域检索文献信息2、主题检索语言构成原理是以主题词来表达信息主题概念的语言。利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内容的主题词主题检索语言的特点按特定事物集中文献信息,有较强的直观性按标识的特点和原理标题词语言叙词语言关键词语言标题词(1)标题词语言经过规范化代表文献的主题概念对同义词进行优选对词的不同形式进行归一对近义词进行合并对多义词进行注释对简称进行补全对俗称进行引见对自然语言的优选主标题词——起主导作用多为表现实物、材料、结构、理论、现象、工艺、过程等概念的词副标题词——起说明或限定作用多为表现主标题词某一方面内的词BRIDGESConstructionDrainageInspection(2)叙词语言﹡规范化词﹡单元词叙词叙词表——叙词款目片段选自《汉语主题词表》玉米YumiCornMaizeZeamaysD包谷玉蜀黍F马齿玉米甜玉米硬粒玉米S禾谷类作物Z作物C杂种优势Zuowu作物CropCropplantD大田作物农作物F豆类作物禾谷类作物经济作物…Zazhongyoushi杂种优势HeterosisHeteroticvigorHybridvigorC高粱黄瓜玉米杂合性杂种一代自交…禾谷类作物玉米作物马齿玉米甜玉米硬粒玉米包谷玉蜀黍杂种优势上位词上位词下位词相关词非叙词叙词法的特点后组式检索语言,可达到概念的灵活组配完善的参照系统,可扩检和缩检用词表达主题概念,满足特性检索①提高查全率②提高查准率③进行多途径检索(3)关键词语言文献题目、摘要或正文中具有实质意义的词关键词关键词语言的特点适于编制机检系统用户使用起来方便灵活关键词是未经规范化或少量规范化的自然语言查全率、查准率受到影响3、代码检索语言构成原理将元素符号、分子式、专利号、标准号、报告号、合同号、化合物登记号等符号代码作为标引和检索标识,编制专用索引。一、布尔检索二、截词检索三、位置检索四、限定检索五、加权检索第四节检索技术第二章一、布尔检索采用布尔逻辑与、或、非等运算符对检索词进行组配,形成检索提问式。•逻辑与(and或*)•逻辑或(or或+)•逻辑非(not或-)布尔逻辑检索A*BA+BA-B布尔逻辑检索AND(逻辑与)OR(逻辑或)NOT(逻辑非)例:environmentANDhealth表示检索同时提及“environment“和”health“的文章例:maizeORsoybean表示检索提及maize或soybean或两者都提及的文章例

1 / 100
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功