计算机信息检索基本概念及理论

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

绪论1.学习信息检索的目的加强信息素质的培养(信息素养)•信息意识:一个人对信息活动的自觉认识和反应。•信息知识:了解检索的基本知识,熟悉信息源,熟悉常用数据库•信息能力:掌握信息检索技巧,会利用文献源获取信息,学会加工获得的信息、利用信息•信息道德:人们在信息活动中应遵循的道德规范和法律法规等学会信息检索方法和技巧“授人以鱼不如授人以渔”信息知识是基础信息意识是动力信息能力是核心信息道德是准则2.信息检索的意义和作用通过信息检索知识的系统学习,明确潜在信息需求,才能对特定信息具有敏感的心理反应。信息检索是创新人才必备的基本技能。信息检索是科学研究的重要环节。信息检索是开发信息资源的有效途径。信息检索是科学决策的前提。与时俱进,跟踪学术最新动态;节省科研时间,提高工作效率;避免重复研究;促进科技创新。3.信息检索发展的历史–手工检索阶段•西汉,刘向《别录》、刘歆《七略》•梁启超《西学书目表》•1949年,《全国总书目》创刊–计算机检索阶段•机编文献目录阶段——起源20世纪60年代中期,美国国立图书馆利用计算机出版了MEDLARS(MedicalLiteratureAnalysisandRetreivedSystem)数据库•国际联机检索阶段20世纪60年代末•光盘检索阶段20世纪70年代(1983,美国人BelaHatvany)中国自建数据库,1992年《中国科技期刊篇名数据库》•网络信息检索阶段第一章信息检索概论主要内容1.1信息、知识、情报与文献1.2检索语言与信息检索1.3检索工具和检索系统1.4检索提问式的制定1.5信息检索策略与技巧1.1信息、知识、情报与文献一、信息(information)1、信息的概念与特征古波斯人设置“喊话站”古罗马人“悬灯”我国远古时代“结绳记事”殷商“烽火告警”……古代信息活动梦断美人沉信息,目穿长路倚楼台。——唐·李中《碧云集·暮春怀故人》欲传春信息,不怕雪埋藏。——南宋·陈亮《梅花》“惟以侦探信息为要。”——康熙34年•信息的概念信息是客观事物运动状态、时空关系、系统特征、相互关联方式等一切反映事物客观属性的总称。从人的主观认识角度看,信息是储存在人脑中的知识、思想、观念等。•信息的特征时效性、传递性、可扩散性、可扩充性、可替代性、共享性2、信息的类型(1)按照信息的存储载体形态分类印刷型、缩微型、声像型、电子型(2)按照信息发表时载体形态的特点分类图书、期刊、会议论文、学位论文、科技报告、专利文献、标准、政府出版物等图书图书是指内容比较成熟、资料比较系统、有完整定型的装帧形式的出版物。(ISBN)期刊那些定期或不定期出版、汇集了多位著者论文的的连续出版物。(ISSN)会议文献指国内外学术团体在专业会议上发表的论文与报告。特点:传播信息迅速、反应学科或专业的最新科研成果和发展水平动向。专利文献通常指专利发明人向专利局递交的说明自己发明创造的技术文件,包括专利说明书、专利公报、商标、设计公报等,也包括专利检索工具。特点:技术性、新颖性、独创性、实用性。科技报告是科研院所对某课题进行研究的成果报告和研究记录,特点是理论性强、专业性强、研究内容详细深入,保密性强。政府出版物是各国政府机构及其附属机构出版的文献信息,主要是一些会议记录、外交文件、统计数据,其他如学位论文、标准文献、企业出版的的产品技术说明……•正式出版的图书都冠有ISBN(国际标准图书编号internationalstandardbooknumber)•ISBN7-5013-1289-3定长为10位数,分为四个部分,7:地域号(国家,地区,语言区),例如7指中国,0和1指英语国家,2指法语区,3指德语区,4指日语区等5013:出版社代码1289:书序码3:计算机校验码关于ISBN•根据国际标准ISO3297制定的连续出版物国际标准编码,连续出版物国际性的唯一代码标识。•由8位数字组成。8位数字分为前后两段各4位,中间用连接号相连,格式如下:ISSNXXXX-XXXX•前7位数字为顺序号,最后一位是校验位。关于ISSN•ISSN由设在法国巴黎的国际ISDS中心管理。1975年起建立世界性的连续出版物标准书目数据库,目前已有近200个国家和地区出版的65万种期刊(包括已停刊的)登记入库,成为国际上最权威的期刊书目数据网络系统。•我国于1985年建立了ISSN中国分中心(设在北京图书馆),负责中国期刊ISSN号的分配与管理,目前已有近5000种中文期刊分配了ISSN号并进入了国际ISSN数据系统。ISSN通常都印在期刊的封面或版权页上。(3)按照信息加工程度分类•零次信息(Non-printedSources)灰色信息,非公开出版物的总称。如语音交流或书信、情书等。•一次信息(PrimarySources)专著、期刊论文、科技报告、会议论文、专利说明书、学位论文。•二次信息(SecondarySources)印刷型的书目、索引、文摘或电子型的文摘索引类数据库及全文数据库的检索软件•三次信息(TertiarySources)综述、述评、进展报告、学科年度总结等二、知识知识是人类对客观世界的认识,是实践的总结。三、情报一是指“以侦察手段或其它方法获得的有关敌人的军事、政治、经济等各方面的情况,以及对这些情况进行分析研究的成果,是军事行动的重要依据之一”;二是“泛指一切最新的情况报导”。情报是对人的决策提供支持或是能够影响人的知识结构的信息和知识的总称,是被激活的知识和有决策价值的信息。四、文献(literature)文献是记录有知识和信息的一切载体。科技文献:是记录下科学技术信息或知识的载体。文献的基本要素•知识信息内容:文献的核心与灵魂。•信息符号:揭示和表达知识信息的表示符号,如文字、图形、数字、声频视频等。•载体材料:是记录知识信息符号的物质材料,如龟甲兽骨、纸张、胶片胶带、光盘磁盘等。五、信息、知识、情报、文献的关系–信息是情报和知识的原材料。–知识是信息的深化和系统化,二者既密切相关又有所区别。–情报是信息和知识的最终产品。–文献是信息、知识的记录,是可以检索、传播、使用的信息和知识的载体。一、检索语言1、检索语言的概念检索语言也称标识语言,标识系统。检索语言是信息存储和信息检索过程顺利进行的语言保障,它沟通文献存储和检索两个过程,沟通标引人员和检索人员双方的思路,是编制检索工具的依据,是信息存储及检索系统用以表达文献主题概念的人工语言。1.2检索语言与信息检索2、检索语言的特征检索语言是连接情报用户、情报人员及信息资源的非常重要的一环,因此具有鲜明的特征:(1)必须具有必要的语义和语法规则;(2)必须具有表达概念的唯一性;(3)必须具有将检索标识和提问特征进行比较和识别的方便性。3、检索语言的分类(1)按照描述文献的特征,可分为描述文献外表特征的检索语言和描述文献内容特征的检索语言。篇名(题目)著者名称文献序号引用文献描述文献外表特征描述文献内容特征检索语言分类语言主题语言代码语言等级体系分类语言组配分类语言标题词语言关键词语言单元词语言叙词语言分子式索引结构式索引专利号索引等(2)按照标识的性质与原理划分,可分为分类语言、主题语言、代码语言和引文语言。分类语言即把表达文献信息内容和检索课题的大量概念按照所属学科进行分类和系统排列,成为基本反映通常科学知识分类体系的逻辑系统,并用号码(分类号)来表示概念及其在系统中的位置,甚至还表示概念与概念之间关系的检索语言。国内:《中国图书馆分类法》国外:《杜威十进制分类法》《国际十进制分类法》《中国图书馆分类法》简称《中图法》,它是以学科内容性质为对象,按知识门类的逻辑次序从一般到具体层划分所形成的一种分类体系。1975年科学技术文献出版社出版第一版,到1999年《中图法》已进行四次修订。《中图法》由字母和数字组成分类号,把所有文献分为5大部分,22大类:•1、马克思主义、列宁主义、毛泽东思想:A•2、哲学B•3、社会科学C—K•4、自然科学N—X•5、综合类图书Z《中国图书馆分类法》22大类主题语言是一种选自自然(规范化)的直接性的检索语言,包括两个内容:一是指表达文献内容特征的、经过规范化了的名词术语(包括词组和短语);二是指把这些名词术语按字顺排列成主体记号表或标题词表,以此作为规范化词标引和检索文献的工具。主题语言根据选词原则、组配方式、规范方法等,主题语言可分为标题词语言、关键词语言、单元词语言和叙词语言。•关键词语言以关键词作为信息标识和检索依据的主题语言。关键词没有固定的词表,因为对于同一个事物的概念,不同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有经过规范化的自然语言词汇。•单元词语言以单元词作为文献标识和检索依据的语言,单元词一般都是从文献中抽选出来的,从字面上不可再分割的最基本的概念单元词汇。•标题词语言以标题词作为信息标识和检索依据的主题语言。标题词是来自于自然语言中比较定型事物的名称,经过规范化的处理后,能够表达主题内容的词、词组或短语。•叙词语言以规范化科学名词为基础的一种主题法检索语言,既适用于手工检索,又适用于计算机检索。叙词就是指从自然语言中优选出来的、经过规范化的名词术语。代码语言代码语言一般只是就事物的某一方面的特征,用某种代码系统来加以标引和排列。例如,化合物的分子式索引系统、环状化合物的环系索引系统、有机化合物的威斯韦塞尔现行标注法代码系统。引文语言引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。这种方法提供了从被引论文来检索引用它的全部论文的途径,从而顺着一种科学思想的发展过程线索找到有关信息。可以讲引文语言看作检索语言的一种特殊类型。二、信息检索1、概念狭义——信息的获取过程,相当于人们所说的信息查检等,根据用户的特定要求查找所需信息的过程。广义——包括信息存储和信息获取两个过程。信息存储指通过对大量无序信息的选择和收集、注录和标引等处理,建成各种信息检索工具或信息检索系统,使之成为有序化信息集合的过程;信息获取就是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。2、信息检索原理信息需求表达检索提问比较与匹配标引信息标识检索结果评价/反馈信息3、信息检索的技术手段•手工检索﹙manualretrieval﹚–开始于19世纪末。1876年召开的美国图书馆协会第一届大会上提出了正规的参考咨询工作概念。–手工检索是通过人工自己动手去查找,去对比检索标识和书本式检索工具(各种书本式目录、索引、文摘等)中的存贮标识的相符性,即通过“人书对话”来完成检索过程。–文献的查准率较高•计算机检索﹙computer-basedretrieval﹚–源于1954年美国海军兵器中心图书馆利用IBM701机开发计算机检索系统–计算机检索是通过计算机来模拟人的手工检索过程,由计算机来处理检索者的检索提问,将输入检索系统的检索提问(即检索标识)与系统文档(机读数据库)中的存贮标识进行类比、匹配运算,通过“人机对话”而检索出所需要的文献。–文献的查全率较高检索实例:非线性光学材料的制备(计算机检索)•检索词:非线性光学材料制备•检索结果:可能包含“非线性光学材料制备光学元器件”方面的文献,与本课题无关。•注意:主题分析,找出与课题相关的概念和属性,以防误检和漏检。在计算机信息检索过程中,计算机不具备人脑的思维能力,检索提问标识一经输入检索系统,便无法结合系统检索的具体情况修改标识;同时,检索提问与文献标识的组配完全是一种字面组配,即“字符串”的类比运算。这种字面上的组配,使检索出的文献记录只在字面上与检索提问标识保持一致,而在内容上或概念上就不一定符合用户的信息需求。1.3检索工具1、检索工具的定义检索工具是指用以报导、存储和查找文献线索的工具,是附有检索标识的某一范围文献条目的集合,属于二次文献。2、检索工具的类型(1)按文献著录的特点划分:目录题录文摘索引(2)按收录范围划分:综合性检索工具、专业性检索工具、单一性检索工具目录(Bibliography,

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功