《信息存储与检索》InformationStorageandRetrieval信息管理系徐晓芳副教授2013.2课程主要内容•第一章绪论•第一节信息与信息检索简介•主要介绍信息、信息检索、信息检索语言、检索工具及检索系统的定义;简单介绍信息检索的发展•第二节信息资源•第三节信息检索的类型•第二章信息检索的理论与基本方法•第一节信息检索语言与检索途径•(1)分类语言•(2)主题语言•(3)分类主题一体化语言•(4)代码语言•(5)引文语言1、内容特征检索途径(1)分类途径(2)主题途径(3)分类主题途径2、外部特征检索途径(1)责任者途径(2)题名途径(3)序号途径(4)引文途径•第二节事实数据信息的检索工具•一、字典、词典(辞典)•二、百科全书•三、手册•四、年鉴•五、名录•第三节文献检索工具简介•一、目录型检索工具•二、题录型检索工具•三、文摘型检索工具•第四节索引介绍•著者索引、主题索引(关键词索引)、分类索引、题名索引、其他索引•第五节计算机信息检索基础•第三章中文文献信息检索•《中国学术期刊数据库》(中知库)•《维普科技期刊数据库》•《万方资源数据库》•《中国资讯行》•《人大复印资料》•第四章外文文献信息检索•一、《EiVillage数据库》•EiCompendexWeb(EI网络版)•INSPEC是《科学文摘》(ScienceAbstracts,简称SA)的电子版,•专利(Patents):USPTOPatents为美国专利和商标局的全文专利数据库。•Techstreet标准(TechstreetStandards)世界上最大的工业标准集之一•Scirus是迄今为止因特网上最全面的科技专用搜索引擎二、ISIWebofKnowledge平台信息资源组成WebofScience(WOS)INSPECMEDLINEDerwentInnovationsIndexCurrentContentsConnectISIeSearchISTP(IndextoScientific&TechnicalProceedingsISSHP(IndextoSocialScience&HumanitiesProceedingsScienceCitationIndexExpandedSocialScienceCitationIndexArts&HumanitiesCitationIndexIndexChemicus(IC)CurrentChemicalReactions(CCR)3个引文数据库2个会议论文引文数据库2个化学数据库ISIChemistry•第五章Internet信息检索•第一节Internet概述•第二节Internet搜索引擎•搜索引擎搜索技术、网络信息检索技巧、•国内外综合型检索工具•第三节主要搜索引擎实验安排•《中国学术期刊数据库》(中知库)•《维普科技期刊数据库》•《万方资源数据库》•《中国资讯行》•《人大复印资料》•《EiVillage数据库》•WebofScience•Internet搜索引擎教学目的与要求•掌握文献信息、数字信息检索的基本原理和方法,了解国内外重要的文献检索工具和检索系统的特点、编排体例以及使用方法,较熟练地掌握几种工具和系统的检索方法和技巧,最终使学生能够达到利用检索工具查阅所需资料的水平,为以后从事相关工作打下基础。教材及参考书1、马景娣《实用信息检索教程》,浙江教育出版社,2004年2、叶继元《信息检索导论(第2版》,电子工业出版社,2009年3、王立清《信息检索教程(第2版》,中国人民大学出版社,2008年本课程的实践环节16学时,以上机实验为主。关于课程的考试本课程的学生成绩由以下三部分组成:平时的上机实验成绩及平时作业成绩30%期中考试成绩30%(理论考试)上机考核40%(实践考试)根据平时上课的考勤情况酌情加减分第一章绪论第一节信息存储与检索简介一、什么是信息(Information)?汉语中的“信息”一词中,“信”与“息”的意思相近,前者侧重于消息、征兆,后者强调情况、音讯。两字连成一词使用,最早见于《三国志》中的“正数(天意、天数)欲来,信息甚大。”在西方英文中information一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词被译为“资讯”。•信息化的创始人香农(申农)(美国数学家、信息论的创始人)1948年在《通信的数学理论》中将信息定义为“两次否定性之差”。他指出:“凡是在一种情况下能减少不确定性的任何事物都叫做信息。”这一定义是从通信科学的角度来探讨信息概念的,也就是说,通讯的意义就在于减少或消除通讯者的某种不定性,那么收信者被消除的不定性的大小就表示其所收到的信息量。这种定义没有从信息的语义因素给出定义,也没有考虑信息的含义价值,因此不能直接用于研究人类的信息传播。但这一定义指出了信息的一个价值——减少不确定性,这是信息的认知知识功能,即当一个信息为人们所感知和确认后,这一信息就成为一定意义上的知识,形成后的知识又可以作为信息来传递;而尚未被认识的原始信息,则成为人们努力探讨的对象,在尚未认识它们之前还不是知识(未知信息)。•美国数学家、控制论的创始者维纳Wiener将信息引入控制论,认为信息就是组织程度,它能使系统的有序性增强,减少破坏、混乱、噪声。•钟义信(北京邮电大学原副校长):信息是事物存在的方式或运动的状态,以及这种方式或状态直接或间接的表达。•《辞海》:“信息是指对消息接收者来说预先不很有知道的报道。”•美国图书馆学会的信息专家:“信息是一切思想、事实和富有想像力的作品,它们以各种方式进行了记录和传播。”教材定义:(P4)信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。信息、知识与情报的逻辑关系信息知识情报信息具有以下特征:(1)普遍性(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。(3)传递性(4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有4种形态:数据、文本、声音、图像。这4种形态可以相互转化,例如,照片被传送到计算机,就把图像转化成了数字。(5)可再生性(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的,且不因共享而减少(7)可识别性:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。(8)可存储性:信息是可以通过各种方法存储的。二、信息检索1、定义(1)从通信的角度认识信息检索:强调信息发布者和接受者之间的通信,是两者关系的变化和延伸。1950年,美国学者莫尔斯CalvinN.Mooers在《把信息检索看做是时间性的通信》一文中首创了“信息检索”这一术语。并认为信息检索是一种时间性通信形式,此种通信是在时间上从一个时刻通往较晚的时刻,而在空间上可能还在同一地点。也就是说,通过信息检索得到了一些文献,从而使得信息发布者与信息用户之间建立了一种通信。这个观点在于说明,信息传递是种特殊的通信形式,正是这种通信促使了人类思想、文化、科学上的交流。莫尔斯强调在通信双方中,信息发送者尽可能发送一切信息,是时间性通信的被动一方,而信息接收者是主动活跃的一方,正是接收者才决定什么时候接收以及接收什么信息。因此,信息检索的问题就在于,如何把一个可能的用户指引向所存储的信息。(2)从信息检索过程的角度认识信息检索•这种观点认为,信息检索就是查找出含有用户所需信息的文献的过程。这是一种传统的主流观点。美国信息检索专家兰卡斯特说:信息检索系统并不是检索信息。那是检索什么呢?他认为是检索文献。因为信息是无形的,必须依附于文献而存在。虽然信息检索的最终结果是满足用户的信息需求,但检索的直接对象还是文献,当用户阅读文献并理解其内容时,用户的信息需求才被满足。(3)从信息处理的角度认识信息检索从信息处理的角度来看,信息检索的基本问题,是如何处理信息和信息的结构。这种认识偏重于信息管理领域,认为信息检索不仅限于传统文献的范围,图像、声音、数据等也都能反映信息,并把信息检索视为计算机科学技术的一个分支。如何看待现代信息和信息的结构问题:①信息的内容发生很大的变化。由于学术团体、政府机关、商业部门、个人、民间组织等任何组织或个人都可以以多种形式发布信息,对信息缺乏控制和管理。②信息的形式从印刷型向多种形式并存的方向发展,不仅仅是视觉和静态形式,而且是动态的多媒体的。③信息资源的种类不仅仅是正式出版物,电子期刊、图书、非正式出版物、灰色文献、数据库、软件、新闻组、BBS等。•(4)从信息获取方式来认识信息检索分为:•直接检索:直接从信息源中获取信息,获取方式直接,但很难广、快、精、准地查到所需的全部信息•间接检索:通过信息检索工具或检查系统获取所需的信息。(本课程主要学习)克服了直接检索的缺点,在掌握一定检索技巧前提下可以较全面、准确、快速地检索到相关信息。(5)从实际检索工作的角度出发,对信息检索这样表达:•广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。•狭义:仅仅指信息查找的过程。即取的环节。信息源选择信息构造检索式相关性判断与反馈初步检索结果集词汇替换检索词与标引词匹配运算信息数据库概念分析信息需求词汇替换概念分析获取所需信息系统检索语言信息存储信息检索信息用户检索提问信息存储与检索流程图•本课程将侧重信息检索部分:•信息检索(informationretrieval):信息用户为处理解决各种问题,运用检索工具或数据库等情况集合,从中查找、识别、获取相关的事实、数据、知识的活动及过程。2、检索语言(retrievallanguage)又称为情报语言、情报存储和检索语言、信息组织语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种人工语言,是实现人与检索系统对话的交流语言。检索语言可划分为:分类语言、主题语言、分类主题语言、代码语言、引文语言等。(下章详细介绍)3、检索工具是用来报道、存和查找信息的工具,通常是指以书本或卡片形式呈现、采用手工方式进行的设施,如检索期刊、书目索引和卡片目录等。检索工具必须具备的条件:(1)对所收录的信息资料的各种特征(包括外部特征和内容特征)要有详细的描述。(2)每条描述记录都要标明可供检索用和标识,以便按某种方式将这些描述记录组织起来,为编织各种索引做准备。(3)全部描述记录要科学地组织成一个有机的整体,使这些记录存放有序,方便存取。(4)具有多种必要的检索手段以满足用户从多种角度查找信息的要求。4、检索系统:•由一定的检索设备(如探针、选卡机、电子计算机等)和加工整理并存储在相应的载体(如穿孔卡片、磁带、磁盘等)上面的文档或数据库及其他必要设备共同构成的,具有存储和检索功能的信息服务设施。它往往由多个子系统或模块构成,需借助专门设备进行检索。•穿孔卡片检索系统、缩微品检索系统、光盘检索系统、计算机检索系统、网络信息检索系统•检索工具和检索系统的基本作用相同,都服务于信息检索,都是传播信息的重要媒介和实现情报检索的主要手段。检索工具属于传统的检索设施,今天仍发挥着重要的作用,检索系统是在手工检索工具的基础上发展起来的,是信息检索机械化和自动化的必然产物,目前在信息检索中已起到主导作用。它们的区别主要表现在内部结构、信息表示方式和匹配机制