第一章信息检索基础南京医科大学图书馆周晓政目录1.信息学2.知识、情报和文献3.信息源4.信息素养5.信息检索6.信息检索系统7.计算机信息检索第一章信息检索概论1.信息概论1.1信息(information)的概念自古以来,人们随时都在有意识或者无意识地接收、传递、存储和利用信息。人类的信息活动从来没有间断过。围绕信息定义所出现的流行说法已不下百种。例如,信息是用以消除随机不定性的东西(Shannon,1948);信息是控制的指令(Wiener,1950);信息是加工知识的原材料(Brillouin,1956);英国信息学家布鲁克斯(B.C.Brookes)认为,信息是使人原有知识结构发生变化的那一小部分知识。信息就是指以声音、语言、文字、图像、动画、气味等方式所表示的实际内容等等。1988年,我国信息论专家钟义信教授在对各种说法进行分析之后,在其《信息科学原理》一书中把信息定义为:事物的运动状态和状态变化的方式。并通过引入约束条件推导了信息的概念体系,被国内多数教材接受采用。第一章信息检索概论1.信息概论1.2信息的特性(1)普遍性信息是事物运动的状态和状态变化的方式(本体论,的反映—认识论),因此,只要有客观事物的存在,只要客观事物在不断地运动,就会有它们运动的状态和状态变化的方式,也就存在着信息,所以信息是普遍存在的,信息具有普遍性。(2)传递性信息在事物之间的相互联系必定在信息流动中发生。信息的传递性表现在人与人之间的消息交换,人与机器、机器与机器之间的信息交换,动物与植物的信号交换。信息的传递和流通过程是一个重复使用的流通过程,在这一过程中,信息的占有者不会因传递信息而失掉信息,一般说来,也不会因多次使用而改变信息的自身价值。1.信息概论1.2信息的特性(3)依存性信息总是依附于一定的物质载体而存在,需要某种物质承担者。信息必须依附于一定的物质形式(如声波、电磁波、纸张、化学材料、磁性材料等等)之上。(4)相对性客观上信息是无限的,但相对于信息用户来说,人们实际获得(实得信息)总是有限的。并且由于不同的信息用户有着不同的感受能力、不同的理解能力和不同的目的性,因此,同一信息对不同认知水平的用户所产生的作用和有效性也不相同。1.信息概论1.2信息的特性(5)可加工性信息可以加工处理,可以压缩、扩充和叠加,也可以变换形态。在流通和使用过程中,经过综合、分析、再加工,大量的原始医药信息可以变成医学文摘数据库和CochraneLibrary的系统评价。(6)时效性现代社会中,信息的使用周期迅速缩短,信息的价值实现取决于及时地把握和运用信息。信息是活跃的,不断变化的,及时地获取有效的信息将获得信息的最佳价值,如时效性很强的天气预报、经济信息、交易信息、科学信息等。不能及时地使用最新信息,信息的价值就会随其滞后使用的时差而减值或贬值。1.信息概论1.2信息的特性(7)可共享性与物质、能量不同,信息没有排他性,它可以共享。1.信息概论1.3信息的作用(1)信息是人类认识客观世界及其发展规律的基础人类的认识器官,包括感觉器官和思维器官,对各种渠道的信息进行接收,并通过思维器官将已收集到的大量信息进行鉴别、筛选、归纳、提炼、存贮而形成不同层次的感性认识和理性认识。1.信息概论1.3信息的作用(2)信息是科学研究的必要条件人类的知识具有继承性和共享性。任何一位科学家在从事科学研究时,都不能不借鉴前人的成果和依靠同时代其他人的帮助,也就是说,他同时需要在时间上和空间上的信息传递。在这个问题上,自然科学家和社会科学家各具特色。自然科学研究是一个比较严格的循序渐进过程,其每一个成果都是在前人建立的基础上发展起来的,由于自然科学研究的抽象性、准确性和严格性,独立研究是非常困难的,因此,信息交流就十分必要,并且对信息的数量和质量等都有较高的要求。对于社会科学而言,其研究成果不具有像自然科学研究成果那样的准确性,但在多样性上远远超过前者,并更多地受社会政治和人为因素的影响,其不同观点和理论的统一,较之自然科学也往往更困难和更需要时间,因此,需要更多地占有信息资源,充分地认识和把握各种不同的信息观点。1.信息概论1.3信息的作用(3)信息是管理和决策的主要参考依据从广义上讲,任何管理系统都是一个信息输入、变换、输出的信息与信息反馈系统。这是因为,管理者首先要知道被管理对象的一些基本情况。在一定程度上消除对管理对象认识的不确定性后,制定相应的对策,进而实施管理。更进一步讲,任何组织系统要实现有效的管理,都必须及时获得足够的信息,传输足够的信息,产生足够的信息,反馈足够的信息。只有以一定的信息为基础,管理才能驱动其运行机制,只有足够的信息,才能保证管理功能的发挥。从某种意义上讲,信息都是为决策服务的,是为人们未来行动服务的。正确的决策与多种因素有关,如决策体制、决策方法、领导者的能力和素质等,但决定性的因素,还是取决于对客观实际的了解,对未来行动及其后果的正确判断,而正确的判断又主要依赖于全面、及时和准确的信息。1.信息概论1.3信息的作用(4)信息是社会发展的资源信息作为一种资源,可以创造财富,通过直接或间接参与生产经营活动,为国家经济建设的各个方面发挥出重要的作用。1.信息概论2.知识、情报和文献2.1知识(knowledge)知识的概念可以用两种基本观点来具体描述:一种是知识的认识观,一种是知识的信息观。在工业经济时代,由培根、洛克、笛卡尔等人所建立的现代认识论,特别是其中知识的认识观(或现代知识观)广为传播,深刻地影响和支配着人类的生活。1.信息概论2.知识、情报和文献2.1知识(knowledge)知识的认识观认为,知识就是对事物属性与联系的认识。表现为对事物的知觉、表象、概念、法则等心理形式。即是说,知识是对事物本质及联系的认识。根据这种知识观,人们把知识分为直接知识与间接知识两大类。20世纪后期,人类信息技术的发展导致了整个社会的生产方式、生活方式以及文化观念的深刻变化,人类进入了工业化社会的高级发展阶段——信息化时代。1.信息概论2.知识、情报和文献2.1知识(knowledge)知识的信息观认为,知识是人类通过信息对自然界、生物界、人类社会运动规律的认识和概括,是人的大脑通过思维重新集成整合的系统化信息,是信息中最有价值的部分。即是说,信息是产生知识的原材料,知识是信息加工的抽象化产物。英国哲学家波兰尼(Polanyi,M.)提出了人们有着共识却又忽略了的命题:“我们所知道的多于我们所言传的”。1.信息概论2.知识、情报和文献2.1知识(knowledge)经济合作与发展组织(OECD)知识分为四类:知事(Know-what):即关于事实认知的知识。知因(Know-why):即关于科学原理以及自然规律的知识。技能(Know-how):即从事业务的技巧、秘诀、窍门与能力。知人(Know-who):即那些人有特殊专长的知识及特殊社会人脉关系。1.信息概论2.知识、情报和文献2.2情报(information;intelligence)情报是具有特定传递对象的特定知识或有价值的信息。钱学森说情报是激活的知识。我国图书情报界普遍认为,知识性、传递性和效用性是情报的三个基本属性。也有将intelligence翻译为情报,例如竞争情报(CompetitiveIntelligence)。把数据转变成信息,再变成决策所需的知识,这种由思考和分析所加工的信息构成了情报(Intelligence)。信息与知识、情报之间是属种关系,信息是属概念,知识、情报是信息之下具有交叉关系的种概念。1.信息概论2.知识、情报和文献2.3文献(literature,document)在我国1983年颁布的国家标准《文献著录总则》中,文献的定义为“记录有知识的一切载体”。这个定义揭示了文献所包含的知识内容、信息符号、载体材料和记录方式四个基本要素。其中,知识信息内容是文献的灵魂所在。信息符号是赖以揭示和表达知识信息的标识符号,如文字、图形、数字、代码、声频、视频等。载体材料是可供记录信息符号的物质材料,如纸张、胶片胶卷、磁性介质、光盘、穿孔纸带等。而记录方式,包括印刷、复制、篆刻、拍摄、录制等,将知识信息内容与载体统一成为文献。文献文献1.信息概论3信息源信息源是个人为满足其信息需要而获得信息的来源。3.1信息源的类型信息源的类型可依不同的标准划分如下:3.1.1按信息的保存性划分,可分为正式记录的信息源、非正式记录的信息源。前者指的是以可以保存的形式记录的信息源,如各种印刷品、缩微、声像、机读载体的文档、资料或出版物;后者指的是没有正式记录、无法保存的信息源,如会议、电话、口头交流等。3.1.2按信息产生的时间顺序可分为先导信息源、实时信息源、滞后信息源。先导信息源是指产生时间先于社会活动的信息源,如天气预报、市场预测等;实时信息源是指在社会活动过程中产生的信息源,如实验记录、产品、讲座或报告等;滞后信息源是指某一社会活动完成之后产生的反映这一活动的信息源,如报刊、会议论文等1.信息概论3信息源3.1信息源的类型信息源的类型可依不同的标准划分如下:3.1.3按信息表现形式划分可以划分为文字信息、图像信息、数值数据信息和语音信。其中数值数据信息是“信息的数字形式”或“数字化的信息形式”。狭义的“数据”是指有一定数值特性的信息,如统计数据、测量数据以及计算机中区别于程序的计算数据。广义的数据是指在计算机网络中存储、处理、传输的二进制数字符编码,文字信息、图像信息、语言信息以及从自然界直接采集的各种自然信息等均可转换为二进制数码,网络中的数据通信、数据处理和数据库等就是广义的数值数据信息。1.信息概论3信息源3.1信息源的类型信息源的类型可依不同的标准划分如下:3.1.4按信息的出版类型划分,可分为以下十种类型(1)图书大多是对已发表的成果和经验,或某一知识领域的系统论述或总结。它往往以期刊论文、会议论文、研究报告等一次文献为基本素材,经作者的分析、归纳、重新组织而成。图书提供的知识一般比较系统、全面、可靠,起着综合、积累和传递知识的重要作用。从时间上看,图书报道的知识比期刊和特种文献晚,且出版周期较长。1.信息概论3信息源3.1信息源的类型信息源的类型可依不同的标准划分如下:3.1.4按信息的出版类型划分,可分为以下十种类型(2)期刊指采用统一名称,定期或不定期出版的连续出版物。其特点是出版周期短,报道速度快,数量大、内容多,发行面广。期刊的内容一般是一次文献,即原始文献,许多新的研究成果大多首先在期刊上发表,因此,期刊论文是获取新信息的主要来源,是极其重要的信息源。1.信息概论3信息源3.1信息源的类型信息源的类型可依不同的标准划分如下:3.1.4按信息的出版类型划分,可分为以下十种类型(3)科技报告是关于某项科学研究和革新成果的报告或研究过程中的阶段进展情况的实际记录。它反映的科学研究和技术革新成果比期刊论文快,内容高度专门化,且具有一定的保密性。一般以单行本的形式出版。1.信息概论3信息源3.1信息源的类型信息源的类型可依不同的标准划分如下:3.1.4按信息的出版类型划分,可分为以下十种类型(4)专利文献专利是国家对发明创造的法律保护。广义的专利文献应该是一切与专利有关的文献,包括专利说明书、专利公告、专利分类表、专利文摘等。狭义的专利文献一般指专利说明书,它是专利文献的主体。专利文献是极其重要的信息源,蕴藏着丰富的科技信息。1.信息概论3信息源3.1信息源的类型信息源的类型可依不同的标准划分如下:3.1.4按信息的出版类型划分,可分为以下十种类型(5)会议文献一般是各种科技会议上的论文或书面发言。随着科学技术的发展,各种科技会议日益增多,已成为科技交流的一种重要渠道。许多学科中的重要发现有很大一部分是在会议文献中公开的,加上一些会议论文不在其它刊物或出版物上发表,或者即使发表,也要经过较长一段时间,因此,会议文献越来越受到科技界的重视,它已成为科技人员了解本专业的发展水平和最新研究成果的有效工具。1