信息检索原理与技术第一节、检索的基本原理信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:1、信息的特征一篇文章、一本书、一份报告等一般都有以下特征:一、外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。二、内部特征:假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:a.一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的研究表明,无论哪一种类型的文献,若对文献中出现的词进行频率统计的话,会发现所有的词可分为三类i.文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等;ii.绝大部分词在文献中出现的频率较低;iii.在文献中出现的频率既不高也不低的词,在文献中约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词。b.另外,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如《中图法》:O数、理、化O1数学O12初等数学O123初等几何特征外表特征主题特征内容特征分类特征标识标题、作者、作者工作单位主题词、关键词文摘、说明、全文分类号对应精确对应模糊对应模糊(精确)对应模糊对应2、特征对应关系3、检索语言的概念语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrievallanguage)。检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。不同的检索语言构成不同的标目及其索引系统,提供各种检索点。人工语言(规范语言)和自然语言(非规范语言)artificiallanguage:受信息检索的控制,使用控制、规范词(controlledterm)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。naturallanguage:自然语言是取其自然形态,不受控,使用非规范词(uncontrolledterm)或称自由词(freeterm)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。分类语言和主题语言分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。它是用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列,包括它等级体系分类语言,又称等级列举式分类法或体系分类法。体系分类法主要应用概念划分与概括的方法,具有列举式类目、分类符号(标识)、等级制结构、直线性序列等特点。等级体系分类法的表现形式为分类表分类文献及其索引系统,是根据一定的观点,以科学分类为基础,运用概念划分和概括的方法,按照知识门类的逻辑次序,从总到分,从简单到复杂,层层进行概念划分,则产生许多不同等级的类目。上位类包括下位类的总合,下位类隶属于其上位类,同级类互不相容,构成一个严格有序的层磊式结构系。国内外常用的分类法有:(1)、人民大学图书馆图书分类法(人大法)该分类法从1953起陆续在全国各图书馆试用,后经过多次修订再版,目前仍有许多图书馆采用该分类法。(2)、中国科学院图书馆图书分类法(科图法)该分类法目前主要用于中国科学院图书馆及其所属各科研单位的图书馆(室)的文献分类。(3)、杜威十进制分类法(DecimalClassification)简称为杜威法该分类法是目前世界上使用最广泛、影响最大的图书分类法,已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法产生的。(4)、美国国会图书馆图书分类法(LibraryofCongressclassification)简称为LC分类法目前美国大多数图书馆采用的分类法。(5)、国际十进分类法(UniversalDecimalClassification)简称UDC分类法等。(6)、国际专利分类法(InternationalPatentClassification)简称IPC(1)体系分类语言《中国图书馆分类法》:分五大部22大类。A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D-K社会科学各学科N自然科学总论O-X自然科学各学科Z综合性图书其中文学类类目展开情况如下:I文学I2中国文学I24小说I247建国后作品I247.4章回小说I247.5新体长篇、中篇小说I247.7新体短篇小说I247.8故事、微型小说I25报告文学I313日本文学分类标引方法:崔文风著1.心理与人生-发展心理教子成长2.心理与人生-完善心理事事成功3.心理与人生-调节心理强身治病分类好分别分:G78、B848.4和R395.6(2)关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。(3)主题词语言:主题词是表达一定概念主题的规范化的名词术语。主题标引须有专门的主题词表。主题词表:①字顺表computerizedindustrialcontrolUSEindustrialcomputercontrolComputerizedinstrumentationUFcomputerizedinstrumentsNTautomatictestequipmentcomputerizedmonitoringcomputerizedspectroscopycomputerizedtomographyBTcomputerapplicationsTTcomputerapplicationsRTastronomycomputingastrophysicscomputingbiologycomputingchemicalengineeringcomputing②词族表computerapplications.administrativedataprocessing..distributivedataprocessing.computerizedsignalprocessing..computerizedpatternrecognition..computerizedpictureprocessing...computer-generatedholography检索点(accesspoint)是检索的出发点,以前常用“检索途径”(approach)这一术语。每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。反映文献信息内容特征:分类检索和主题检索;反映文献外部特征:作者、名称和号码检索等。第二节、检索途径一、学术论文的基本格式1.题名(Title,Topic)题名即题目或标题,是以最恰当、最简明的词语反映论文最重要的特定思想内容的逻辑组合。题名(1)简洁明了:所谓简洁,就是指用语要简明、洁净、雅致和精当,惜字如金,用最少的文字精当地概括论文内容。有人根据人们对语言的一般记忆特点,提出标题最好控制在12个字以内(题名规范的要求是一般不超过20字,必要时可加副题名)。1.题名(Title,Topic)(2)准确恰当:所谓准确,就是指标题能准确概括论文内容,能恰当地限定论文范围,能实事求是表达论文中心内容的深度和广度,达到文题相符。论文标题提倡“宜小不宜大,宜近不宜远,宜今不宜古,宜实不宜虚”(3)新颖多样:标题新颖醒目会直接吸引读者的阅读兴趣。所以论文标题不仅要准确、精练,而且还要新颖。2.署名给论文署名不仅是对著者的尊重和应有的荣誉,而且还表示文责自负。按其对研究和论文撰写的贡献大小排序,贡献最大者列为第一著者,次之列为第二著者,余者类推。3.摘要(Abstract)摘要或提要是对全文的高度浓缩。为了国际交流,一些期刊还要求提供外文摘要。摘要是论文内容不加注释和评论的简短陈述,具有独立性和自含性。其内容包括:研究的对象和主要目的、主要观点、主要成果及意义等。一般200-300字,外文不超过250个实词.4.关键词(KeyWord)关键词是为了配合文献标引工作而给出的能反映文章最主要内容的单词或术语,对编制检索工具和文献检索有重要作用。关键词一般3-8个题名作者作者单位摘要关键词中图分类号文献标示码5.文献标识码、中图分类号(2)中图分类号(CLCnumber):凡具有文献标识码的文章均应标识分类号。文章分类号采用《中国图书馆分类法》(第四版)进行分类。一般文章标识1个分类号,多个主题的文章可标识2个或3个分类号;主分类号排在第一位,多个分类号之间应以分号分隔。中图分类号著录格式为:中图分类号:TK730.2;O357.56.正文(Mainbody)这是学术论文的主体部分,是作者研究成果的具体表述。要求层次清楚,概念准确,判断真实,推理符合逻辑,要形成一个完整的逻辑系统。内容周详严谨,论证严密有力。正文一般由引言、本论和结语三段式组成。(1)引言:属于论文的引论部分。作者应在这部分简要交代研究工作的缘起、说明这一论题研究的目的、背景、前人已有的工作和现在研究的理论依据、实践基础、预期结果及在相关领域的地位、作用和意义等。正文6.正文(Mainbody)一般包括本文研究说明了什么问题,得出了什么规律,解决了什么理论或实际问题;对前人的有关看法作了哪些修正、补充、发展、证实或否定;本文研究的不足之处或遗留的未予解决的问题等。结论部分要措辞严谨,逻辑严密,文字具体,对尚不能完全肯定的内容要留有余地。6.正文(Mainbody)(2)本论:是论文的核心部分。作者在这一部分要详细阐述所研究的新成果,特别要实事求是地清晰阐明自己所提出的新的独创性见解。(3)结论:是论文最终的、总体的结论,也就是整篇论文经过研究分析和讨论而形成的最终观点,是对正文中各分论点经过辨证分析后综合而成的总观点,而不是各分论点的简单重复和相加。7.附注(Annotation)论文的引文必须用附注注明出处,便于检索利用。期刊论文可采用夹注、页下注(脚注)和篇末注(即整篇论文写完后对全文的引文统一作注)等方式。注释注释8.参考文献(Reference)注意:参考文献主要来源不应该是网页在正文之后列出本篇论文在研究和写作中所参考或引证的主要文献资料。其著录依据是:国家标准局制定的《文后参考文献著录规则》(GB7714—87)。参考文献的主要著录项目有:①主要责任者。多个责任者之间以“,”分隔。②文献题名及版本③文献类型及载体类型标识。参考文献文献类型及载体类型标识9.各类参考文献著录格式①专著、论文集、学位论文、报告