基于引用内容的引文评价分析1)刘盛博丁堃(大连理工大学WISELab,大连116023)摘要:本文提出一种基于引文内容的引文评价分析方法,引文的引用内容可以提供一篇引文被引用的详细信息,包括了这篇引文为什么被引用,在哪些方面被引用以及具体的引用价值,同时,一篇引文在一篇文献中被引次数可以体现出这篇引文的被引质量,这些引用内容信息在引文评价分析中具有重要意义。本文从引用性质和引文质量两个角度介绍引用内容在引文评价中的应用。关键词:引用内容分析;引文评价;引用质量;引用性质中图分类号:G353文献标识码:ACitationEvaluationAnalysisbasedonCitationContextLiuShengbo,DingKun(WISELab,DalianUniversityofTechnology,Dalian116023)AbstractWeproposeacitationevaluationanalysismethodbasedoncitationcontext.Citationcontextofareferencemayprovidethedetailedcitedinformationaboutacitation,includingcitedreasons,citedaspectsandcitedvalues.Meanwhile,thecitationfrequencyofareferenceinonepapercouldreflectthecitationqualityofthereference.Thesecitationcontextscouldprovideimportantinformationforcitationevaluation.Inthispaper,weintroducetheapplicationofthecitationcontextfromtwoangles,thequalityofthecitationandthenatureofthecitation.KeywordsCitationcontextanalysis,Citationevaluation,Citationquality,Citationnature1引言科学计量学家Zunde在1971年指出,引文分析主要有三方面的应用,1)对科学家、出版物和科研机构进行定性与定量评价;2)探析科学技术演化历程;3)情报信息查找与检索[1]。但使用引文分析对论文进行评价时,人们通常只从论文的被引频次角度来分析,最简单的方法是采用论文的总被引频次来评价,而影响因子[2]和H指数[3]方法也是基于文献的被引次数来评价。在引文评价研究中,我国较多学者都对引用频次评价方法进行了改进,纪雪梅等人[4]采用社会网络分析方法中的Bonacich权力指数来对引文进行评价,通过这个指标来判定同一期刊发表文献的质量和影响力。宋歌[5]也提出将社会网络分析方法应用于引文评价,从引文网络的构成、性质、内涵和元认识的角度论证社会网络分析方法在引文分析中的适用性,进而改进传统的引文评价方法,补充评价指标。王向阳和马军[6]借鉴了PageRank作者简介:刘盛博,男,1983年生,大连理工大学科学学与科技管理专业博士研究生,研究方向为:知识计量。E-mail:liushengbo1121@gmail.com。丁堃,女,1962年生,大连理工大学人文社会科学学院教授,研究方向为:学科知识管理与创新管理。1本文得到国家自然科学基金(61272370),高等学校学科点专项科研基金(博导类)(20110041110034)的资助。算法,在对引文评价时考虑了引文的发表机构、作者权威性、被引频次和发表时间等因素。王凌峰和张泽玺[7]提出Hi指标对引文网络中的单篇引文进行评价,首先对引文网络进行层次划分,其次采用变异系数法对不同层次中的引文进行赋值,最后得到单篇引文的评价分值。虽然这些方法都从不同角度揭示了引文的价值,但主要还是通过引文的被引频次和引文在引文网络中的作用来评价,都没有深入到引文的引用内容。所谓引用内容指的是文献中引用参考文献的句子。例如,句子“ThiscomparisonismadeusingBLASTX[18]”就是参考文献[18]的引用内容,人们也可以把这个句子前后的句子也作为引用内容。White[8]指出引用内容主要有三个方面的应用,分别是对引文进行分类、对引用内容分析和引用动机识别。引用内容信息包括了一篇引文在施引文献中被引用的位置、在一篇施引文献中被引的次数以及作者是如何引用这篇引文的。这些信息都可以直接用于引文评价分析。Anderson[9]在2010年利用引用内容,分析了组织学习领域中Walsh和Ungson发表的一篇经典文章,分析结果包括了这篇文章中具体的哪些知识被人们引用了,哪些知识对以后研究具有重大影响以及哪些知识被人们所批判,这些分析结果都是对这篇经典文献的综合评价,而这些评价结果往往不能通过引用频次来揭示。我国学者也从定性角度提出采用引用内容来对引文进行评价,王岚[10]和赵青[11]都基于引用内容,调查分析了文学学科中引文的引用性质和引用深度,其中引用性质包括正面引用、中性引用和负面引用,引用深度包括深度引用、中度引用和浅度引用。陈晓丽[12]提出采用引文力度和引文深度角度对引文进行评价,其中引文力度指标主要通过分析引用内容来获取,引用深度指标是根据引文表面被引次数来决定的,所谓表面被引次数指的是一篇引文在同一文献中被反复引用的次数。引文表面被引次数实际上也是需要深入文献内容才可以获取的,它所揭示的是一篇引文与施引文献的相关程度,本文将其作为一个引文质量评价指标来研究。虽然人们已经知道引文的引用内容可以提供与引文最直接、最相关的信息,它在引文评价中具有重要价值,但很少有人直接应用这个信息来评价引文价值。其中一个重要原因是数据库不够完善,人们很难获得一篇引文的所有引用内容。早期对引文内容研究主要采用手工方式来抽取引用内容相关信息,例如O'Connor[13,14]在做引用内容研究时,通过手工抽取出引用内容中的单个词来对其进行研究。近些年来,有些数据库中提供了全文信息,例如CiteSeer和PubMedCentral,为引用内容研究提供良好的数据基础。本文将以PubMedCentral数据库中的全文数据为基础,研究引用内容在引文评价中的而应用。在自然科学领域,一些评价体系已经对引文数据提出了要求。如国家自然科学奖评价指标中明确规定“主要学术思想和观点被他人认可的情况是指他人在正式发表的科学论文、专著、教材中正面引用完成人提出的学术思想、观点、方法,或被有关实验、实践所证实的情况[15]”;教育部高等学校科学技术奖评价指标体系中的“高等学校自然科学奖评价指标”直接将指标定义为“论文被他人正面引用的情况”,并以“正面引用,不含负面引用和自引”,进行进一步的诠释。2引用性质评价目前国内外对引用内容的研究不多,尤其国内缺少可以提供引用内容的数据库,所以国内相关研究主要集中在定性分析层面,对引文内容的定量分析研究较少。引用内容可以直接揭示一篇引文的本质,人们可以通过引用句子的语义分析来揭示被引文章的属性和功能[16]。Nanba和Okumura[17,18]将一篇引文的所有引用内容信息收集起来,总结出这些内容信息的概述,用着个概述信息来描述这篇引文的主要内容。但Mei[19]和Mohammad[20]发现,通过引文内容总结出来的概述信息与引文本身的摘要信息不同,引用内容信息所反映的引文的应用价值,引文在被继承过程中,可以体现出了原文中未被重点指出的重用价值,这也是本文提出用引用内容来评价引文的主要原因。一篇引文的引用价值体现在多个方面,由于引用动机不同,引文的价值也不同,有些引用是对引文中某一工作的肯定或继承,而有些引用可能是对引文中某一观点进行批评,这些都导致了一篇引文会被多角度引用,而每个角度都是这篇引文的价值体现,这些价值是无法通过引用频次来揭示出来的,只能通过引用内容分析来获得。在对引用内容评价时,人们通常分析的是引文的引用动机和引文的功能[13,21-24],其中最著名的研究是Moravcsik和Murugesan在1975年对引文功能的划分,他们将引用功能划分为4类,第一类是概念或操作的引用,例如“本文采用…理论或方法”;第二类是知识的演化和继承,例如“本文的工作是以…为基础”;第三类为敷衍性引用或陈述性引用,例如“他们主要在…方面做了些研究”;第四类是质疑或否定性引用,例如“他们的结论并没有得到充分验证”。他们的研究结果发现,40%的引用都是敷衍性或陈述性引用,因此,对传统的基于引用频次的引用分析方法提出质疑。一般来说,研究引文动机的方法有两种:一是通过与论文作者交谈来明确作者的引文意图;二是从论文的内容分析推测出作者的引文动机[25]。第一种方式虽然得到的结果比较精确,但费时费力,很难联系到每篇论文的作者,因此,在对引用动机分析是,通常通过分析引用内容来判断施引作者的引用动机。在语言学领域研究中,通常分析句子的语义来揭示句子中所表达的情感,但在科学文献写作过程中,通常采用陈述性语句,缺少表达情感的情感词,很难从语义判定句子的褒贬意[26]。在对一篇引文的引用内容进行评价时,我们希望可以从引用内容的语义中判定出施引文献作者的引用动机,而传统的语义情感分析方法对科技文献分析具有一定局限性,因此,常用的方法是采用科技文献中的线索词代替传统情感分析中的情感词[24,27]。本文以引文评价为目标,根据引用内容,将引用性质分为3类,正面引用、负面引用和中性引用。正面引用指的是施引文献中对引文的观点、结论或方法的肯定和赞同,还包括在引文基础上展开后继工作,或应用引文中的理论方法。引用他人的方法或结论来与自己工作进行对比的情况,也视为在其他人工作基础上展开的研究。负面引用指的是施引文献对引文中的观点、结论或方法持否定态度。由于在科学文献从投稿到发表,需要经过编辑部和专家的多层审核,论文发表时很少会有错误发生,所谓负面引用只是施引文献作者根据主观判断指出的引文内容的不足,而在实际中引文所反映的观点、内容是不是负面的,需要长期实践检验[28]。中性引用指的是施引文献对引文内容并无赞同或反对观点,只做内容论述。参考Spiegel-Rösing[23]和Teufel[24]的工作,将3类进行细分,表1列出具体各类别的描述,由于对引用内容进行评价时,只需要宏观的划分引用时的语义情感,不需要细化到详细的引用功能,因此本文只将正面引用和负面引用分别细化为3类和两类,中性引用没有具体细化。表1引用内容的分类类别描述正面引用(1)对引文研究内容的肯定或赞扬(2)对引文中方法、技术、数据等的应用(3)方法、结果的比较负面引用(1)明确指出引文的不足(2)引文的转折或否定性引用中性引用(1)不含情感词的描述性引用对引用内容评价分类后,需要判断一个引文的引用内容应该划分到哪类里,本文中的判定方法是将引用内容句子结构与线索词相结合来判断,句子的结构指的是句子中的主语、谓语和宾语,本文研究是需要判定句子主语,线索词本文主要涉及包括形容词、动词或动词短语和连接词。具体5类引用中的线索词实例如表2所示。表2引用内容的分类的线索词类别主语线索词正面引用(1)引文Best、significant、crucial、fundamental……(2)施引文献Use、utilize、employ、apply、bebasedon……(3)施引文献superiorto、Better、similarto、consistentwith……负面引用(1)引文befailed、belimited、belack……(2)引文Not、although、but……中性引用(1)引文Describe、discuss、publish、use、apply……根据表2所定义的线索词规则,对BMC_Bioinformatrics杂志中所有引用句子进行分析,判断三种引用性质在实际引用中的分布情况。以200