文献计量学综述一、起源及发展早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。三阶段:萌芽、发展和分化萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。这些研究都为文献计量学的诞生与后期的发展奠定了基础发展(1934-1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到成熟与分化阶段全面发展与分化时期(1960年至今)这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。迁移衍生:专利计量学文献计量学网络计量学政策计量学二、概念界定文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。学科交叉使得文献计量研究内容体系日益丰富。数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。三、三大定律布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。洛特卡定律该定律描述著者人数与所著论文之间的关系。探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。从表面上三大定律的统计对象各异,其结论也不尽相同,但是它们的研究方法存在着某些相似之处,事实上它们属于同一个分布体系。该体系被称为布-齐-洛体系。如果把期刊、字词、书籍、文章等称为信息发生源,将作品、论文、字词的出现、书籍的使用、文章的被引等称为产物,那么文献计量学的规律可认为是发生源数量与产物数量之间存在的函数关系。四、主要研究方法:引文分析+数据挖掘+数据可视化传统文献计量学方法可以分为3类:①基于引文的计量方法,如引用频次统计、文献同被引分析、文献耦合分析等;②基于作者的计量方法,如作者同被引分析、合著分析等;③基于词汇的计量方法,如词频统计、关键词共现分析等;(引文分析)近年来趋势是①基于两种对象的交叉共现计量方法。如使用双向聚类方法应用此方法文献计量学领域有广阔的运用前景。例如,高被引论文和引用文献的双向聚类可以反映出被引文献和引用文献的对应关系,甚至是同时实现同被引聚类分析和基于高被引论文的引文耦合分析;作者(或单位)和主题词的双向聚类可以反映作者(单位)研究内容之间的相似性及其研究特色;作者合著(或单位合作)和相应文献的双向聚类分析可以反映出作者(单位)合作的具体论文和成果等。②引文分析结和数据挖掘和数据可视化操作,更直观且准确的反应出研究现状、研究热点和趋势1、引文分析:作者在撰写或编辑论著时,常以尾注、脚注、文中注和参考文献的形式标明所引用的概念、理论、方法、文献资料等等的来源出处,为自己的论述提供佐证和依据,形成被引文献记录即引文(Citation)。追寻这种引证联系,可以找到一系列内容相关的文献,从中可以找出某些学术观点的演化发展脉络,某一领域的研究动态、走向和规律,某一学科的核心作者群,学术研究中的启承转合关系,以及某一名词、概念、方法出现的时间、频次和衰减情况。引文数据库可以提供以引证关系为特征的特殊的文献检索方法,客观准确地揭示文献之间跨时空、跨学科、多领域的网状联系。在科研评价中,引文数据库可以从文献的“数量”(科研产出率)和“质量”(成果影响力)方面提供有关学科分布、作者、机构、期刊和地区的多项统计数据和指标。引文分析包括耦合分析、同引分析和引文数量分析。多篇论文引用同一篇文献,这些多篇论文之间的关系称为耦合,耦合关系的强弱由共同引用的参考文献的篇数测定,揭示学科的内部结构,通过耦合分析可以在学科内部划分出耦合度较高的论文簇。同引分析是指两篇文章同时被后来的文献引用,可用以跟踪学术前沿,映射研究领域。引文数量分析,用于对期刊和论文学术价值的评价,目前,引文分析技术日趋完善,应用不断扩大,已发展成为文献计量学的重要方法之一。引文分析方法的应用主要有以下几个方面:(1)测定学科或主题的影响和重要性:通过文献引用频率的分析研究可以测定某一学科的影响和某一国家某些学科的重要性。(2)研究学科或主题的结构:通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。(3)研究学科或主题信息源分布:通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其信息的来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据。(4)确定核心期刊:引文分析方法是确定核心期刊的常用方法之一。这种方法的主要特点,是从文献被利用的角度来评价和选择期刊的,比较客观。加菲尔德通过引文分析,研究了文献的聚类规律。他将期刊按照期刊引用率的次序排列,发现每门学科的文献都包含有其它学科的核心文献。这样,所有学科的文献加在一起就可构成一个整体的、多学科的核心文献,而刊载这些核心文献的期刊不过1000种左右。利用期刊引文的这种集中性规律可以确定学科的核心期刊。(5)研究文献老化规律:目前,有关文献老化的研究一般是从文献被利用角度出发的。D.普赖斯曾利用引文分析探讨文献的老化规律。通过对“当年指标”和“期刊平均引用率”的分析,他认为期刊论文是由半衰期绝然不同的两大类文献构成的,即档案性文献和有现时作用的文献。科学文献之间引文关系的一种基本形式是引文的时间序列。对引文的年代分布曲线进行分析,可以测定各学科期刊的“半衰期”和“最大引文年限”,从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。同时,一个学科的引文年代分布曲线与其老化曲线极为相似。这有力地说明文献引文分布反映了文献老化的规律性。因此,从文献引用的角度研究文献老化规律是一种有效的途径和方法。(6)研究信息用户的需求特点:利用引文分析方法进行信息用户研究是一种重要途径。根据科学文献的引文可以研究用户的信息需求特点。一般来说,附在论文末尾的被引用文献是用户(作者)所需要和利用的最有代表性的文献。因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点,尤其是某信息中心对其所服务的用户所发表的论文的引文分析,更具有直接的指导意义。通过对同一专业的用户所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。(7)评价人才:在人才评价方面,常采用引文分析方法。这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度,同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。因此,引文数据为人才评价提供了定量依据。从对历年诺贝尔奖金获得者的论文被引用情况的统计来看,物理学、化学、医学领域中诺贝尔奖金获得者中,其论文被引次数最高者(L.D.Landan)为1888次;最低的也有79次(J·H·D·Jensen);只有六名低于200次。可见,这些科学界的精英的论文的引用次数是很高的。近年来,引文评价方法的研究重点不再局限于定量指标的直接测算与简单排名,而是转移到引文影响力指标的总结与优化、引文数据源的覆盖率与可用性、引文现象的复杂性对引文频次的影响这些方面的研究。除了期刊论文的结构属性之外,引文分析研究逐步拓展到论文的正文。在文本分析过程中,需要借助计算机科学领域中的自然语言处理、自动分词等方法。这些研究将促使引文分析作为学术影响力评价方法不断地去面对新的议题,逐渐完善定量评价方法的指标、数据与理念。2、数据可视化:指的是运用计算机图形和图像处理技术,将数据转化为图形或图象在屏幕上显示出来,并进行交互处理的理论、方法和技术。数据挖掘:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。操作步骤:分类-估计-预测-相关性分析-聚类-描述和可视化(复杂数据类型挖掘)聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。3、可视化操作:采用高级检索,检索条件选择“主题”,具体检索词为“创新生态系统”,检索途径选择“精确”,时间跨度为2003/10/01—2015/10/01(绩效考核or绩效评价or绩效评估or绩效考评and政府财政预算)从CNKI导出数据(Refworks)或者利用litespace软件将来自SCI或SSCI等数据库的软件进行格式转化,将数据导入Citespace或TDA、书目信息共现挖掘系统进行统计和可视化操作——将小类别按照主题自行分为大类别,不同聚类代表不同类别,如主题,研究方法,指标体系,指标体系构建方法等——(依据各类引文指标了解学科或某一主题的研究现状,趋势、热点判断,改进建议)。使用软件CNKI\SCI\WOS(数据库)+Tableau\Citespace\TDA(可视化操作软件)图例某领域发文数量,期刊名称,数据源(来自何种数据库),区域分布文献计量学领域代表人物与代表作品时间序列文献计量学领域研究热点知识图谱文献计量学领域研究前沿和趋势五、代表性应用1、科研创新目前国内对于科研创新评价,基本上是沿用文献计量学指标,关于科研创新评价指标体系的研究,目前还只停留在理论探讨或是构想中。可采用的几项科研绩效评价和创新评价的指标:论著数量、论著被引用次数、影响因子。使用科学计量学方法进行科研创新评价,是用计量统计方法去探寻科研活动规律,得出的是统计规律,其最大的优点和价值在于它的公正性、客观性和科学性。(事后评价)立项评价(新颖性和实用性)2、(医学领域)绩效评价:主要用文献计量学方法进行绩效评价指标体系现状研究;利用双向聚类方法揭示我国医院绩效评价研究的核心作者及其热点研究方向,发现存在的主要问题并提出相应改进建议。3、重大项目管理领域:本文利用Citespace分析所选5个著名理论以及重大项目管理的WOS数据库中的文献互引关系和作者互引关系,以寻找引用影响力较大的文本、出现的时间以及对应作者的相关参数,分析重大项目管理知识领域的演化过程、聚类情况以及高引用文献的涌现时间,探寻MPM领域研究特征、潜在经典文献出现的可能性以及发展趋势。4、战略性新兴产业技术发展趋势可视化研究文献计量学方法通常可以记录并反映技术发展历史和现状,利用此技术研究文献可以客观定位技术发展阶段和预测技术生命周期。