基于作者同被引分析的我国图书情报学知识结构及其演变研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于作者同被引分析的我国图书情报学知识结构及其演变研究马瑞敏/倪超群2012-9-2510:22:00来源:《中国图书馆学报》(京)2011年6期【英文标题】OnIntellectualStructureandtheEvolutionofLibraryandInformationScienceinChinaBasedonAuthorCo-citationAnalysis【作者简介】马瑞敏,博士,山西大学管理学院、省部共建工作研究中心讲师(太原030006);倪超群,美国印第安纳大学图书情报学院博士生。【内容提要】提出“聚类分析”和“pathfinder算法”为一体的可视化方法,阐述了其原理和实现步骤,在此基础上利用大样本数据,分时段研究了我国图书情报学知识结构,并分析了其发展演变的具体情况。研究表明,我国图书情报学在1998-2007年的研究主要集中在11个方面:文献计量、科学计量与信息计量,情报学基本理论与方法,竞争情报,网络信息组织、检索与服务,知识产权,知识管理与信息资源管理,数字信息资源开发与利用,目录学,信息标引与检索,图书馆学基本理论。随着时间的推移,网络计量学、竞争情报等方向逐步兴盛,传统目录学、数字图书馆等方向则走向分化或衰退。Basedonclusteranalysisandpathfinderalgorithm,thispaperproposedanewapproachtovisualizetheresultsofauthorco-citationanalysis,andexploredtheintellectualstructureandanalyzeditsevolutioncharacteristicsoflibraryandinformationscienceinChinausingtheproposedapproachwithalargescaleofdatarangingfrom1998to2007.TheresultsshowedthatresearchoflibraryandinformationscienceinChinaduring1998and2007mainlyfocusedonbibliometrics,scientometrics,informetrics,thefundamentalsofinformationscience,competitiveintelligence,networkinformationorganization,retrievalandservices,intellectualproperty,knowledgemanagementandinformationresourcesmanagement,digitalinformationresourcesdevelopmentandutilization,biographies,informationorganizationandretrieval,thefundamentalsoflibraryscience.Atrendwasalsoseenthatwithtimepassesthetopicsofnetworkbibliometricsandcompetitiveintelligencearegainingmomentum,whilethosetopicsofbibliographyanddigitallibraryarelosingmomentum.【关键词】图书情报学/作者同被引分析/知识结构/可视化/知识图谱Libraryandinformationscience/Authorco-citationanalysis/Intellectualstructure/Visualization/Knowledgemapping1、国内外研究述评作者同被引分析自从1981年由H.D.White和B.C.Griffith提出后便引起了学术界的广泛关注,当前其应用不仅局限在信息科学领域,而且已经渗透到其他学科领域。对于作者同被引关系的研究国外主要集中在三个方面:一是关于同被引矩阵如何转化的探讨和争论。这场讨论始于2003年P.Ahlgren、B.Jarneving等人[1]对同被引矩阵转化方法——“皮尔逊相关系数”的质疑,他们认为皮尔逊相关系数不适合作为同被引矩阵转化的方法,因为它对0模块敏感,且不符合相似性测度的两个基本条件,并建议使用Cosine等方法取代皮尔逊相关系数。他们的质疑吸引了众多科学计量学家的争论[2-4]。二是共现关系的可视化研究。当前,这方面的研究是科学计量学研究的热点领域之一。传统方法利用多维尺度分析(MDS)进行可视化[5],后来许多作者又利用Pajek、Ucinet既有工具进行图情学领域的可视化研究①。C.Chen等[6]和White等[7]利用Pathfinder算法、自组织映射(Self-organization)对作者同被引进行了可视化。还有一些作者提出了自己的可视化方法[8-10]。C.Chen[11]还研发了应用广泛的CiteSpace开放软件,极大地促进了该方面的研究。NWB科研小组[12]研发了功能强大的NetworkWorkbenchtool,可以实现基于多种算法的可视化需求。最近,Leydesdorff等[13]利用GoogleEarth、GoogelMap等工具对科学的地理分布进行了可视化研究。三是探索了纯网络环境下作者同被引的适用性。Leydesdorff和L.Vaughan[2]研究了GoolgeScholar环境下的作者同被引关系,他们发现作者同被引在纯网络环境也有较好的适应性。R.M.Ma和C.Q.Ni等[14]也研究了中文GoogleScholar下的中文作者同被引,发现得到的结果和实际情况基本相符,再次证明了作者同被引在纯网络环境下的适用性。作者同被引分析在我国也是研究热点,该领域有较多文章。主要集中在两个方面:一是利用作者同被引进行学科知识结构研究,比如刘林青[15]研究了战略管理研究领域的科学共同体;马费成和宋恩梅[16]研究了我国情报学的学科知识结构;刘则渊和他的博士生[17]在多个学科领域进行了科学知识图谱的研究。二是基于同被引的可视化系统开发,比如最近朱学芳、周挽澜等人[18]设计的中文作者同被引系统,该系统利用最小生成树等算法较清晰地勾勒出作者之间的同被引关系。本文首先尝试提出一种新的领域知识图谱构建方法,在此基础上利用中文社会科学引文索引(CSSCI)分时段进行我国图情学知识结构研究。本研究将选用大样本作者(大于100)为研究对象,力求对我国图情学的知识结构及其演化有一个全面而深刻的阐释。2、研究方法、数据来源与样本选择2.1一种新的领域知识图谱构建方法的尝试首先,就作者同被引分析得到的知识图谱而言,我们认为作者同被引分析结果的可视化需要达到以下几个标准:①结果呈现的简洁性。在一些作者同被引分析结果可视化中,我们看到很多作者之间都有着连线,纵横交错,呈现出复杂的网状结构,很难分辨清楚。比如一个作者可能和许多作者都有同被引关系,如果在图上都用连线表示出来,显得主次不分、重点不突出。所以,结果呈现要简洁,勾勒出作者之间、研究方向之间最主要的关系即可。②结果呈现的易读性。我们进行可视化的目的是为了让读者更加清晰方便地认识一个学科或者领域的科学交流知识结构。不仅是这个学科或者领域的读者,还包括其他学科或者领域对该领域感兴趣的读者。并且,每个读者对于一个学科或者领域的交流结构认识程度和水平是有差别的,如何让这些读者更明确地了解一个学科或者领域的结构无疑是非常重要的,让读者更便捷地了解结果应是可视化追求的目标之一。需要强调的是,简洁性和易读性有一定差别,简洁的结果不一定易读,而易读的结果应该是简洁的。③多研究方向作者的合理呈现。在作者同被引分析中,作者的研究方向决定了它的群体归属,如果用聚类分析进行分类,就难以看出作者研究方向的多样性,而作者研究方向的非单一性是普遍存在的。作者同被引分析结果的可视化满足这样的要求,才能更加科学。基于以上考虑,我们尝试提出一种集“聚类分析”和“pathfinder算法”为一体的可视化方法,具体原理如下:(1)就简洁性而言,pathfinder算法是当前最成熟且应用最广泛的实现方法,它可以勾勒出作者之间最重要的关系,简化掉那些相对不重要的关系[11]。但由于pathfinder算法要求计算矩阵为非相似性矩阵[19],而作者同被引矩阵是典型的相似性矩阵。另外,进行同被引分析时,一般都要对原始矩阵进行转化,本文使用的转化方法为标准化的欧几里得距离的平方(标准化的方法为Z-Score)这一非相似性算法,这样便较好地满足了pathfinder算法对矩阵属性的假设前提要求。(2)虽然pathfinder算法得到的结果简洁明了,但并不适合于分类分群解释②。本文使用聚类分析来弥补这一“缺陷”。在聚类分析中,矩阵转化算法仍使用标准化的欧几里得距离的平方,保证与pathfinder算法使用数据矩阵形式的一致性。聚类算法使用ward算法。通过两种方法的有机结合保障了可视化结果既简洁明了,信息又较为丰富,易于理解。(3)由于pathfinder和聚类算法毕竟是两种不同的算法,pathfinder的原理是最小生成树和三角形不等式公理[19],而聚类算法是ward算法,这就导致了一些作者归属类别的不一致性,这正好在一定程度上挖掘出并体现了作者研究方向的多样性,从而实现了“多研究方向作者的合理呈现”这一目的。这种可视化方法的具体实现步骤如下:①将原始矩阵转化为标准化的欧几里德距离的平方,标准化方法仍为Z分数③。②将标准化的欧几里德距离的平方矩阵作为输入矩阵求得它的pathfinder关系矩阵④,并转化为.net格式的文件,具体结构如图1所示。图1.net格式的PFNet结果③利用SPSS得到变量的聚类结果,并用M+1,M+2,…,M+N来表示聚类的类别,其中M为作者个数,N为聚类的类别个数。④将聚类类别加入第②步生成的.net文件的Vertices中,并且将每个作者的标号与聚类标号对应,强度可都设为-1(表示出来的是虚线),并且加入到Edges中。这样.net文件就变为图2的情况。图2.net格式的新方法关系网络结果⑤将第④步得到的结果进行Kamada-Kawai和Fruchterman-Reingold算法优化,使节点在平面分布更加合理⑤。2.2数据来源和作者选择本文的数据来源于中文社会科学引文索引CSSCI,具有较高的权威性,数据著录规范,并可以方便下载,但其并不能直接用于作者同被引分析,我们首先将数据下载,然后编写代码完成作者同被引原始矩阵的自动构建。本文选择1998-2007年,1998-2002年,2003-2007年这三个时间段分别探究图情学的知识结构及其演化,每个时间段的作者选择也有不同的标准,具体如下:①1998-2007年时段:这十年间按照总被引次数高低,筛选出被引次数在100次以上的作者,共132位。删除了与其他作者最大同被引强度在10以下的8位作者,最终选择124位作者作为最后的研究样本。②1998-2002年时段:这五年间按照总被引次数高低,筛选出被引次数在40次以上的作者,共134位⑥。删除了与其他作者最大同被引强度在5以下的16位作者,最终选择118位作者作为最后的研究样本。③2003-2007年时段:这五年间按照总被引次数高低,筛选出被引次数在60次以上的作者,共134位。删除了与其他作者最大同被引强度在10以下的22位作者,最终选择112位作者作为最后的研究样本。2.3其他一些细节说明①矩阵对角线赋值:本文使用“一个作者与其他作者同被引次数的最大值+1”作为该作者和自己的相似性度量方法,即作为矩阵对角线的值,保障了该作者和自己的相似性相对于其他作者是最大的[20]。②可视化结果的进一步解释:其中方块表示作者,方块大小表示作者相应时间段的总被引次数;圆圈代表研究方向(即聚类结果);虚线表示聚类结果得到的

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功