科研文献的信息分析讲座之二科技文献的可视化分析韩冬丽厦门大学图书馆生物及医学学科馆员dlhan@xmu.edu.cn科研工作的基础文献信息素养了解图书馆资源检索基本知识常用数据库RSS订阅EndnoteX4MendeleyNoteExpressGoogleWaveMendeleyzoteromindmanagerRefVizQuosaCitespacePublishorPerish信息素养主要内容一、可视化分析二、Citespace三、PublishorPerish四、文献信息综合分析实例Knowledge信息世界的三个基本元素DataInformation三个基本可视化的形式KnowledgeVisualizationDataVisualizationInformationVisualizationScientificVisualization1980’s1990’s2000’s2010’sInformationVisualizationmappingknowledgedomains1、科学知识图谱(mappingknowledgedomains)科学知识图谱是可视化显示知识资源及其关联的一种图形,可以绘制、挖掘、分析和显示知识间的相互关系。有助于了解和预测科学前沿和动态,挖掘开辟新的未知领域。基本原理:分析单位(科学文献、科学家、关键词等)的相似性分析和测度。基本方法:引文分析、共被引分析、聚类分析、词频分析、社会网络分析常用可视化分析挖掘工具面向科研评价领域ArnetMiner;CiteSpace;PaperLens;TDA:Thomsondataanalysis面向全领域TheNetworkWorkbench(NWB);IVC;CNetMiner;D-Dupe面向社会科学领域:UCINET社群网络分析挖掘软件面向功能专题的工具CFinder;C-Group;KrackPlot2、面向科研领域1.ArnetMiner:科研合作网的专家检索系统网址:主要面向研究社会网络的各种特征,提供在线的作者资料检索,是相关领域及合作关系挖掘软件。可以很好地找出领域专家、作者从事的领域、合作团体等。该软件偏重于对单个作者信息的检索和挖掘,对领域专家和科研评价都有比较好的效果。专家搜索主题搜索两人间关系搜索排名字段2.CiteSpace:专门针对科研文献数据设计的可视化分析软件分析、挖掘和可视科研文献数据的应用软件,通过引文分析和聚类分析寻找研究热点及趋势,并以可视化的方式展示。3.TDA:Thomsondataanalysis基于文本信息的分析和可视化工具,提供强大的可视搜索和挖掘功能功能全面,涉及检索、分析、统计、可视化等各方面的功能。收费软件。二、Citespace什么是citespace?•Citespace是一款应用于科学文献中识别并显示科学发展新趋势和新动态的软件。•利用Citespace寻找某一学科领域的研究进展和当前的研究前沿,及其对应的知识基础。一些概念研究前沿(ResearchFronts):研究前沿系指临时形成的某个研究课题及其基础研究问题的概念组合,也是正在兴起或突然涌现的理论趋势和新主题,代表一个研究领域的思想现状。在CiteSpace中,采用Kleinberg的突变检测算法来确定研究前沿中的概念,基本原理是统计相关领域论文的标题、摘要、系索词和文献记录的标识符中词汇频率,根据这些词的词频增长率来确定哪些是研究前沿的热点词汇。根据这些术语在同一篇文章中共同出现的情况进行聚类分析后,可以得到“研究前沿术语的共现网络”。知识基础(IntellectiveBase):即含有研究前沿术语词汇的文献的引文,实际上它们反映的是研究前沿中的概念在科学文献中的吸收利用知识的情况。对这些引文也可以通过它们同时被其他论文引用的情况进行聚类分析,即同被引聚类分析,最后形成了一组被研究前沿所引用的科学出版物的演进网络,即“知识基础文献的同被引网络”。根据引文半衰期的明显不同,科学文献可分为:经典文献(classicarticals):持续高被引的文献过渡文献(transientarticals):在短暂时间内达到被引峰值的文献科研前沿——过渡文献知识基础——这些过渡文献的引文CiteSpace研究的三个网络“研究前沿术语的共现”“知识基础文章的同被引”“研究前沿术语引用知识基础文章”(过渡文献引用经典文献)Citespace的工作原理图Citespace的安装是否安装JAVA开机进入网站:~cchen/citespace/OR离线开启下载JAVA并安装否是Citespace的安装Citespace的操作步骤•确定关键词和专业术语•收集数据•提取研究前沿术语•时区分割•阀值选择•精简和合并•显示•可视检测•验证关键点确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点•运用尽可能广泛的专业术语来确定一个知识领域。这是为了确保接下来的分析能涵盖一个知识领域的全部内容。•Example:纳米生物技术nanobiotechnolog数据源:SCIE检索策略:Topic=(nanobiotechnolog*)ANDYearPublished=all目前citespace数据主要来源于webofscience。1、用步骤1确定的关键词wos上进行检索。确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点1、用步骤1确定的关键词wos上进行检索。确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点1、下载数据,包括题目、摘要和被引文献。每个文献记录代表一篇引文(citingarticle),在每条记录中的参考文献被称为被引文献(Citedarticle)确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点1、以文本形式保存确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点1、文件必须以Download开头Download_xx.txt格式确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点数据的导入123确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点4引文题目、摘要、系索词(descriptors,标引主题的单元词或词组)和标识符名词性术语突发词提取研究前沿术语123确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点从数据的引文题目、摘要、系索词(descriptors,标引主题的单元词或词组)和标识符中检索N元文法(n-grams)或专业术语,出现频次增长率快速增加的专业术语被确定为研究前沿术语。提取研究前沿术语软件提供了词频增长检测(burstdetection)算法,该算法主要通过考察词频的时间分布,将那些频次变化率高、频次增长速度快的“突发词”(bstterm)从大量题录的常用词中检测出来,用词频的变动趋势,而不仅仅是词频的高低,来分析科学的前沿领域和发展趋势。“突现”词可以展现知识领域的研究前沿和发展趋势。通过生成共引文献网络以及施引文献主题词的共词网络,即得到一个由这两个网络共同构成的共引与共词混合网络(hybridnetworkofcitedartieleandeitingterms)图谱,可以展示出学科知识领域的重要被引文献以及由施引文献主题词所表达的重要研究领域或其前沿趋势。确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点时间切片采取分治法,时间间隔被分成很多时间段,每个时间段都能形成一个独立的共引网络。再将单独网络按时间序列合并在一起,从合并网络的可视化图谱上显示出了相邻时间段的主要变化,进而找出学科领域的关键文献,探寻出图谱中重要的节点、中心点、关键点等。从而对学科演进的关键路径和学科发展脉络进行清晰的梳理,探测学科知识领域在发展演进过程中的动力因素和背景。可视检测——节点类型的选择合著作者合著机构合著国别共现词共现关键词共现目录共引文献(DCA)共引作者(ACA)共引杂志(JCA)确定主题词和专业术语收集数据提取研究前沿术语时区分割节点选择显示可视检测验证关键点相关文献资助基金节点类型的选择可以选择单独的节点,生成单一网络也可以选择多个节点,生成混合网络确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点C引文数量、CC共被引频次、CCV共被引系数三个层次设定阀值,其余的由线性内插值决定。确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点聚类显示和时间线显示共被引文献和关键词混合网络确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点Timeline确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点某单个时区的引文时间区分首次共被引年份出版年代被引频次引文年环代表这篇文章的引文历史。引文年轮的颜色代表相应的引文时间。一个年轮的厚度与某个时间分区内引文数量成比例。节点中心旁的数字代表整个时间跨度内的被引次数确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点共引文章的合并网络显示合并网络视图选项显示各时间切片的网络确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点★共引文章的合并网络确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点★经pathfinder裁剪的个体共引网的合并网络修剪选项关键路径和最小生成树算法对各时间切片的个体共被引网络修剪或合并网络修剪确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点★经pathfinder裁剪的个体共引网的合并网络确定主题词和专业术语收集数据提取研究前沿术语时区分割阀值选择显示可视检测验证关键点在citespace软件应用的基础文献中,软件作者认为,关键点的本质可以通过两条途径来确认:1、将关键点文章的作者视为该领域的专家,咨询;2、对关键点文章的引用和被引用的段落进行内容分析。三、PublishorPerishPublishorPerish简介−一款文献检索及分析软件−基于GoogleScholar获取原始引文信息−提供作者影响分析−文献及杂志的影响因子分析软件的作者Anne-WilHarzing教授下载地址的界面查询区分析结果区主要的查询分析方式1、AuthorImpactAnalysis2、JournalImpactAnalysis3、Generalcitationsearch4、Multi-querycenter不同的查询方式更改查询方式查询内容的填写包含字符串不包含字符串时间范围基本查询的信息输入查询领域选择类似于WebofScienceBiology,LifeSciences,EnvironmentalscienceBusiness,Administration,Finance,EconomicsChemistryandMaterialsScienceEngineering,ComputerScience,MathematicsMedicine,Pharmacology,VeterinarySciencePhysics,Astronomy,PlanetarySc