知识图谱及CiteSpace基本概念CiteSpace使用方法主要内容CiteSpace应用案例分析科技知识查获路径1、知识图谱应用原理概要•社会网络法•科学知识图情•CiteSpace应用领域•CiteSpace原理&概念1.1社会网络法基本概念社会网络分析(SocialNetworkAnalysis)社会网络分析方法是由社会学家根据数学方法﹑图论等发展起来的定量分析方法。社会网络代表着一种结构关系,它可反映行动者之间的社会关系,构成社会关系结构及其属性1.2科学知识图谱基本原理科学知识图谱以科学知识为计量研究对象,显示科学知识的发展进程与结构关系,用数学方程式表达科学发展规律,采用引文分析方法以及信息可视化技术,采用曲线、图谱等形式将科学发展规律绘制成二、三维、知识图谱、知识地图等图形科学知识图谱基本原理是分析信息知识单位(科学文献、科学家、关键词等)的相似性及测度。采用不同的方法和技术绘制不同类型的科学知识图谱科学知识图谱科学知识图谱绘制:通过数据挖掘、信息处理、知识计量和图形绘制把复杂的学科知识显示出来,直观地标注研究领域在科学知识版图上的位置,构建其知识结构与框架分析方法:社会网络法、聚类分析、(共)引文分析、因子分析、多维尺度分析等分析软件:CiteSpace、Pajek、Ucinet、Netword、Scimap、Aureka、Bibexel、Wordsmith等1.3CiteSpace基本原理可以解决问题1、识别研究前沿将新兴的研究趋势和新出现的科研主题,映射于对应的知识基础(高共引文献)2、标注研究前沿从Title、Abstract、Descriptors、Identifiers中提取突变词(burstterms),以识别学科新趋势、新方向、新领域、新主题3、寻找关键节点关键节点控制科研走向;其余节点以关键节点为核心形成学科结构基本理论1、研究前沿(researchfront)一组突现的动态概念和潜在的研究问题2、知识基础(intellecturebase)在科学文献中(引用研究前沿术语的科学文献所形成的演化网络)的引文和共被引轨迹3、社会网络分析以强调(学术或作者间)关系(节点间路径)的研究,映射学术(研究者)关联;突出节点在关系网络中位置,构建关键节点4、标签(聚类)词选取基于信息论的3种算法tf*idf、Log-LikelihoodRatio、MutualInformation,找出合适聚类词,以标识学科(研究)领域、前沿5、精简网络采用PathFinder关键路径网络法、MinimumSpanningTree最小生成树法选择地控制图中点连接密度,精简复杂的分析网络6、时间抓拍的概念模型用时间切片抓拍(Time-slicedsnapshot)来显示学科(研究)演变、学术关联等----引自《科学知识图谱方法与应用》CiteSpace是2003年由美国Drexel大学陈超美教授开发的。这个系统利用可视化技术,在知识领域中帮助用户进行突发趋势和技术预测等分析1.4科学知识图谱CiteSpace为科研能做……用科学计量学和知识图谱方法,为科学观察、发现、跟踪提供参考途径识别科研前沿,发现科学问题揭示科研进展,跟踪科研演变构建学科结构,明晰科研布局观察学术关系,了解竞争对手判断经典文献,辅助科研概述……并同时具有艺术享受CiteSpace2.2R11ChaomeiChen2、CiteSpace应用案例及方法概要•学科领域---前沿、新兴、领域、进展•科研竞争力---国家、机构、领军人物、研究水平•核心文献---热点论文、核心期刊2.1.1研究前沿、新兴前沿分析研究前沿析出方法用共引(现)词频(category、term、keyword或citedreference)+术语词组(nounphraces)分析,从分析网图揭示研究前沿分析结论:NSF“水体污染控制与治理技术”的研究前沿为2个领域:2003-05年间的“环境工程”;2006-2009年间的“合作研究”分析结论:“红外量子论”研究在05-10年间出现一个新兴前沿:In-A量子点-阱数据设置“NSF水污染”研究前沿分析网新兴研究前沿析出方法利用突现词频(burstterm)+共引(现)词频(category、term、keyword或citedreference,从DCA混合分析网络揭示新兴前沿图谱分析:根据“研究前沿”理论,析出2个聚类,对应表征2个研究前沿数据设置图谱分析:按突现率3.09指标,析出1个红色方节点,表征1个新兴前沿“红外量子点-阱”新兴前沿分析网2.1.2研究(学科)转折(关键)点分析分析结论:“红外探测器”近年5个关键研究前沿:超晶格、红外探测器、光探测器、镓化合物、光吸收研究(学科)转折(关键)点析出方法利用共引(现)词、款目词(category、term、keyword或citedreference)+术语词组(nounphraces),从DCA混合分析网络揭示关键/转折研究前沿数据设置图谱分析:按中性度大于0.1原理,析出5个紫色节点,表征5个关键/转折研究前沿“红外探测器”关键前沿分析网2.1.3学科进展、发展态势分析用时区图(timeline、timezone)分析,显示学科进展、发展态势:从1976年以来,NSF“纳米环境健康与安全”研究经历了三个发展阶段:1、第一阶段:1996年最早始于1996年,资助项目主要侧重污染防护研究项目建议,典型的有:“乳清渗透生物降解除冰两级发酵”研究建议等。。。。。分析方法:用共引(现)词频(category、term、keyword或citedreference)构建分析网时区图timeline分析结论:NSF水污染-人口与社会生态群落”研究进展:1、1977-79年水环境生态系统、生化研究。。4、1990-92年跨系统研究。。。5、2001-09年。。。。“研究进展”分析网图谱分析:根据点群颜色、构成、高词频文献,分析得出研究进展,发展态势数据设置数据设置2.1.4研究领域、结构分布用分类(categrey)揭示研究领域分布图谱分析及其结论:根据研究聚类分析,从1979-2009年,NSF资助项目“水污染”的研究结构分布于20多个方面:图谱分析:根据学术专业词聚类,析出若干节点,表征研究领域、结构分析结论:红外器件研究主要涉及十几个领域,其中重点领域为:光学、光谱学、成像、材料、计算机用共被引(现)词+研究聚类,揭示研究结构构成数据设置数据设置“NSF水污染”研究前沿分析“红外器件研究领域”分析网“NSF水污染研究结构”分析网3、CiteSpace应用案例及方法概要•学科领域---前沿、新兴、领域、进展•科研竞争力---国家、机构、领军人物、研究水平•核心文献---热点论文、核心期刊•完整案例---六维力传感器发展趋势研究2.2.1科研竞争力—国家分布分析策略:通过国家(country)或+术语词组(nounphrases)(或学科聚类),获得研究国家、竞争国以及学科间关系分析结论:“红外器件”研究(发文)大国为:美国、中国、日本、德国、法国等分析结论:“红外器件”方面,中国主攻领域:量子阱红外探测器等方面;美国、英国、澳大利亚等分别涉及2个前沿领域:红外光电探测器、毫微米红外探测器数据设置“红外器件”国家分布网“红外器件”国家+术语网美国日本法国2.2.2科研竞争力—研究机构分析分析策略:通过机构(institu*)或+术语词组(nounphrases)(或学科聚类),获得研究机构分布、竞争对手以及机构研究间关系分析结论:在前沿主题分布中,中科院机构侧重“红外量子阱”、“光电探测器”、“红外焦平面”研究;与澳大利亚国家研究院“、”中国科大“等研究主题非常接近分析结论:在“红外器件”学科中,中科院机构占有很大份额数据设置从发文角度分析,“红外器件”中科院为高发文机构“红外器件”机构网“红外器件”机构+术语词组网“红外器件”国际研究机构分布“红外器件”国际机构排行“红外器件”机构+学科聚类网2.2.3科研竞争力—学术个人(作者)分析分析策略:通过作者(author)或共引作者(citedauthor)+术语词组(nounphrases)(或学科聚类),获得领军人员、合著者、竞争对手以及合作关系分析结论:“红外光电探测器”主研人员均是国外科研人员分析结论:“红外器件”3名高发文作者,分别为美国、加拿大等数据设置“红外器件”作者+前沿主题网“红外器件”(发文)共现作者网“红外器件”共引作者网分析结论:“红外器件”高共引文作者,分别为美国、加拿大、韩国等;中国高校、中科院等多数为合著者,如…2.2.4科研竞争力--研究水平分析需求分析对X所X引进人才“InN纳米花结构”研究水平评估数据处理1.数据制备用SCI、ISTP、EI数据库,采用XX检索式,在主题项中检到“2000-2010InN纳米花结构”XX条文献数据2.导入CiteSpace;数据处理、构建分析网:节点类型:phrases、citedreference分析网类型:ACA+学科聚类数据设置“InN纳米花””共现作者+学科聚类网“纳米花”共引作者+学科聚类网分析结论:从分析网图谱1-2分析出近10年国际“纳米花”或“InN纳米花”晶体结构生长方面,无论“第一人”或“第一时间”或“首创方法”等方面,都没有这位引进人员3、CiteSpace应用案例及方法概要•学科领域---前沿、新兴、领域、进展•科研竞争力---国家、机构、领军人物、研究水平•核心文献---热点论文、核心期刊2.3.1核心文献—重点科技论文分析分析策略通过共现词频(term或keyword)或共引文献(citedreference)分析,获得关键文献分析结论:“六维力传感器”近10年的10篇高词频或高引频文献“六维力传感器”共现(引)文献网2.3.2核心文献—核心资源分析分析策略通过共引期刊(citedjournal)分析,获得核心学科资源分析结论:得到“红外器件”近10年6种高中性度文献资源分析结论:得到“红外器件”近10年70多种高词频核心文献资源数据设置“红外器件”共引期刊网“红外器件”共引期刊词频排行2.4研究主题全球分布概览利用CiteSpace在Google地图上,生成研究主题在世界各地区的分布“六维力传感器”在中国研究的地区分布“六维力传感器”在西欧等世界个地区的研究分布3、CiteSpace使用方法概要•概念名词•数据类型•图谱判读•使用步骤•地球地图生成法3.1概念词定义1Nodes节点--在图谱中节点即曲线中的控制点、交叉点,网络连接的端点,根据共引(共现)频次统计而形成的各色方圆节点Centrality节点中心性(度)--是指其所在网络中通过某节点的任意最短路径的条数,是网络中节点在整体网络中所起连接作用大小的度量Betweennesscentrality中间中心性—用来进行中心性测度的指标,指网络中经过某点并连接这两点的最短路径占这两点之间最短路径线总数之比。中间中心性高的节点为关键节点,呈紫色方圆节点;位于连接两个不同聚类的路径上的节点为“转折点”Burstterms突现词—通过考察词频,将某段时间内频次变化率高的词从大量的主题词中探测出来Citationtree-rings引文年环—代表着某篇文章的引文历史。引文年轮的颜色代表相应的引文时间。一个年轮的厚度和与相应时间分区内引文数量成正比。Citationhalf-life引文半衰期Citation引用;Co-citation共引—2篇文献同时被1篇以上文献引用,以引用它们的文献数量作为共引强度Clusterview聚类视图Co-authors合作者某单个时区的引文被引次数引文年环1)引文多少2)引文时间节点连线颜色表示首次共被引年份----基于肖永红课件修改中间中心性高的形成关键或转折点共(被)引阈值1年分区cccccv文章数单节点数连线数3.1概念词定义2MeSHterms–医学主题词,美国国家医学图书馆编制的权