信息计量学主讲老师:王倩飞济宁医学院信息工程学院信息计量学第十四章网络环境下的信息计量研究第一节网络信息计量学概述20世纪60年代以来,在图书馆学、文献学、科学学和情报学领域相继出现了3个类似的术语:Bibliometrics、Scientometrics、Informetrics,分别代表着三个十分相似的定量性的分支学科,即文献计量学、科学计量学和信息计量学(情报计量学)。随着信息科学和信息技术的迅速发展以及互联网的普及应用,信息资源由早期的实物化、纸质化阶段进入到电子化、数字化和网络化阶段,网络信息交流活动迅速激增,原有的信息计量指标已不再适用于测度评估网络信息资源了,其结果就是导致了信息计量学进一步发展成为“互联网上的信息计量分析”(Webometrics)。网络信息计量学的诞生,本质上说,乃是科学计量学、文献计量学、情报计量学和技术计量学在新的信息网络时代经过革命改造的结果。一、网络信息计量学的产生与发展信息计量学第十四章网络环境下的信息计量研究网络信息计量学第一节网络信息计量学概述第二节网络数据的获取与处理第三节网络信息计量学的应用信息计量学一、网络信息计量学的产生与发展1990年Paisley提出将信息计量方法应用于电子通信领域,他明确指出电子信息将成为文献计量学研究的主流。1996年,Mckiernan根据引文含义,提出了“sitation”的概念,用以研究网页之间的引用关系。1997年Almind等人在“JournalofDocumentation”上发表的文章《万维网上的情报计量学:网络计量方法门径》(ImformationAnalysisonthe:MethodologicalApproachesto“Webometrics”),首先提出了网络信息计量学一词,开创了网络信息计量学研究的先河。1997年,网络电子期刊Cybermetrics创刊。在每隔两年召开的国际文献计量学、信息计量学及科学计量学研讨会上,从1997年开始加入了网络计量学这个论题议程。第一节网络信息计量学概述第十四章网络环境下的信息计量研究信息计量学一、网络信息计量学的产生与发展网络信息计量学是采用数学、统计学等各种定量方法,对网上信息的组织、存贮、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以便揭示其数量特征和内在规律的一门新兴分支学科。它主要是由网络技术、网络管理、信息资源管理与信息计量学等相互结合、交叉渗透而形成的一门交叉性边缘学科,也是信息计量学的一个新的发展方向和重要的研究领域。第十四章网络环境下的信息计量研究第一节网络信息计量学概述信息计量学二、网络信息计量学的研究对象和研究内容①网络最基本的信息单元“比特”,包括数字信息或文字信息,集文字、图像和声音为一体的多媒体信息,以字节为单位的信息量和流量的计量分析等;②网上文献信息及其相关特征信息的计量问题。如网上电子期刊、论文、图书、报告等各种类型的文献,既涉及网上一次文献,又包括二次、三次文献的计量问题;对网上文献著者分布规律、分散规律、文献增长规律、老化规律、引文分析规律的分析与研究。③网络结构单元的信息计量问题,网络结构单元包括站点、布告栏、聊天室、讨论组、电子邮件等,对以上网络结构单元的信息计量研究可以从宏观上揭示网络文献的特征和规律,帮助人们更好地管理和利用网络信息资源。第十四章网络环境下的信息计量研究第一节网络信息计量学概述信息计量学二、网络信息计量学的研究对象和研究内容1.网络信息计量学的基本问题研究2.网络信息计量学的理论问题研究3.网络信息计量学的方法问题研究4.网络信息计量学的技术问题研究5.网络信息计量学的应用问题研究6.网络信息资源计量管理对策问题研究第十四章网络环境下的信息计量研究第一节网络信息计量学概述信息计量学三、网络信息计量学的基本概念第十四章网络环境下的信息计量研究第一节网络信息计量学概述(一)链接术语施链与被链:如果网站A的网页链接了网站B的网页,即网站A是施链网站,而网站B为被链网站。外部链接:又叫站外链接、链入、入链、externallink、inboundlink。指外部网站或网页指向某网站资源的链接。站内链接:又叫内部链接、自链、内链、自引、self-link、inlink,某网站内部一种资源指向其内部另一种资源的链接。出链:又叫链出、outlink,某网站指向其他网站资源的链接。信息计量学三、网络信息计量学的基本概念第十四章网络环境下的信息计量研究第一节网络信息计量学概述(一)链接术语链接耦合:如果网站A和网站B同时指向某一网站,则称网站A和网站B之间存在着链接耦合,链接相同站点的次数称为链接耦合数。共链:如果网站A和网站B共同被其他网站链接,则称网站A和网站B共链。A与B共同被链的网站数,称为共链强度。信息计量学三、网络信息计量学的基本概念第十四章网络环境下的信息计量研究第一节网络信息计量学概述链接术语出链、链出、outlink:指向其他网站资源的链接站内链接被链网站施链网站信息计量学三、网络信息计量学的基本概念第十四章网络环境下的信息计量研究第一节网络信息计量学概述(二)网络影响因子(webimpactfactors,WIF)网络影响因子指的是在某个特定的时间,某个网站(或某个国家的网站)被其他网站和其自身所链接的网页数目的逻辑和除以该网站(或该国家的网站)的所有网页数。)该网站的总网页数()接数(某一时刻某网站的总链baWIF信息计量学三、网络信息计量学的基本概念第十四章网络环境下的信息计量研究第一节网络信息计量学概述(二)网络影响因子(webimpactfactors,WIF)该网站的总网页数链接数某一时刻某网站的外部外部WIF该网站的总网页数链接数某一时刻某网站的内部内部WIF外部网络影响因子:评价网站影响力内部网络影响因子信息计量学一、网络数据的获取第十四章网络环境下的信息计量研究第二节网络数据的获取与处理(一)网络信息计量工具搜索引擎:条件:(1)数据库的覆盖范围是否足够大,这样才能保证结果的准确性。(2)数据库必须经常更新,因为网络上每天都有成千上万的新网页产生和旧网页消失。(3)能够检索特定网站的全部网页。(4)能够检索网站页链接的所有网页。(5)能够很好地支持布尔逻辑运算。(6)性能稳定,即在一个数据更新期内,用具有相同含义的检索表达式进行检索所得到的结果应该一样。常用工具:AltaVista、AlltheWeb优点:适用于大范围Web网的搜索。缺点:覆盖范围有限,且存在国家和地区的偏见;算法属于商业机密,限制了在科学研究中的使用;结果是不可靠和波动的。信息计量学一、网络数据的获取第十四章网络环境下的信息计量研究第二节网络数据的获取与处理(一)网络信息计量工具自主开发的网络爬行器优点:检索算法更科学,能更准确有效地计算网站的总网页数及链接数。缺点:不适合大面积Web网的搜索。信息计量学一、网络数据的获取第十四章网络环境下的信息计量研究第二节网络数据的获取与处理(二)其他数据收集方法Web日志文件数据库Cookie网上数据调查方法用户注册信息离线数据收集方法信息计量学二、网络信息研究方法第十四章网络环境下的信息计量研究第二节网络数据的获取与处理(一)网络链接分析链接分析(linkanalysis)就是对网页之间的链接进行量化研究。链接分析法就是运用网络数据库、数学分析软件等工具,利用数学和情报学方法,对网络链接自身属性、链接对象、链接网络等各种对象进行分析,以便揭示其数量特征和内在规律,并用以解决各方面问题的一种研究方法。链接分析的思想基于两个基本假设:假设1:从网页A指向网页B的链接是网页A对网页B的推荐或认可。假设2:如果一个链接将网页A和网页B连接起来,说明网页A和网页B可能有共同的主题。信息计量学二、网络信息研究方法第十四章网络环境下的信息计量研究第二节网络数据的获取与处理(二)数据挖掘法数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。在网络信息计量学中,可以使用数据挖掘方法对一个站点的各种特征进行深度研究,也可以利用链接挖掘技术代替自然语言对网络资源进行描述,帮助实现网络信息资源的自动标引。信息计量学二、网络信息研究方法第十四章网络环境下的信息计量研究第二节网络数据的获取与处理(三)可视化方法可视化方法是从图形的角度,运用网络绘图和信息技术来研究网页超级链接的拓扑结构,描述整个网络的结构。运用图形进行分析的方法,可以使人们更好地理解网络的复杂结构。信息计量学二、网络信息研究方法第十四章网络环境下的信息计量研究第二节网络信息计量学的获取与处理(三)可视化方法可视化方法是从图形的角度,运用网络绘图和信息技术来研究网页超级链接的拓扑结构,描述整个网络的结构。运用图形进行分析的方法,可以使人们更好地理解网络的复杂结构。信息计量学二、网络信息研究方法第十四章网络环境下的信息计量研究第二节网络数据的获取与处理(四)内容分析法内容分析法是“一种对具有明确特性的传播内容进行的客观、系统和定量的描述的研究技术”。它通过对信息内容“量”的分析,找到能反映信息内容的一定本质性并且易于计数的特征,从而克服定性研究的主观性和不确切性的缺陷,达到对信息“质”的更深刻、更透彻的理解。(五)统计分析法聚类分析、相关分析信息计量学一、网络信息计量学的应用领域第十四章网络环境下的信息计量研究第三节网络信息计量学的应用核心网站评选学术网络分析世界大学评价网络引文分析Web2.0测度对搜索引擎进行研究链接动机信息计量学大学评价世界大学评价2004年起,由西班牙网络计量研究中心主持指标:规模size、能见度visibility、学术档案richfiles、学术论文scholar中国大学网络排名由中国科学评价中心主持指标:网页规模、学术文件数、文档丰富度(包括pdf、ps、doc、ppt、rtf等格式)、被链接数、显示度(由百度搜索到的与大学相关的结果页面数和大学词条浏览数按比例合并计算)结果:北京大学清华大学浙江大学山东大学上海交通大学厦门大学复旦大学武汉大学华东师范大学南京大学东南大学西安交通大学中国人民大学华中科技大学北京师范大学南开大学吉林大学华中师范大学武汉理工大学兰州大学信息计量学二、网络信息计量研究的局限性第十四章网络环境下的信息计量研究第三节网络信息计量学的应用网络计量学缺乏有效的理论依据网络数据可再现性差网络计量研究缺乏完善、有效的工具网络信息计量研究方法还不成熟信息计量学一、核心网站的评选网络信息计量的热点问题核心网站:由某种评价指标体系确定的、满足用户需求的、并符合少量的资源具有较大的产出原则的若干个网站。评选方法①基于超文本链接的核心网站评价(单指标评价方法);②基于多指标的综合评价方法:定性评价:网站的权威性、准确性、客观性、时效性、主题覆盖度;定量评价:网站被访量、网站被链量、网站的权威作者数、网站被文献引用量、重要搜索引擎被索度等。信息计量学一、核心网站的评选网络信息计量的热点问题综合评价法评选核心网站的步骤:①相关网站初始集的采集(利用合适的搜索引擎);②构建评价体系(针对不同的指标,对网站进行分组);③确定核心网站选取比例(直接确定、布拉德福定律、其它);④核心网站的可靠性检验(检验评价指标的可靠性、核心网站的质量)。信息计量学二、网络影响因子网络信息计量的热点问题1.WIF的计算)该网站的总网页数()接数(某一时刻某网站的总链baWIF信息计量学二、网络影响因子网络信息计量的热点问题1.WIF的计算分子的改进:链接指标:总链接数、外部链接数、内部链接数、来自不同类型链源的链接数计量单位:网页、网站、目录、域名分母的改进:链接指标:网页总数、非网络数据信息计量学二、网络影响因子网络信息计量的热点问题2.WIF的应用对象基础应用-------网络评价深度扩展-------网域评价广度扩展-------机构评价信息计量学二、网络影响因子网络信息计量的热点问题3.W