·本章先以文献信息为对象,从纵向(随时间变化的分布动态)和横向(在不同载体和领域的分布状态)来研究信息分布的特征和规律,介绍一些文献信息分布的主要经典定律。在此基础上,对网络环境下信息资源的分布进行初步的探讨。3信息分布3.1.1马太效应的表现和作用形式·核心趋势·高产作者群体的形成·期刊信息密度增大·高频词汇的确立·集中取向·一篇论文多次被引·一个网站被众多用户点击3.1信息产生与分布中的马太效应·信息分布的富集现象·突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效·核心益信。息源·忽略分布在其他信息源中有价值的信息·马太效应青睐名人、拒绝新人的习惯势力限制了新思想新、知识和新信息的产生及传播3.1.2马太效应的负面影响·信息的离散分布是信息的重要属性,它表现为信息的内容单元以不同方式从不同角度分布于各种载体中,信息的离散分布具有复杂的机理,本质上是由信息的生产和利用决定的。3.2信息内容的离散分布规律·布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律他。在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradford’sLawofScattering)·布拉德福定律的区域表述形式:如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来就,可以在所有这些期刊中区分出载文率最高的‘核心部分’和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1∶a∶a2的关系(a1)。3.2.1布拉德福定律表3-1应用地球物理学论文的布氏分布3.2.1布拉德福定律·如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。BDNLogenR(N’)CAOR(n)R(N)R(n1)n1N’图3-1布拉德福分散曲线3.2.1布拉德福定律布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线。B.C.布鲁克斯用下述模式来表示布拉德福定律:·布拉德福定律有两个基本要点:一是频次等级排序,形成主体来源(期刊)的有序目录;二是确定相关论文在主体来源中的分布规律。具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但它所揭示的都是论文在期刊中的分散规律。·布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究则基本上是空白。3.2.1布拉德福定律如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:式中c为常数。上式称为齐夫定律。3.2.2齐夫定律·如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:3.2.2齐夫定律表3.RfLgrLgf140005.9922000.695.3031331.104.892词频分4布1001.384.605801.614.386661.794.197581.944.068502.083.919442.203.783.2.2齐夫定律f30025020015010050r213456Lgf图3.2齐夫词频分布曲线Lgr图3.3齐夫词频对数分布分布曲线图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为3.2.2齐夫定律·信息生产者在信息生产过程和生产结构中呈现何种规律,这种规律对信息分布有何影响,这是一个意义重大而又很难的课题。本节将以科学信息的生产为基础来研究和回答这一问题。3.3信息生产者分布规律·1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院学报》上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。3.3.1洛特卡定律洛特卡选择美国《化学文摘》和德国奥尔巴赫《理物学史一览表》为数据源研究科技工作的论著数量分布。他统计分析了《化学文摘》1907~1916年10年累积索引中的部分作者,即姓氏以字母A和B开头的68位91作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。《物理学史一览表》包括了1900年前物理学领域内出现的1325位物理学家及其论著,取其全部数据进行统计。3.3.1洛特卡定律·洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和logyx)作图,两组数据都是直线(如图所示)。图中虚线表示《化学文摘》数据,实线代表《物理学史一览表》的数据。用最小二乘法计算拟合直线的斜率,近似为-2。LogxLog10y0x20105112352530图3-4洛特卡分布曲线3.3.1洛特卡定律之间存在根据洛特卡分析,在论文数x和作者数下列关系:式中,是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。通过变换可以得到下面的公式:3.3.1洛特卡定律令,实际表示写x篇论文的作者出现的频率.是新的常量,表示作者取样总数比例,这样可以写成:两边积分得:于是,C=0.6079=60.79%3.3.1洛特卡定律按照平方反比分布,所有生产一篇论文的著者的比例刚刚超过60%。例如在《物理学史一览表》数据中,共有1325名作者,写一篇论文的为784人,占总数的59.2%。如果取绝对数,则可表述为:生产2篇论文的作者大约是生产1篇论文作者数的(即)生产3篇论文的作者大约是生产1篇论文作者数的(即)生产n篇论文的作者大约是生产1篇论文作者数的3.3.1洛特卡定律在某一特定领域中,全部论文的半数系由该领域全中部作者的平方根的那些人撰写的。该定律可表示为:(3-13)式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数。m可由下式确定:(3-14)3.3.2普赖斯定律·研究信息在时间轴上的动态分布规律可以揭示信息的增长与老化,用科学高效的理论模型来刻画信息随时间的推移所表现出来的趋势,把握信息量的变化,对信息实施动态管理。3.4信息对时间的分布规律横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律。这就是著名的普赖斯曲线。3.4.1指数增长律(1)普赖斯曲线如果我们以文献量为F(t)纵轴,以历史年代为10010t100001000166517501800185019001950图3-5普赖斯曲线通过对曲线分析,普赖斯最先注意到文献增长与时间成指数函数关系。如果用F(t)表示时刻t的文献量,则指数定律可表为下式:…………(3-22)式中:a是统计的初始时刻(t=0)的文献量;e=2.718;b表示持续增长率。人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即…………(3-23)式中:t′为文献量翻倍时间,b为持续增长率。3.4.1指数增长律实际的统计发现,不同时期、不同级别、不同质量、不同学科领域的文献信息增长态势是不一样的。勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大。勒希尔认为,文献的数量与其质量有关。他定义λ(0≤λ≤1)为文献的质量级别,则不同级别上的文献量为[F(t)]λ。他给λ的具体值如下·:λ=1:至少是一般文献(实际代表所有文献)·λ=3/4:至少是有意义的文献·λ=1/2:至少是重要的文献·λ=1/4:至少是非常重要的文献·λ=0:第一流的文献对于第一流的文献(即λ=0),文献数量为lnF(t)。3.4.1指数增长律(2)生长曲线普赖斯指出,考虑物质的、经济的、智力的及时间的影响和限制,文献信息的增长更趋近于生物的生长曲线(LogisticCurve),即最初生长或繁殖很快,随着时间推移,其生长速度越来越慢,以致几乎不增加了。其方程为:……(3-24)式中:F(t)代表时刻t的文献量,k为文献增长的最大值。3.4.1指数增长律F(t)tK/2Lna/kb图3-6生长曲线3.4.1指数增长律·一般来说,在不同的阶段科学文献增长的态势是不同的。·学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短。·学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,增长率变小,曲线变得平缓,文献寿命相对变长。某一知识领域的研究取得重大进展后进入相对成熟的阶段。内容上更新的文献又将进入一个新的急剧增长时期(如指数增然长后)。又进入一个稳定时期。·文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,呈现出错综复杂的格局。·一般说来,对不同的领域,描述其文献增长的生长线中各个常数(a,b和k)也是不相同的。3.4.1指数增长律利用指数曲线和生长曲线来研究文献增长、预测未来文献总量必然会有局限。这是因为:·①指数增长定律的产生,首先是普赖斯分析研究物理文学献数量的增长时提出的,然后把这一结果扩大到科学期刊和其他类型的出版物上,绘制了普赖斯曲线。把对文献某一方面、某一历史阶段的研究成果,推广到文献的全部领域,根据是不充分的。·②利用上述二曲线对文献增长所作的预测,依据的是测预学中的趋势外推法。文献作为传播信息这一复杂系统中的子系统,其增长规律受到许多因素的影响和制约,只有利用系统论的观点对其作系统分析,才能得到比较符合实际的结果。3.4.1指数增长律·文献老化的表现文献信息的老化一般指这样四种情形:·文献中所含信息仍然有用,但现在已被包含在更新的其他论著中;·文献中信息仍旧有用,但现在正处于一个人们对其兴趣下降的学科·文献中的信息仍旧有用,但为后来的著作所超越·信息不再有用·文献半衰期所谓文献的半衰期,是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发表的。3.4.2逐渐过时律·普赖斯指数普赖斯指数,即某一学科领域内,对发表年限不超过5年的文献的引用次数与总的引用次数之比值。一般来说,普赖斯指数越大,半衰期就越小,文献老化的速度越快。3.4.2逐渐过时律用纵坐标表示现在正被利(用引证)的文献的被引量,坐横标表示时间,我们可以制绘出文献的老化曲线。相的应方程可表示为:C(t)=ke-at………(3-26)式中:C(t)表示发表了t年的文献的被引次数,k是常随数学,科不同而异,a为老化率。被引证次数C(t)0.5出版年龄tt1t2t3图3-7文献信息老化曲线3.4.2逐渐过时律文献老化的影响因素(1)文献增长。文献的增长和老化是一个事物的两个方面,它们从不同的侧面来描述科学的发展,阐明科学知识的修正率。(2)学科差异。世界上93%~98%的科学杂志引用寿命为20年左右,但并不是所有这些学科的文献老化速率都大体一致,相反,彼此之间差异甚大。(3)学科发展阶段的差异。即使是同一学科,不同的时期或阶段,文献的半衰期不尽完全相同。(4)信息环境和需求。不同信息用户对文献的需求是不同的,因而信息利用者的需求及所处的信息环境的研究十分必要。3.4.2逐渐过时律·在本节中,我们将主要根据该领域相关研究论文的成果,从信息内容分布、信息生产者分布和时间分布三个方面来探讨网络信息的分布规律。3.5网络应用:网络信息资源的分布规律3.5.1网络信息内容的分布规律图3-8以“网络经济”为主题的网页的布氏分布曲线通过一些工具性网站2003年5月1日-3日中“网络经济”这个条目命中的网页数量的集中与分散分布发现,其布分的近似曲线与布拉德福分布曲线比较接近。网络信息资源内容分布仍然满足集中与分散规律,但分散的趋势较文献信息的趋势更加明显。·台湾学者蔡明月于2002年5月5日至7日,利用google搜寻引擎,以“电子图书馆or数字图书馆or数字博物并馆”配合