洛特卡定律小组成员:王琦刘娟谭琴目录洛特卡其人洛特卡定律概述洛特卡定律的研究(侧重国外部分)洛特卡定律的应用洛特卡定律的特点与注意事项1、洛特卡其人籍贯:1880年3月生于奥地利的伦伯格,父母都是美国人。履历:早期教育是在法国和德国接受的。毕业后,先后在美国化学总公司、国家专利局、国家标准局等机构工作。1938-1939年任美国人口协会主席、1942年任美国统计协会主席。成就:洛特卡(AlfreJ.haka)是美国著名学者和科学计量学家。他擅长于统计研究,在科学上的兴趣首先集中在生物体总数的动态状况研究,并发展了一种用出生率、死亡率和年龄分布函数表示的“人口分析理论”。1926年,他天才地提出了用一对联立微分方程表示的“竞争增长律”。后来.他又将统计研究的方向转移到科学家与其发表的科学文献之间的数量关系上,进行了开剖性的研究工作,并发表了“科学生产率的频率分布”等著名论文,从而较早地创立了世界闻名的洛特卡定律”,为文献计量学的诞生和发展作出了创造性的贡献。1926年,在美国一家人寿保险公司供职的统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院报》上发表了一篇题名为《科学生产率的频率分布》的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。这篇论文发表后并未引起多大反响,直到1949年这一成果才引起学术界关注,并誉之为“洛特卡定律”。文中他统计了《化学文摘》1907~16年索引中的以A和B开头的6,891名作者及其论著数,并统计了奥尔巴赫(Auerbach)的《物理学史一览表》(1919)中的1,325位科学家及其论著数。在上述统计分析的基础上,他发现:“写了2篇论文的科学家人数大约是写了1篇论文科学家人数的1/4;写了3篇论文的科学家人数大约是写了1篇论文科学家人数的1/9;⋯⋯写了n篇论文的科学家人数大约是写了1篇论文科学家人数的1/n2”。这就是著名的洛特卡定律。趣味小故事布拉德福定律、齐普夫定律、洛特卡定律被认为是文献计量学中最基本的三个定律.他们之间的关系就像欧洲的一个传统的三角恋爱的故事,这个故事如下:故事取自:车尔尼雪夫斯基的小说《怎么办》故事背景:小说描写的是十九世纪五十--六十年代的俄国。在这个时期,一切社会问题都归结为与农奴制及其残余作斗争。故事如下:房产管理人的女儿韦拉在医学院学生洛普霍夫的帮助下拒绝了父母包办婚姻的企图,脱离家庭,与原医学院学生洛普霍夫结合并创办了一所实行社会主义原则的缝纫工场。两年后,韦拉与洛普霍夫的好友基尔萨诺夫相爱,洛普霍夫感到韦拉与基尔萨诺夫性情相投,他们在一起生活会更幸福,于是毅然出走,假装自杀,使他们能够结合。以后,洛普霍夫受职业革命家拉赫梅托夫的委托,出国进行革命活动,数年后由美国回到彼得堡,与波洛佐娃结婚,并同基尔萨诺夫和韦拉重新会面,两对夫妇幸福地生活在一起,共同进行着他们所热爱的事业。2、洛特卡定律概述诞生:1926年,洛特卡最先研究了科学文献数量与著作数量之间的关系,并创造性地提出“科学生产率”的概念——即指在一定时间内科学工作者在科学上所表现出的能力和工作效果,通常用其生产的科学文献数量来衡量。在提出科学生产率概念的同时,洛特卡就围绕它进行了统计研究。选用《化学文摘》与《物理学史一览表》来研究科学家的著述数量,以此经过数据统计、归纳分析及运用数学工具的推算得出洛特卡定律,即写有x篇论文的作者频率与x的平方呈反比。频数频率这就是科学生产率的“平方反比定律”的表达式。2、洛特卡定律概述公式表述:理论意义:1926年洛特卡(Darka)定律创立至今已整整80年,是文献计量学中创立最早的一个定律,洛特卡定律也是文献信息计量学的经典定律之一。为文献计量学的诞生奠定了一定的基础,其创立是值得纪念的。2、洛特卡定律概述布拉德福定律、齐普夫定律、洛特卡定律被认为是文献计量学中最基本的三个定律。研究对象:1期刊上刊载的论文2文章中每个词的出现频次3科学工作者的著述分析单元:1期刊数2单词量3著者群计量方法:都是通过对文献的调查和统计,取得数据并进行分析归纳来定量地认识文献情报流。总结:这三个定律最初都是按照某一具体事项在其主体来源中的出现频率排序而导出来的,然后通过数学工具来进一步求出其分布函数。通过微分处理和分区处理发现,这三种分布函数具有相似性,可以认为它们是一种分布规律的不同表现形式。三大定律的对比2、洛特卡定律概述洛特卡定律的命运由于多种原因,洛特卡定律沉睡了30多年,后来由于普赖斯等人的发掘,自60年代起引起人们的重视。今天,洛特卡定律仍然经常被科学学家、情报学家等引证和研究。——引自《科学的计量研究》北京大学科学与社会研究中心周程2、洛特卡定律概述3、关于洛特卡定律的研究(侧重国外)1926年,Lotka发表关于科学生产率的著名文章后,刚开始并未引起学术界重视。一直到1949年,洛特卡的研究结论才被称为“洛特卡定律”。在《人类行为和最省力法则》一书中,齐普夫较早将其称作“平方反比定律”60年代初期,由于普赖斯的两部重要著作的出版,使洛特卡的研究工作和成果随之得以广泛传播,有力地推动了这一定律的研究和发展。1969年,费尔桑(Foirthorne)首次将布拉德福、齐普夫以及芒代尔布罗分布同洛特卡的频率分布联系起来,指出洛特卡的关系式对低产作者来说是适合的。By刘娟70年代,研究较深入的:科尔(R·C·Coile)和弗拉奇(J·Valchy)。前者找到了一种判断某组实验数据是否符合洛特卡分布的鉴定方法;后者则探讨了洛特卡定律的影响因素及作用。对美国国会图书馆和伊利诺斯大学图书馆的图书进行统计研究。因国会图书馆的统计数据只取自十年的机读著者目录,结果不严格符合洛氏分布,而伊利诺斯大学的数据覆盖了有史以来出现的所有作者及论著,因而严格符合洛特卡分布定律。3.1、对洛氏分布一般公式的研究f(x)=c/xnf(x):写了x篇论文的作者占所有作者数的百分比C为某主体领域的特征常数,Lotka:a=2确定a和C?实际上,它仅局限于a=2的情形;确立的只是科学生产率的平方反比律。一些学者探讨了洛氏定律的普遍性意义。a并不一定都等于2,C会在0.6079附近上下波动。指数a,通常采用最小二乘法估算。公式;N为被考察的数据对的数量,指数C:洛特卡和弗拉奇的推导洛:f(x)=c/x2弗:a为任意值a=2时,即C=f(1)=60.79%a=4,C=∏4/90=1.08241a为其他非负分数值时,用下列公式先求出级数之和,再计算CC=∏2/6=60.79%弗拉奇的研究结论不同的a值将产生一个显著不同的常数c,而且a的较小变化(特别是在a<2时)就会引起C值的明显的变化。下面列举了a的部分样本值和对应的C值;其中常数C可以通过前面的公式计算。指数和常数的对应值2.86%2.58%2.43%4.26%3.2、洛氏定律的适用性研究洛特卡定律是对两个学科抽样统计的推广,在其他情况下是否适用?研究学者:休伯特(Hubert)、德莱斯顿(Dresden)、戴维斯(Davis)等都进行过研究,涉及到不同学科、时期、国家或单位、类型的科学文献的作者分布规律。从各个不同角度来检验或修正洛氏定律。有的还深入到文献的某些子集,如某一年度/某一类型的文献,如会议文献、图书等;或某一单位收藏的文献等,进行作者分布的探讨;有的则对洛氏定律提出了修正的可能性,如普赖斯(Price)、布克斯坦(Bookstein)、阿利森(Allision)等人的论著研究了这一课题,特别是Price的研究取得了重要成果。目前,一般认为,在一定统计条件下,洛氏定律在大多数学科领域是适用的,能够描述科学文献作者分布规律和科学家著述的行为模式。国外学者在经济学、生物学、情报学、图书馆学、法医学、人类学、计算机学等不同学科领域分别对其进行了适用性验证,并以此为基础提出了修正洛特卡定律的可能性。其中最具影响力的是1986年帕欧利用包括20个学科和3个大型图书馆目录在内的48组有关文献作者分布的数据验证洛特卡定律,并重新界定了洛特卡分布中参数的取值范围,推动了洛特卡定律的发展3.3、洛氏分布机理的研究大量修正性实验总结:影响洛特卡平方反比律f(x)=c/x2的因素:①学科特征。统计研究的学科的性质、范围、特点、发展阶段以及与其他学科的相关度等都会对其分布产生本质上的影响。原因:一方面,科学的分化趋势显著,一个学科内部可能会不断产生新的发展点;另一方面,科学研究的综合化趋势也在加剧,边缘科学不断得到发展。各学辩的研究方法也产生了一些新的特点。而洛特卡定律掩藏了不同学科、同一学科在不同发展阶段上文献与作者分布间的差异性,缺乏对学科发展及文献增长的动态性描述;此外,洛特卡定律对合作现象的研究较少,对合著者的科学贡献研究不足。因此,随着现代研究环境的不断变化,洛特卡定律的普适性受到了一定的限制。以主题数据拟合洛特卡分布需要注意进行数据的甄别和选取,样本容量的控制。影响表现:研究表明,基础理论学科与应用技术学科之间、比较成熟的学科与新兴学科之间、范围宽广的学科与较窄的学科之间,其文献的作者分布呈现出一定的差别。就物理学而言,a=2是合理的;对于技术科学、社会科学和人文科学来说,a值将增大;而规模较大和科研合作程度较高的学科,a会变小。在很长一段时期内,对洛特卡定律的验证基本上是在理论科学领域进行的,大多数情况下符合洛氏分布。例:1979年,加拿大学者将洛氏定律引入到应用科学和工程技术领域,发现存在着一定偏差。但他们认为这可能是理论科学和技术科学之间的差异而引起的。②统计条件统计时,影响平方反比定律的主要有两个量——统计研究的时间跨度和作者数量。一般来说,若统计的时间较长(如10年以上)、作者集合较大(如1000人以上),其研究将会得到比较客观的结论。罗兰德《w.D.Roland)认为,数据样本的时间选择对洛持卡定律的拟合非常重要。特别是当一个学科的学术研究进入到成熟期之后,由于产文量较小的低产作者人数的增加,时间因素的影响更加明显。事实上,每一个学科都存在着各自不同的发展阶段,洛特卡定律对不同阶段的科学生产率的描述能力不同。萌芽期,其作者数量很少,研究成果微乎其微;而一旦发现了学科“先锋”,将很快取得突破性的学术进展,洛特卡不能很好地描述这两个时期的作者分布。论文作者数量剧增,出现核心律者的高峰期,洛特卡定律则体现出对作者分布良好的描述力。基于以上分析,要对某学科领域进行洛特卡分布的拟合以对其研究状况和科学生产率有全面准确的了解,必须注意其数据的来源,包括时间范围的界定、学科内分支研究领域的选取、来源期刊的学术水平等因素。——C值越大,说明作者的分布越平均,高产作者的贡献越小。国外提供的一些数据,其症结一般都在一篇论文作者分布比率偏高上。如洛特卡数据应为60.79%,而利夫斯(D·H·Leavens)的计量经济学数据是63.50%,美国国会图书馆关于Marc磁带标题作者的数据是65.65%。这样的偏差实际上是由统计数据时间范围的不同所至。统计数据的时间范围③研究方法在科学生产率的研究中,洛特卡所采取的方法基本上是可取的,但在选择化学数据时却采用了不正规的抽样方法。后来的研究说明,处理方法上的差异,特别是对合著者和高产作者群的不同处理将会影响其研究结果。高产作者的数据对其直线关系影响颇大。因此,在确定洛特卡分布关系时必须截删一部分高产作者数据。同时,由于科学技术的发展和科学研究出现的新的特点,使得现在的著述规律与洛特卡那时的情况已大不相同。因此,洛特卡对合著者的处理方法现在就不太合适了,而应该加以改进。在研究和运用洛特卡定律时,如何处理合著者和截删高产作者数据是两个必须解决的重要问题。国内——以一个实验为例定律验证工作起步较晚,始于20世纪80年代,但成果斐然,并在分析验证结果的基础上.在合著者的处理、K—S检验的适用范围、洛特卡分布中参数的拟合方法等方面提出了不少独到的见解,并积极将洛特卡定律应