信息计量学主讲老师:王倩飞济宁医学院信息工程学院第七章科学信息的词频分布规律信息计量学第一节齐普夫定律的形成背景第二节齐普夫定律的基本表达第三节齐普夫定律的修正与发展第四节齐普夫定律的应用领域词频(nr):自然语言中某一个单词在文献中或讲话中出现的次数(频次)。不同的词汇在同一篇文献中出现频次的分布是不均匀的。词汇数(N):文献中出现的不同词的数量。即:文献中作者使用了多少个不同的词。词次数(N’):文献的长度,总词量,包括同一词重复出现的次数。几个基本概念科学信息是由符号尤其是文字有规则排列而形成的,这种规则来自思维逻辑与语言逻辑两方面。信息计量学第一节齐普夫定律的形成背景一、词频统计的产生和发展1898年,德国学者凯丁编写了世界上第一部频率词典---《德语频率词典》。美国教育学家桑代克编写了《教师两万词词书》(1921)和《教师三万词词书》(1944)。对英语词汇做了大量的频率统计工作。我国近代教育家陈鹤琴(1892~1982)主持编辑了第一部汉语频率字典《语体文应用字汇》(1928),从554478个汉字中析出4261个单字。第七章科学信息的词频分布规律频率词典(frequencydictionaries)——按词出现频率的高低而编排的词典。北京语言学院语言教学研究所采用人工与计算机相结合的办法,对近200万字的汉语语料进行词频统计,编制了《现代汉语频率词典》,收词31159条,这是中国正式出版的第一部汉语频率词典。第一节齐普夫定律的形成背景一、词频统计的产生和发展第七章科学信息的词频分布规律信息计量学二、语言学研究及启示1916年,法国速记专家艾思杜在其从事的速记文字体系的改善研究工作中,观察到如下事实:假定有一个包括N个词汇的文献集(N充分大)。按照这些词汇在文献集中出现的频次高低递减地加以排列,以频次最高的词,其顺序定为自然数1,频次第二的词,其顺序定为2,依次类推,频次最低的词为。这样就得到一个词频表:词的顺序12…r…词频n1n2…nr…nl艾思杜发现词频与词序之积大致为一常数k,即nr*r=k。ll第一节齐普夫定律的形成背景第七章科学信息的词频分布规律信息计量学1928年,美国贝尔电话公司的物理学家贡东发现如下公式:他根据前人关于词频的统计资料,以横坐标表示词的序号的对数lgr,纵坐标表示词的绝对频率的对数lgn,描绘了下图。贡东发现,lgr和lgn的分布关系接近于一条直线AB。1Crfr1KrnrC是否为一个常数?直线AB与横坐标的夹角为α,经多次试验α=45度。二、语言学研究及启示第一节齐普夫定律的形成背景第七章科学信息的词频分布规律信息计量学三、词频分布的机制验证了贡东公式的正确性C的取值《人类行为与最省力法则---人类生态学引论》第一节齐普夫定律的形成背景第七章科学信息的词频分布规律信息计量学每一个人的运动,不管属于哪种类型,都是在一定道路上进行的,而且都将受一个简单的基本法则的制约,千方百计地选择一条最省力的途径。在各种运动中,人们也都有意无意地按照这个法则行事。齐普夫把这样一个他认为普遍存在的法则称为“最省力法则”(thePrincipleofleasteffort)。三、词频分布的机制第一节齐普夫定律的形成背景第七章科学信息的词频分布规律最省力法则信息计量学在语言词汇的选取上,表现为选择他最熟悉最能表达意思的词汇。齐普夫把词汇的选择过程,归结为“力”的作用结果,即选择词汇时,由于“单一化的力”的作用,使我们总希望用熟悉的词汇去表达所有的概念,但是事物概念的多样性,产生“多样化的力”,总要求词义的专指性。“单一化的力”使词频增加,“多样化的力”使词种增加,这两种力的平衡,使词频等级呈双曲线关系。三、词频分布的机制第一节齐普夫定律的形成背景第七章科学信息的词频分布规律最省力法则信息计量学任何一种语言,词汇出现的频率是有规律的。其总词汇量可能很大,但通常使用的词汇却占其中较少一部分,即“常用词”。这些词出现频繁,表意能力强。相应的,一些很少被利用的词成为“冷僻词”。齐普夫定律就是研究文献词频规律的最重要的成果。三、词频分布的机制第一节齐普夫定律的形成背景第七章科学信息的词频分布规律最省力法则信息计量学一、齐普夫定律的早期研究成果第二节齐普夫定律的基本表达第七章科学信息的词频分布规律C不是一个常数,而是一个参变数,在区间(0,0.1)间变动。其取值的大小与语种、样本量大小、词频水平均有关。信息计量学如果把一篇较长文献(5000字以上)中每个词出现的频次进行统计,按照高频词在前,低频词在后的递减顺序,并用自然数给这些词编上序号即编秩,频次最高的词秩为1,其次的秩为2,…,频次最小的词秩为。若用Fr表示秩为r的词出现的频次,r表示词汇的秩即序号,则有:Fr*r=C另一种表达:fr*r=c二、齐普夫定律的文字描述及数学模型第二节齐普夫定律的基本表达第七章科学信息的词频分布规律Pr*r=cl式中C为参变数,0C0.1。信息计量学三、齐普夫定律的图像描述横坐标表示词的等级序号r,纵坐标表示相应的频次Fr。第二节齐普夫定律的基本表达第七章科学信息的词频分布规律齐普夫分布曲线信息计量学对等级序号r取对数lgr作为横坐标对频次Fr取对数lgFr作为纵坐标第二节齐普夫定律的基本表达第七章科学信息的词频分布规律三、齐普夫定律的图像描述齐普夫分布对数曲线信息计量学四、齐普夫定律的适用性和局限性比较符合西文文献中词频分布的实际情况对于出现频次特别高的词和特别低的词,并不能准确地反映其分布规律。第七章科学信息的词频分布规律第二节齐普夫定律的基本表达信息计量学以RondldE.Wyllys:EmpiricalandTheoreticalBasesofZipf’sLaw(齐夫定律的经验根据与理论基础)前两段作为词频分布的统计对象,该文如下:IntroductionOneofthemostpuzzlingphenomenainbibliometricsand,morebroadly,inquantitativelinguisticsisZipf’slaw.Asonecommentator,thestatisticianGustavHerdan,hasputit:“Mathematiciansbelieveinit(Zipf’slaw)becausetheythinkthatlinguistshaveestablishedittobealinguisticlaw,andlinguistsbelieveinitbecausethey,ontheirpart,thinkthatmathematicianshaveestablishedittobeamathematicallaw.”LetusstartbyconsideringabasicformofZipf’slaw.Supposeonehasanaturallanguagecorpus,e.g.,abookwritteninEnglish.Next,supposeonemakesafrequencycountofthewordsinthecorpus,i.e.,countsthenumberofoccurrencesofthe,and,of,etc.Finally,supposeonearrangesthewordsindecreasingorderoffrequencysothatthemostfrequentwordhasrank1;thenextmostfrequency,rank2;andsoon.单词频次均值排序nr·r随机排序nr·r最大排序nr·rthe9in,of7a,one6law5and,it4suppose,that,Zipf’s321个单词243个单词1四、齐普夫定律的适用性和局限性第七章科学信息的词频分布规律第二节齐普夫定律的基本表达单词频次均值排序nr·r随机排序nr·r最大排序nr·rthe9191919in,of72.517.52-314,21321a,one64.527.04-524,30530law5630.0630630and,it47.530.07-828,32832suppose,that,Zipf’s310.030.09-1127,30,33113321个单词222.044.012-3224…64326443个单词154.054.033-7533…757575四、齐普夫定律的适用性和局限性第七章科学信息的词频分布规律第二节齐普夫定律的基本表达信息计量学第七章科学信息的词频分布规律朱斯修正式曼德尔布罗特修正式第三节齐普夫定律的修正与发展修正和增加参数低频词分布的重新考查齐普夫第二定律信息计量学rcfr不仅C是一个参数,而且r的指数也是一个参数。第七章科学信息的词频分布规律一、朱斯修正式第三节齐普夫定律的修正与发展为直线斜率,是一个变化参数,01信息计量学二、曼德尔布罗特修正式)(mrCfr提出了三参数频率分布规律:第七章科学信息的词频分布规律第三节齐普夫定律的修正与发展m:对高频词段的修正,0=m1β:对低频词段的修正,0β1信息计量学三、齐普夫第二定律(布什低频词分布定律)齐普夫第二定律是阐述低频词频次与词数关系的一个定律。具体描述为:设IF表示出现频次为F的词的个数,则IF/I1的大小与文献的长度无关,仅取决于频次F即:)1(21FFIIF28111IF高频词与低频词的分界点F为:第七章科学信息的词频分布规律第三节齐普夫定律的修正与发展信息计量学第四节齐普夫定律的应用领域一、词表编制与词汇控制第七章科学信息的词频分布规律二、情报检索的文档组织三、自动标引技术四、在科学评价中的应用信息计量学第四节齐普夫定律的应用领域一、词表编制与词汇控制20世纪60年代出现了功能强大的标引方法,即叙词标引。叙词标引质量的优劣,查全率、查准率的高低,很大程度取决于叙词的选取。因此在叙词表的构造中,编制多大规模的词表,选用多少词,如何选词都是急需解决的问题。齐普夫定律为叙词的选择提供了依据。研究者通过齐普夫定律的词频分布方法,通过标引试验,找到被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值,挑选符合标准的词编入词表。然后通过标引实践,再不断反复修改,使词表真正趋于规范和实用。第七章科学信息的词频分布规律信息计量学二、自动标引技术美国IBM公司的卢恩于1958年提出了自动抽词标引的思想:即一篇文章中一个词的出现频率是这个词的重要性的有效测度;将词按出现频率等级排列,以一定标准排除高频词和低频次,剩下的就是最能代表文献内容的词。有效词在句中的相对位置提供了一种决定句子效果的优良的测定方法。基本步骤为:首先标识出组成文献的各个单词;利用停用词表排除文献中的非实义词;统计剩余各词的出现频率;采用一定的加权方法给每个词加权;权值超过一定阈值的词选作标引词。计算机编制文摘:首先决定出文献中的有效词,有效词在句子中的相对位置以及句子中所含的有效词数可被用来确定句子的重要性,符合一定标准的句子皆可选入摘要之中。第四节齐普夫定律的应用领域第七章科学信息的词频分布规律信息计量学三、情报检索的文档组织计算机检索首先要建立文献数据库。数据库中每一条记录代表一篇文献,每一条记录又分成几个描述文献特征的不同字段,它们所需的存储单元,必须事先估算出来。如主题字段,就应事先统计每篇文献的平均主题数。在具体检索中,又要建立关于某一特征的倒排挡。一个倒排挡的大小,取决于该特征字段内不同词的多少,以及每个词的出现频率。不管哪种倒排挡,词频出现都不会完全一致,但可以找出其中的规律。国外学者发现,入档词的出现频率近似满足:rAPr且A为常数,近似为0.1。通过计算可求出数据库所需的存储量。第四节齐普夫定律的应用领域第七章科学信息的词频分布规律信息计量学词频统计在科学评价和科技管理领域的应用运用关键词(科学技术信息源中辩证信息内容的词汇)计量分析的方法展示一个学科领域的研究动向。第七章科学信息的词频分布规