第五章--齐普夫定律

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五章齐普夫定律第一节齐普夫定律的形成66万字的《毛泽东选集》四卷合订本,也只用了2775个汉字,不及总字数的10%。据统计,1000个汉字就能满足形成文献90%的需要,240099%,380099.9%。一.齐普夫定律形成的基础(词频及词频词典)词频:是指某一个单词在文章中出现的次数(即频率,分为绝对词频和相对词频两种)。词频词典:就是以词频多寡为序的词表。词典上的每一个词汇,都有两个参数:出现的频次;排列的次序。德国:1898年,F.W.Kaeding:《德语频率词典》美国:E.L.Thormdike:《教师二万词词书》二.齐普夫定律产生的背景1.艾思杜的观察艾思杜(J.Estoup):德国速记专家,1916年。词的顺序:1,2,……,r,……L词的频率:n1,n2,……,nr,……nlnr·r=k2.贡东的公式贡东(E.Condon):物理学家,1928年图形见P136当D分别为5000,10000,50000,100000时,c值分别近似于0.11,0.10,0.09,0.08,在0.1附近波动。DcDDrrcrcDrDrDrln10.5772ln13121111111111所以=为欧拉常数,这里三.齐普夫定律的确立语音变化音素的相对频次词汇频次《人类行为与最省力法则――人类生态学引论》统计与计算工作:《尤利西斯》(Ulysses):文句容量为260432个词;词典中收词29899个C值:常数参数当r=1时,Pr=Cr-1=C,可见,C就是序号为1的那个词的概率。C并非是一个常数,而是一个参数,它的取值范围为:0C0.1。四.齐普夫定律的主要内容及其局限性在任何1篇文章中,词的出现频率都服从如下规律:见P1391.绝对频次表示法:nr·r=k(见P139)当nr=1时,r=D,所以:1·D=k即:D=k2.相对频次表示法:fr·r=C(见P139)显然:C=k/N(等式两边除N)k=CND=CN已知:有一篇文章,文章的长度是6000单词。问:(1)出现频率最高的词共出现了多少次?(2)出现频率第3的词共出现了多少次?(3)该篇文章共有多少个不同的词?四.齐普夫定律的主要内容及其局限性3.齐普夫定律的图像描述(见P140-141)4.齐普夫定律的局限性:15r1500低频词(r1500)的分布情况第二节齐普夫定律的发展增加参数对齐普夫公式进行修正;低频词的特征和分布规律(齐普夫第二定律)。一.多参数词频分布规律1.朱斯的修正Joos(美国语言学家)指出:在齐普夫公式中,不仅C是一个参数,而且r的负指数也是一个参数:当词典收词多时,负指数的值会增大,即图像中的a角会增大;当词典收词小时,负指数值会减少,即图像中的a角会变小。朱斯修正式(P144)称为双参数词频分布律一.多参数词频分布规律2.芒代尔布罗修正式芒代尔布罗(美籍法国数学家):运用信息论和概率论的方法来研究词的频率分布规律,重新解释了齐普夫定律,并修正了定律的表达式。词是由空格隔开的一些有一定顺序的字母序列,句子是用词来编码的词的序列,文章是由句子的增减过程而形成的句子的序列。词的三参数频率分布规律,其形式为:P144。二.齐普夫第二定律(低频词定律)1.齐普夫第二定律(B.Booth)低频词中同频词的数量随着词频的降低而增加。同频词如何排序方法一般有3种:(1)随机排序法;(2)均值排序法;(3)最大排序法。单词频次(nr)随机等级(rn)均值等级(rn)最大等级(rn)The9111inof72-32.53aone64-54.55Law5666Andit47-87.58Zipf’ssupposethat39-11101121个词212-32223243个词133-755475二.齐普夫第二定律(低频词定律)1、齐普夫第二定律公式见P146;该式与正文的长度和常数C无关,仅与单词的频次有关。所以,该式被称为低频词分布定律,即为齐普夫第二定律。若已知:有一文章长度为6000字;问:文章中出现3次的词共有多少个?Booth对四篇文章的低频词出现的情况进行了验证,统计数据和结果见P146。二.齐普夫第二定律(低频词定律)2.低频词临界值的确定低频词的突出特点:所谓的“唯一性”将随着字词出现频率的不断下降。其中:I1=CN/2=D/228111In三.汉语词频的分布汉字切分、取词问题王崇德,来玲,汉语文集的齐夫分布,情报科学,1989年。文献学家的结论与其它学科专家的结论有一定的出入第三节齐普夫定律的应用前苏联文献计量学家哈通就明确指出:齐普夫定律是解决社会科学分布现象的最好定律。1、文献自动标引2、主题词频分析3、英语学习指导第三节齐普夫定律的应用一.文献自动标引1.自动标引自动标引,就是用计算机处理原文信息,将待处理的原文输入系统后,通过程序控制筛选出适于标引的词进行标引。采用计算机进行标引的方法一般可以分为:统计标引法;句法标引法;语义标引法。统计标引法的理论依据:各种词出现在原始文献中的频率和其区分文献内容的功能(词的分辨力)之间存在着数量关系。词的分辨力:它是指词的识别文章内容的能力。卢恩(H.P.Luhn:美国情报学家)1958年提出。文献中每一个词都有一定的分辨能力,而这种能力与词出现的频率有密切的关系。一般讲来:词频过高的词一般多为仅起语法作用而无实际内容的功能词(例如:介词、冠词等),或为一些语义泛泛而专指性不高的词;而词频过低的词,在文献中很少出现,其分辨能力也很低;帕欧(M.L.Pao):所谓词频适中的词(有效词)应为那些词频在:例如:某篇文献中仅出现一次的词有800个,则分辨力最强的词应该为?词频分布与有效词的分辨力之间的数量关系的分布图见P150。28111In基于卢恩思想的词频统计抽词标引法,在理论上研究得比较深入,使用的也较多,其基本步骤为:(1)输入原文:首先将待处理的原文信息输入到系统中;(2)抽词:标识出组成文献的各个单词;利用停用词表排除文献中的非实义词;(3)统计分析:通过程序控制统计分析剩余各词的出现频率;(4)筛选:根据筛选出适合于进行标引的词进行标引。28111In第三节齐普夫定律的应用一.文献自动标引3.标引加权对于单篇论文,与标引同样的数据基础可以用来为文献的各种专门检索词提供一个加权系统,给每一个标引词分配一个与其在文献中发生频率直接相符的权值。对于文献集合:如果有N篇文献,某一个检索词涉及其中的n篇,那么给这个词以log(N/n)+1的权值,将取得较好的检索效果。第三节齐普夫定律的应用一.文献自动标引4.自动文摘:有效词在句子中的相对位置以及句子中所含的有效词数可以用来确定句子的重要性:ri=pi:一个句子中所含的有效词的数目;qi:该句中所有的总词数。iiiqpr2二、主题词频分析主题词频的数量统计;主题词频之间的关联统计。二、主题词频分析1、主题词的数量统计主题词数量变化的特征:动态特征:在学科萌芽阶段,新的主题词开始出现,随着学科的逐渐发展,主题词数和使用频率迅速增加。显然:主题词的出现、合并、分化和消亡从文献的内容深度动态地反映了知识情报的发展变化。静态特征:同一时期,主题词数量所占比例的不同,也反映了主题知识所占的比重。二、主题词频分析1、主题词的数量统计具体应用:(1)判定核心期刊和情报源对某主题词负载的文献数量按文献类型、来源、作者、机构、时间等分类统计,从中可以得到所需要的数据。例见P152。二、主题词频分析1、主题词的数量统计(2)由主流主题词判别核心知识在一个多学科的知识领域中,各学科的发展并不平衡,可以发现一些主题词占据所有主题词总数的一大部分,这些主题词可能就是该知识领域目前状况下的研究热点,这些知识对该知识领域的发展形成了前沿,代表现阶段的主流思潮。例见P154。中共党代会报告30年的词汇变迁二、主题词频分析1、主题词的数量统计(3)风格与作者的判定基本思想:每一类型的文献、甚至每一个作者都有自己的风格,这是由单词的选择和使用情况决定的,并且或多或少地偏离了齐普夫模式。不同词类的比例可以反映作品的风格:语气词:政论文中仅有0.1%,而小说则有1.9%;连词:政论文有4.5%,小说仅有0.9%,相差悬殊。《红楼梦》中几个特定词:“端的”、“越性-索性”、“刚才-才刚”等的出现频次的统计。抄袭识别的研究主要采用数字指纹词频统计两大类技术和方法。词频统计方法首先统计文档中每个单词出现的次数,然后构成文档特征向量,最后采用余弦法法等方法来度量两篇文档的相似度。二、主题词频分析2、主题词之间的联系统计(1)主题知识结构分布学科间的交叉、渗透和融合是当代科学发展的基本趋势。反映在主题词上,表现为各学科主题词在相同的知识领域内被运用。主题词频可以定量地反映这一趋势。(2)主题关联分析如果以主题词成对出现为统计对象,则成对主题词的出现频率便反映了这二个主题之间的密切程度(主题词耦合)。三、英语学习指导前r个等级词出现的总的次数为:R(r)=C(lnr+0.5772)已知:N=60000;r=20000则:覆盖率:90.51%大学六级:5500,则其覆盖率:79.36%本章完

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功