语料库的设计和开发

天蝎叶子
0 ℃
2019-11-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

2019/11/201第二讲语料库的设计和开发统计的一些基本概念2019/11/202语料库的设计与开发语料库设计与编纂建设一个语料库语料库的类型国外语料库介绍汉语语料库介绍2019/11/203从事语料库语言学研究的人员首先面临的任务是建立语料库。他们必须对语料库应该包含哪些语料以及如何组织这些语料等问题作出决定，并且能够控制以后在使用语料库的过程中将要发生的事情。语言学家则要能够处理语料中的任何语言实例。2019/11/204语料库设计与编纂中的问题出发点是：如何使得在其基础上开展的语言调查是合理的和可靠的。Kennedy(1998)指出了语料库设计师所面临的最基本问题：这个语料库所采集的语言数据是否真正代表了某种期望的语言或语体。语料库的建设与编纂过程中应考虑的问题包括：1)语料库是语言的静态样本还是动态样本？2)多大程度上可以成为语言或语体的代表？3)为了满足某种研究目的，语料库规模应该多大？4)应该包含多少个样本，每个样本应该多大？2019/11/205静态与动态(1)一个语料库可以是以某种方式采集的文本的静态集合，其目的是成为整个语言或在某一特定时期语言的一个代表。例如，SEU语料库试图以静态方式在不同使用领域的口语和书面语材料中选择英国英语的样本，使语料库可以作为英语共时的代表。设计这样的语料库，需小心处理如下问题：特定的体裁、特定的样本规模等1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编撰的。他认为SEU语料库是英国英语的一种快照，语料库象一幅风景照，目的是抓住风景的主要特征。只收集主要的体裁，并非所有语言现象。设计者采用固定数目的样本和文本类型加以构造，样本语料库可以方便地同其他构造相似的语料库进行对比。2019/11/206静态与动态(2)动态的(监督的monitor)语料库象一部动画，而不是一幅快照。因为它提供了一种方法来观察语言用法模式随时间变异的情况。大量收集某一时期内的文本，然后通过软件在这些文本中找出与描写目的有关的统计信息，进而对观察的语言现象作出总结。例如，新的结构或词型的出现，或者老词型的用法或搭配发生了改变等。动态文本集，将随着新文本的加入而不断增容和变化。因此不适宜在不同语料库之间进行对比研究。数据的收集通常是随遇的，不一定“平衡”，对文本数量的关注取代了采样计划的精心设计。其中包括文本的收集、存储和处理等。2019/11/207代表性与平衡(1)选择什么样的文本进行语料库才能达到合理性和可靠性的要求？目前还没有公认答案！里奇(1991)曾指出，一个语料库具有代表性，是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。早期Brown和LOB语料库分别视为美国英语和英国英语在特定时期的代表语料库究竟是“什么的代表”?尽管一个样本不足以代表一种特定的体裁或主题，而有大量各类样本组成的一个语料库可以成为一种语言的代表。2019/11/208代表性与平衡(2)在一个语料库中，如何达到不同部分之间的平衡？书面语和口语的平衡体裁的比例平衡语料库中，平衡不能简单解释为文本的不同来源，比如说让口语与书面语的文本总数相等辛克莱(1991)建议对一个一般的书面语语料库，在选择文本方面的最低准则至少应区别小说和非小说；书本、期刊或报纸等等2019/11/209代表性与平衡(3)萨默斯(1991)总结了一些选择书面语的方法，实际采用这些方法的某种组合，用流通度和影响力等来指导基于学术价值或“影响力”随机采样作品流通度或文本被阅读的广泛程度人们阅读习惯的统计采样依据语言说明进行文本选择的经验等指定年度或期限来选择文本汉语语料库的建设者大部分采用的是按题材和体裁来进行2019/11/2010规模(1)规模和代表性代表了语料库的合法性和可靠性，但需要强调指出，语料库不管多大，同语言的总体相比仍是微不足道的。辛克莱(1991)建议，1000-2000万词次可以构造一个有用的、小型语料库，但若要对语言总体做出可靠的描述，这样的规模仍嫌太小。即使构造出十亿词次的语料库，对于一个大型词表中的大多数词型来说，仍然会显示出相当严重的稀疏信息。语料并非越多越好2019/11/2011规模(2)齐夫(Zipf’s)律，若按照词频f由高到低的排列顺序给语料库中每个词指派一个由小到大的整数秩(rank)，则f与r近似成反比，即f*r=k极少数高频次的出现次数已经覆盖了语料库总词次数的绝大部分，而词(型)总数中大约一半的词在这个语料库中却只出现一次。齐夫律不仅适用于一种语言的词汇分布，也反映了句法规则的分布状态。极少数常用句法规则覆盖了语料库中绝大多数的句法结构现象，而很多规则只出现一次。并且，语料库规模的扩大，句法规则的数目也不断增长，与乔姆斯基的著名假设—句法规则数目的有限性和句子数目的无限性，提出了挑战。2019/11/2012规模(3)对一个语言项来说，为了达到描写的充分性，究竟需要多少个标记？在一百万词次的语料库中，大约40-50%的词型出现一次。Longman/Lancast语料库中，“break”出现了8267次，但某些用法(如newsbreak)的出现次数仍很少，不足以为词典编者提供必要的信息判断是否适合作为词典条目。如“at”这样的高频次在一百万词次的语料库中统计到5500个标记，对于大多数描写目的而言已经足足有余。对于词典学或词汇语法研究来说，一个词型在逐词索引中有超过1000个标记，对词典编者已是数据分析的最高极限。数据太多，所需人工分析将难于应付。语料库规模太大，对语言分析也会带来负面影响。通过对检索结果随机采样，收集只出现一次的词型，再到更大规模语料库中搜集其实例用法。2019/11/2013规模(4)一百万词次的LOB语料库或Wellington语料库，大约有100个词(型)出现次数超过1000次。在一亿词次的语料库(BNC)中，出现次数超过1000次的词(型)增长到8000个，它们覆盖了语料库中95%的词次。其余5%词次可能有50万或更多的词(型)组成。为了对低频词现象做出充分描写，极大规模语料库是必要的。一个语料库拥有海量文本收集，如果设计不善，也不一定就可以通过它对一种语言做出概括。一个巨型语料库不一定能比一个较小语料库更好地代表一种语言或它的变体。目前还不能确定对于一般目的或特定目的来说，一个语料库究竟要多大？过分关注语料库的数据规模问题，不如对数据质量给于关注2019/11/2014规模(5)Kenndy(1998)：对于节律研究，为了对大多数描写做出概括通常十万词次的语料库已经足够大。为了对动词用法进行可靠分析，可以在一个五十万词次的语料库上完成许多句法结构和高频词汇的研究一般要求语料库规模在五十到一百万词次之间象BNC一亿词次的语料库，可以通过与不同结构的小型语料库的分析结果进行对比，来解决规模和代表性的问题。2019/11/2015规模(6)样本大小问题Brown和LOB:随机选取500个样本，每个样本不少于2000词次，有些样本是整个文档，而大多数样本只是原有文档的部分。比伯(Biber1993)认为：为了代表样本的文档范畴，样本规模在2000-5000词次已经足够大了。象LOB那样的语料库，每种体裁的样本数(20-80个文本不等)，对于通常进行的各类变异研究，即基于相关性的分析来说，是合适的。2019/11/2016建设一个语料库建立语料库的目的：是一般用途，还是特殊用途？一般语料库应为各种语言研究提供大量好的语言实例特殊语料库为某种自然语言产品服务的，具有明显的领域针对性语言的来源语料库的设计设计存储系统和保存记录语料库的维护2019/11/2017语料的来源使用已有的输入技术，可以采用多种方式来收集语料——制作电子文本，或利用已有的电子文本制作电子文本光电扫描输入(OCR技术)键盘输入使用现存的电子文本2019/11/2018语料库的设计语料库三方面属性值A.语料本身规模百万词级|千万词级|亿万词级|…领域政治|经济|体育|心理学|…体裁文学|应用文|新闻|…时代共时|历时语体书面语|口语语种单语|双语|多语双语平行语料库|双语比较语料库语言层次语音（音节，韵律）|语法（词，句，…）B.语料加工数据形式Text文本|HTML文本|数据库|…编码体系TEI标准|自定义编码体系|…加工层次词性|句法|语义|语篇|…双语句子对齐|词对齐|…加工方式自动|人机互助|人工C.语料应用应用领域通用|词典编纂|机器翻译|…辅助软件检索工具|人机界面|数据接口|…2019/11/2019设计存储系统和保存记录只有当语料库中的文本以及与这些文本相关的信息能够方便地存取，语料库才有意义格式保持统一2019/11/2020语料库的维护语料库一旦建立起来以后，其中总有许多错误需要修正，或者需要对语料库进行改善，因此需要对语料库进行日常的维护和升级。这样才能适应新的软硬件和用户需求的改变。另外，有关语料库的检索系统、语料库的处理和分析工具，也越来越引起人们的注意。2019/11/2021语料库的类型口语语料书面语料单语双语多语词性标注语料树库语料…平行语料库比较语料库共时语料历时语料平衡语料专门语料监控语料样本语料2019/11/2022国外语料库介绍SEU语料库布朗语料库LOB语料库LLC口语语料库COBUILD语料库朗文语料库英国国家语料库BNC国际英语语料库2019/11/2023第一代语料库Brown语料库LOB语料库LLC语料库百万词级以语言研究为导向1960年代初，美国Brown大学，100万词次，当代美国英语，根据系统性原则采样，……1970年代初，英国Lancaster大学，挪威Oslo大学，挪威Bergen大学，当代英国英语，……1960年代初，由London大学RandolphQuirk主持，收集2000小时的谈话和广播等口语素材并整理成书面材料，由瑞典Lund大学J.Svartvik主持全部录入计算机，1975年建成……2019/11/2024SEU语料库1959年伦敦大学夸克(RandolphQuirk)组织发起了“英语用法调查”(SEU)项目,有计划地收集不同语体的大量语料,并利用计算机对收集到的语料进行储存、分类。语言科学史上第一个大型计算机语料库包括书面语语料和口语语料共收集200个语篇，口语和书面语各占一半，每个语篇500字左右。整个语料库的容量为一百万词次。内容包括了各种不同语体和社会的各个层面。2019/11/2025Brown语料库(1)20世纪60年代，Francis和Kucera在美国Brown大学建立了世界上第一个根据系统性原则采集样本的标准语料库——布朗语料库。主要目的是研究当代美国英语按共时原则采集文本的语料库，只选录1961年间由美国人撰写出版的普通语体的文本。规模为100万词次，全部语料分成15种体裁，共500个样本，每个样本不少于2000词次。TAGGIT系统：词类标记81种，正确率达77%2019/11/2026Brown语料库(2)语料分A-R共18种类型，A-J属于资讯类语体，K-R属于想象类语体例：A报刊：新闻报道；B报刊：社论…样本通过随机采样方法得到。首先从各类体裁目录中按样本数要求随机选出进入语料库的文本，然后从选出的文本中随机截取不少于2000词次的片断作为样本，采样时要保证最后一个句子是完整的版本：A,B,C,卑尔根I,卑尔根II,布朗MARC布朗语料库从语料库的整体规模，语料的分布和语料的采样上都经过了精心的设计，一致被公认为是一个能反映语言共性的平衡语料库。2019/11/2027LOB语料库70年代初，英国兰开斯特(Lancaster)大学里奇倡议，由挪威奥斯陆(Oslo)大学约翰森主持完成，是布朗语料库的姊妹库。目的是研究当代英国英语，为了能