LDC中文树库Chinese-Treebank

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

LDC中文树库ChineseTreebank•一、树库简介•二、CTB简介•三、CTB中汉语词性划分规则•四、CTB中的句法标记•五、CTBParser•一、树库简介•二、CTB简介•三、CTB中汉语词性划分规则•四、CTB中的句法标记•五、CTBParser树库简介•树库(treebank)就是一种经过了结构标注的语料库。一般来说,一个句子虽然表面上呈现词语的线性排列,其内部的成分组织是存在一定层次结构的。这种层次结构通常用树这种形式工具来表示。如果考虑歧义,那么一个句子可能对应多棵树。大量句子以及其对应的树结构的集合就构成树库。树库简介•树库作为包含语言结构信息的语言资源,其作用在以下几方面。首先,它可为基于统计的自动句法分析器提供必要的训练数据和统一的测评平台;其次,它能为汉语句法学研究提供真实文本标注素材,便于语言学家从中总结语言规则和规律;第三,它是进一步进行句子内部的词语义项和语义关系标注的基础。树库简介•下面是宾州汉语树库中的一个例子•上图中包括丰富的语言信息。NR,NN,CC,VV表明的是各个词的词性,分别为专名词、普通名词、连词和动词。NP,VP分别为名词短语和动词短语。PN,SBJ,HLN则是功能的标记,是用来补充层次表示的,表示不同的语法角色。PN表示专有名词,SBJ表示句子主语,HLN则表示这是本句的标题。这个句子第一层可以分为NP和VP两个部分,NP又可以再分为NP1和NP2两部分。NP1由NR1和NR2组成;NP2分为NN1,CC,NN2,NN3四个部分。这棵树中的节点IP,NP,VP为非终极节点;NR,NN,CC,VV为终极节点。所有这些信息的标注将为计算机自动习得语言规则和人们分析语言提供基础材料。树库简介•一、树库简介•二、CTB简介•三、CTB中汉语词性划分规则•四、CTB中的句法标记•五、CTBParser•宾州大学汉语树库(CTB)的目标是建立一个100万词的经过句法标注的语料库。它是基于短语结构的,进行了短语结构、短语功能、空元素、指数的标注。CTB到目前发展至7.0版。CTB简介从1998年夏开始至2000年秋是第一期工程(1.0版),完成了10万词的切分、词性标注、句法标注,语料主要来自新华社的文章。2003年春天完成了第二期工程(2.0和3.0版),完成了15万新词的标注,在二期工程中加入了香港和台湾的语料,以保证语料的多样性(Xue,eta.l2004:2)。2004年春天完成了04版,包括40万词的标注,总66万多汉字。2005年1月发布了5.0版,包括507,222词,824,983汉字,18,782句子。CTB简介•2007年发布了CTB6.0版,包含780,000个单词,2010年6月发布了7.0版。•CTB7.0增加了注释数据,包含2,448个text文件,51,447个句子,1,196,329个词和1,931,381个汉字。提供的数据是在四个不同的格式:原始文本,分词,分词和pos-tagged和syntactically-bracketed格式•CTB7.0语料取材于中国新闻,新闻杂志,各种广播新闻和广播谈话节目,新闻和博客网站。CTB简介CTB简介•在标注体系上,从CTB,1.0(1998-2002)起,基本上沿用了宾州大学英语树库PTB,2的标注体系。即从最初的PTB,l采用骨架分析思想,形成比较扁平的句法结构树的基础上,增加了一些功能标记,用于标注句子中主要句法成分的语法功能(周强2004:2)。目前的总标注规模为50万词的新闻语料。CTB简介•在CTB的基础上,宾州大学又分别完成了标注谓词论元结构的中文命题库1.0(Babko—Malaya,eta.l2004;XueandParmer2003)建设,以及标注了语篇连接的汉语语篇树库(Xue2005)的建设。这将大大促进机器翻译、信息检索和信息抽取等应用技术的进一步发展。CTB简介•LDC中文树库(CTB)属于短语结构树库,采用句子的结构成分描述句子的结构。CTB简介•采用短语结构描述的原因有:(1)短语结构树可以表示句子较全面的句法信息,包括从词、短语到句子的句法单位、词性;词与词之间的搭配和同现;短语的内部结构和功能分类等,都可以在短语结构树中得以体现。下图是宾州汉语树库中的一个例子。CTB简介CTB简介•上图中包括丰富的语言信息。NR,NN,CC,VV表明的是各个词的词性,分别为专名词、普通名词、连词和动词。NP,VP分别为名词短语和动词短语。PN,SBJ,HLN则是功能的标记,是用来补充层次表示的,表示不同的语法角色。PN表示专有名词,SBJ表示句子主语,HLN则表示这是本句的标题。这个句子第一层可以分为NP和VP两个部分,NP又可以再分为NP1和NP2两部分。NP1由NR1和NR2组成;NP2分为NN1,CC,NN2,NN3四个部分。这棵树中的节点IP,NP,VP为非终极节点;NR,NN,CC,VV为终极节点。所有这些信息的标注将为计算机自动习得语言规则和人们分析语言提供基础材料。CTB简介•(2)采用短语结构可以有效地结合现有研究成果。首先,语言学界在短语结构分析方面,积累了许多有价值的研究成果,这些成果可以运用到树库的标注体系中;其次,计算语言学界在自动层次分析方面,也开发了许多自动句法分析器和句法知识自动获取工具,这些工具可以为树库构建提供有力的支持。(周强2004:3)。CTB简介•(3)按照不同的应用需求,树结构可以转换为骨架分析树和依存关系树等。同时,也可从树库中自动提取基本短语和语法功能的标注信息,建立现有的句法树标注体系与汉语部分分析体系的内在联系,扩大目前树库语料的应用范围(周强2004:4)。CTB简介•(4)短语结构语法体系下多年来的研究与教学,已形成了丰富的人才储备库,可以较容易地找到树库校对人员,不需要经过大量培训就可以胜任校对任务。这可以大大降低大规模树库的开发费用(周强2004:3)。CTB简介•宾州大学汉语树库的特点有:(1)语料更新速度较快,不断有新语料的补充;(2)加工深度较深。目前已在原来句法树库的基础之上完成了谓词论元结构,包括事件改变、名词指代、意义标注和语篇连接关系的标注等。这对于机器翻译、信息检索、信息抽取、问答系统等应用系统的发展有着直接的推动。CTB简介•(3)标注方法、算法上比较先进。例如,宾州树库中把单词切分问题转化为消歧问题,付诸于机器学习的方法来加以解决。根据CTB,1的资料,运用最大熵的方法训练一个自动分词器,把词语切分问题转化为标注问题来解决。具体说,根据汉字在词中的出现位置,把每个字标注为LL(左),RR(右),MM(中词),LR(单字词),通过审察前后位置汉字的标注情况来决定哪两个可合为一个词,哪些又是单字词(Xue,2003);CTB简介•(4)标注标准和其他语料库的兼容性较好。比如,“走上来”在别的汉语树库中有的标注为两个词“走/V上来/V”,有的标注为一个复合词“走上来/V”,在宾州大学树库中标注为“(走/V上来/V)/V”(Xia20006)。这样的处理有利于和其他树库的兼容。CTB简介•当然,宾州树库的标注仍值得商榷的。比如,运用英语的语法框架来分析汉语,有的时候跟汉语为母语的语感不符。另外,标注的颗粒度有时候比较粗,在向依存结构树库转换时就会出错。有的地方的层次还应该细分等。CTB简介•一、树库简介•二、CTB简介•三、CTB中汉语词性划分规则•四、CTB中的句法标记•五、CTBParser•在CTB中,汉语词性被划分为33类,包括4类动词和谓语性形容词,3类名词,1类处所词,1类代词,3类限定词和数词,1类量词,1类副词,1类介词,2类连词,8类语气词和8类其他词。CTB中汉语词性划分规则•4类动词和谓语性形容词(Verb,adjective):•VC:Copula(系动词)•VE:you3asthemainverb•VV:Otherverb(其他动词)•VA:Predicativeadjective(表语形容词)CTB中汉语词性划分规则•VA:Predicativeadjective(表语形容词)•OurVAsincludetwotypes:•Type1:predicatesthathavenoobjectandcanbemodiedby很[very].(没有宾语并且可以被很修饰)•Type2:ThistypeofVAsdon'thaveobjects,butsomeofthemcannotbemodiedby[very]either,becausetheintensifyingmeaningisalreadybuilt-in.CTB中汉语词性划分规则•VA例子:红彤彤雪白丰富Note:whenawordinset(VA)modifiesNwithout的[DEC],itistaggedasJJoranoun,ratherthanasVA.Whenawordinset(VA)hasanobject,itistaggedasVV,ratherthanVA.Forexample,这[this]项/M活动[activity]丰富[enrich]/VV了/AS他[he]的/DEG生活[life]Thisactivityenrichedhislife.CTB中汉语词性划分规则•VC(系动词)•Thewords是[be]and为[be]aretaggedasVC.非isalsotaggedasVCifitmeans不[not]是[be]andthereisnootherverbinthesentence.•他[he]是/VC昨天[yesterday]来[come]的/SPItwasyesterdaythathecame.•他[he]是[be]/VC学生[student]HeisastudentCTB中汉语词性划分规则•VE:you3asthemainverb•Only有[have],没[not]{有[have]},and无[nothave]aretaggedasVEwhentheyarethemainverbs。CTB中汉语词性划分规则•Otherverb:VV•Thisincludestherestoftheverbs,suchasmodals,raisingpredicates(e.g.,可能[maybe,probably]),controlverbs(e.g.,要[want],想[wantto]),actionverbs(e.g.,走[walk]),psych-verb(e.g.,喜欢[like]/了解[understand]/憎恨[hate]),andsoon.CTB中汉语词性划分规则•Noun:NR,NT,NN•Anouncanbeanargumentofapredicateorapreposition.Ingeneral,Nounscannotbemodifiedbydegreeandnegationadverbssuchas很[very]and不[not].•ManynounscanbemodiedbyDet+Mstructure.Nounscanmodifynounsdirectly(i.e.,without的/DEG).CTB中汉语词性划分规则•NR:ProperNoun(专有名词)•AnNRisanameofaparticularperson,politicallyorgeographicallydenedlocation(cities,countries,rivers,mountains,etc.),ororganization(corporate,governmental,orotherorganizationalentity)。CTB中汉语词性划分规则•ThenamesofthefollowingareNRs:region/country/county/city,mountain/river,newspaper/journal,organization/company、sc

1 / 106
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功