CTB词性标注指南第一章引言中文几乎没有屈折语素。譬如,词语不随时态、格、人称和数量而曲折变化。因此,对特定文本中的词进行词性标注往往都很困难。这个文件是专为宾州中文树库项目[XPS+00]所设计的。这个项目的目标是构建一个十万词的有语法托架的中文官话文本语料库。标注包括两个步骤:第一阶段是中文分词和词性标注,第二阶段是句法托架。每个步骤包括至少两个经过,即数据库由一个标注者标注,结果文件由另一个标注者检查。词性标注指南,就如分词指南和托架指南,在项目进行过程中已经修订了多次。到目前为止,我们已经在我们的网站上发行了三个版本:第一部草作完成于1998年12月,在第一个中文分词和词性标注文件发行后;第二部草作完成于1999年3月,在第二个中文分词和词性标注文件发行后;这个文件,是第三部草作,修订于第二个托架文件发行后。在这个第三部草作中,与前两部草作相比,主要改变在于:(1)我们增加了一章引言来解释指南中存在的一些基本原理;(2)我们增加了对中文词语的注释;(3)我们把这个指南写成了一个技术性报告,报告被发表于宾夕法尼亚大学认知科学研究机构(IRCS)。1.1标注标准词性标注(POS)的核心问题是词性标注是否应该基于意义或者句法分布来标注。这个问题自1950年以来就被热烈争论到现在,并且始终存在两种不同的观点。譬如,中文词“毁灭”可以被翻译为英文中的destroy或destroys或destroyed或destroying或destruction,并且如它英文所对应的词一样使用。根据第一种观点,词性标注应该只基于意义。因为词的意义在它所有的用法中基本都是一样的,它就应该总是被标注为一个动词。第二种观点是词性标注应该由词的句法分布来决定。当“毁灭”是一个名词短语的首词,它在那个文本中就应该被标注为一个名词;当“毁灭”是一个动词短语的首词,它就应该被标注为一个动词。我们选择了句法分布作为我们词性标注的主要标准,因为这与当代语言学理论所采纳的原则一致,譬如X-bar理论和GB理论中的首字投射概念。由于很多中文动词也出现在名词位置,因此需要两个词性标注标记,这就导致使用句法分布方法将会扩大词典的规模,因此这个原因常被用来反对句法分布方法。我们认为这个观点不足以让人信服,主要有如下两个理由。首先,两个词性标注标记可以让我们区别可以出现在名词位置的动词和不可以出现名词位置的动词(譬如单音词动词和重叠词形式的动词如AABB,A不A)。如果存在动词可以出现在名词位置或者不能出现在名词位置的实词虚化现象,这些实词虚化可以被看做构形规则,这会使得词典自动被扩大。另一方面,如果不存在这样的实词虚化现象并且名词化过程大部分都很特殊,这就验证了一个观点:这是一个词汇现象并且那些可以被名词化的动词在词典中应该有两个词性标注标记。其次,很多动词可以出现在名词位置的现象并不只存在于中文,在其他语言中设立的标准也是给予这些词两个标记。1.2词性标注标记集我们的词性标注标记集有33种标记:动词,形容词(4):VA,VC,VE,VV。名词(3):NR,NT,NN。定位(1):LC。代词(1):PN。限定词和数词(3):DT,CD,OD。度量词(1):M。副词(1):AD介词(1):P。连词(2):CC,CS。助词(8):DEC,DEG,DER,DEV,SP,AS,ETC,SP,MSP。其他(8):IJ,ON,PU,JJ,FW,LB,SB,BA。1.3词性标注标记集假设我们从一个大部分人认同的小型词性标注标记集开始,其中包括名词、动词、副词、介词等的标记。问题在于我们是否应该用一组更为具体的标记{T1,T2,…,Ti,…,Tn}来取代每个标记T。有如下几个因素需要考虑:·通常,由于有相同词性标注标记的词都具有极为相似的句法分布,标注需要一个很大的标记集。另一方面,标记集越大,标注起来越困难。因为标注者需要记住更多标记、更多测试并且应用一致。因此,当我们决定一个标记集时,我们需要作出妥协。·设置一组(T)作为标有词性标注标记T的词的标记集。如果没有好的测试把标记集(T)中的每个词分配给任一标记Ti,并且{Ti}相比T没有提供更多有意义的信息,那么我们就不会把T分割成标记集{Ti}。·如果集合(T)是一个闭合标记集并且对于每组(i,j),标记集(Ti)和(Tj)的交集为空,那么通过一个简单的转换程序可以把词/T自动取代为词/Ti。因此,如果我们想用{Ti}中的具体标记来标注词语,这个转换过程可以由程序来自动完成,而不是通过标注者手动转换。1.4处理困难案例有时候,我们不是很确定一个文本中的某个词是否应该被标注为X或Y。如果我们确定这个词不在标记集(X)和(Y)的交集中,那么我们可以简单选择一个标记如X来标注这个词,如果有需要也可以再用Y来取代X。譬如,词语“许多”在“许多学生”这个短语中,既是一个JJ(名词作定语)又是一个DT(限定词)或是一个CD(限定数量词),并且它应该确切地标记为这三个标记之一。我们简单选择一个看似更为恰当的标记,然后根据需要可以再用别的标记来自动取代。另一方面,如果我们知道在另一个文本中,这个词被标记为两个标记之一,假设为X,那么我们应该判断这个词在两个文本中是否扮演相同的角色。如果我们确定这个词在两个文本中词性是一样的,我们应该标记它为X;否则,标记它为Y。譬如,“又”在“(1)又…又…,譬如又搞笑又难过”中既是一个AD(副词)又是一个CC(联合短语的标记“和”),而“又”在“(2)他又来了”中明显是一个AD(副词)。由于我们不确定“又”在这两个文本中扮演的角色是否相同,我们把(1)中的词“又”标记为CC。隐藏在这个决定后面的基本原理是,如果之后我们想标记(1)中的词“又”为AD,我们可以简单地用又/AD替换又/CC。但是如果我们现在就把(1)中的词“又”标记为AD,并且之后想要把它改为CC,那么我们需要区别这两个文本并且确定只有(1)中的“又”需要改为又/CC,而不是把(2)中的“又”改为又/CC。1.5标注法用于这个文件的一些标注法:·脱离文本,一个词可以有多种标记,“一个词w在标记集(T)中”意味着T是词w的标记之一。·标记N代表所有名词标记(NT/NN/NR)。标记V代表所有动词标记(VA/VV/VC/VE)。“Det+M”是DT+(OD|CD)+M的速记符,其中DT,OD,CD可能出现也可能不出现。·“一个词可以被否定”是“一个肯定意义的词可以被否定”的缩略说法。相似地,“一个词可以出现在A不是A”意味着“一个词可以出现在问题模式A不A”。·对于注释,我们不翻译度量词、助词和标记为LB、SB、BA、VC的词。相反地,我们用它们的词性标注标记来标记这些词。第二章宾州树库词性标注标记集2.1动词:VA,VC,VE,VV一般地,动词满足以下特征:·动词(除了助动词等)作为一个从句的谓语(主句或嵌入分句)。·动词可以用“不”或者“没”来否定。·体标记可以附属于大多数但不是全部的动词。·大多数动词可以出现在“A不A”中。如果一个词w在集合(V)中是一个名词短语作为词首,那么它被标记为N而非V。如果词w在集合(V)中是一个名词修饰语(排除V是一个关系从句的首部的情况),那么它被标记为N或者JJ(根据对N和JJ的测试),而非V。2.1.1谓词性形容词:VA谓词性形容词大致上相当于英语中的形容词和中文语法中、文学作品里的静态动词。我们的谓词性形容词包括两类:第一类:没有宾语且能被“很”修饰的谓语。第二类:源自第一类的、通过重叠(如红彤彤)或者通过名词加形容词模式意味着“像N一样A”(如雪白)的谓语。这个类型的谓词性形容词没有宾语,但是有一些不能被“很”修饰,因为这些词的强调意思已经内嵌在词内了。注意:当集合(VA)中的一个词修饰名词但没有用“的”,那么它被标注为JJ(名作定)或是一个名词,而不是VA。当集合(VA)中的一个词有一个宾语,那么它被标注为VV,而不是VA。譬如,这项/M活动丰富/VV了/AS他的/DEG生活。2.1.2系动词:VC“是”和“为”被标记为VC。如果“非”的意思是“不是”并且句子里没有其他动词时,“非”也被标注为VC。“是”有几种用法:·连接两个名词短语或者主语:他是/VC学生。·在分裂句中:他是/VC昨天来的/SP。·为了强调:他是/VC喜欢看书。现在,在所有这些情况中,“是”被标注为VC。2.1.3“有”作为主要动词:VE只有当“有,没{有}”和“无”作为主要动词时(包括占有的“有”和表存在的“有”等等),被标注为VE。2.1.4其他动词:VVVV包括其他动词,诸如情态动词,提升谓词(如“可能”),控制动词(如“要”、“想”),行为动词(如“走”),心理动词(如“喜欢”、“了解”、“怨恨”),等等。2.2名词:NR,NT,NN一个名词可以是一个谓语或者一个介词的论元。通常,·名词不能被程度副词和否定副词诸如“很”、“不”来修饰。·很多名词可以被Det+M结构修饰。·名词可以直接修饰名词(也就是说,没有“的”)。如果一个词是一个名词短语的首部,那么它就被标注为一个名词。有时候很难识别一个短语是否为名词短语。一些可以作为判别名词短语的测试如下:·如果短语XP被一个Det+M短语所修饰,并且在其他文本中Det+M短语只修饰名词短语,那么XP很可能是名词短语。·如果短语XP是一个动词或者一个介词的论元,并且这些动词和介词在其他文本中只充当名词短语的论元,那么XP很可能是名词短语。·如果短语XP被“ZP的/DEG或DEC”所修饰,那么XP很可能是名词短语。2.2.1专有名词:NR专有名词是名词的子集。一个专有名词可以是一个特定的人名,政治或地理上定义的地方(城市、国家、河流、山脉等),或者是一种组织(企业、政府或其他组织实体)。一个专有名词通常是独一无二,并且不能被Det+M所修饰的。·以下名字是专有名词:地区/国家/村庄/城市,山脉/河流,报纸/杂志,组织/公司,学校/联盟/基金会,个人/家庭。·以下名字不是专有名词:国籍(如中国人),种族(如白人),职称(如教授),疾病,职业,器官(如肺),乐器(如钢琴),游戏(如足球),花(如玫瑰),等等。2.2.2时间名词:NT时间名词可以是介词的宾语,譬如在、从、到、等到。它们可以被问及,如“这个时候”,也可以被用以提问“什么时候”。它们也可以直接修饰VP(动词短语)或者S(主语)。像其他名词一样,时间名词可以是某些动词的论元。时间名词可以是时间的名称(如1990年、一月、汉朝)或是由“PN+LC,N+LC,DT+N”等结构组成。例子:一月、汉朝、当今、何时、今后2.2.3其他名词:NN其他名词包括所有其他名词。其他名词NN,除了地方名词,一般不能修饰动词短语(有“地/DEV”或者没“地/DEV”)。2.3方位词:LC很多名词单独使用时不能作为介词如“在”、“到”的论元,也不能直接修饰VP(动词短语)或者S(主语)。方位词的一个功能是连接前述的名词短语或者主语,从而使整个短语可以作为这些介词的论元或者来修饰动词短语或主语。一些方位词可以独立使用作为介词或动词的论元。一些方位词可以被“最”修饰。方位词不能被Det+M所修饰。方位词分为两类:·方位词:这类方位词表示方向、位置等。它们来自名词。一些可以单独使用作为介词或动词的论元。一些可以被“最”修饰。它们不能被Det+M所修饰。—单音节方位词:如:前,后,里,外,内,北,东,边,侧,底,间,末,旁。—双音节方位词:它们由以下部分组成:*单音节方位词加上诸如“以、之”等的语素。例子:之间,以北。*两个单音节方位词。例子:前后,左右,上下,东北。·其他:我们把以下情况标注为LC。.为止:到目前为止。.开始:从四月开始。.来:5年来。.以来:1998年以来。.起:一九九三年起。.在内:包括他在内。2.4代词:PN代词的功能是作为名词短语的替代物或者表示事先详细说明的或者从上下文可知晓的被叫的人或事。它们一般不受Det+M或者形容词性短语修饰。代词包括人称代词(如我、你),当作为名词短语单独使用时为指示代词(如这、那),所有格代名词(