详细介绍:PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。一.标记简要说明代码名称Ag形语素a形容词ad副形词an名形词Bg区别语素b区别词c连词Dg副语素d副词e叹词f方位词g语素h前接成分i成语j简略语k后接成分l习用语Mg数语素m数词Ng名语素n名词nr人名ns地名nt机构团体nx外文字符nz其它专名o拟声词p介词Qg量语素q量词Rg代语素r代词s处所词Tg时间语素t时间词Ug助语素u助词Vg动语素v动词vd副动词vn名动词w标点符号x非语素字Yg语气语素y语气词z状态词二.格式说明1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。2.每一行的开头是编号。比如19980101-01-001-001表示这一自然段是1998年1月1日的第01版的第001篇文章的第001自然段,用短横线隔开的4部分按照顺序是年月日-版号-篇章号-段号。标号也作为一个词进行标注,词性固定为m(数词)。3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的篇章号-段号都会有所改变。4.标号之后,是2个单字节空格,然后开始正文。5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为词语/词性,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最后的词,在标记之后也有2个单字节空格,保持格式一致。6.语料中除了词性标记以外,还有短语标记,这种情况一般出现在机构团体名称、成语等情况中。如通过/p[中央/n人民/n广播/vn电台/n]nt、/w中,用[]合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后空两个单字节空格,保持了格式的一致。三.例子19980101-01-001-001/m迈向/v充满/v希望/n的/u新/a世纪/n--/w一九九八年/t新年/t讲话/n(/w附/v图片/n1/m张/q)/w……19980101-01-001-006/m在/p1998年/t来临/v之际/f,/w我/r十分/m高兴/a地/u通过/p[中央/n人民/n广播/vn电台/n]nt、/w[中国/ns国际/n广播/vn电台/n]nt和/c[中央/n电视台/n]nt,/w向/p全国/n各族/r人民/n,/w向/p[香港/ns特别/a行政区/n]ns同胞/n、/w澳门/ns和/c台湾/ns同胞/n、/w海外/s侨胞/n,/w向/p世界/n各国/r的/u朋友/n们/k,/w致以/v诚挚/a的/u问候/vn和/c良好/a的/u祝愿/vn!/w