汉英双向时间和数字命名实体的识别与翻译系统1翟飞飞夏睿周玉宗成庆中国科学院自动化所模式识别国家重点实验室北京100190E-mail:wsknow@yahoo.cn{rxia,yzhou,cqzong}@nlpr.ia.ac.cn摘要:时间和数字命名实体的识别与翻译是统计机器翻译中语料预处理任务的一个重要步骤,对后续的模型训练和系统性能有重要的影响。本文在考虑汉英两种语言中时间和数字命名实体构成规律的基础上,将其进行了类别划分并分别制定了相应的识别和翻译规则,最终实现了一个基于规则方法的时间和数字命名实体识别翻译工具。经实验测试,该工具具备较高的识别和翻译准确率,提高了统计机器翻译系统的性能。关键词:时间命名实体,数字命名实体,命名实体识别,命名实体翻译,机器翻译AnApproachtoRecognizingandTranslatingChinese&EnglishTimeandNumberNamedEntitiesFeifeiZhai,RuiXia,andChengqingZongNationalLaboratoryofPatternRecognition,InstituteofAutomation,ChineseAcademyofSciences,Beijing100190,ChinaE-mail:wsknow@yahoo.cn{rxia,cqzong}@nlpr.ia.ac.cnAbstract:Thetechniquetorecognizeandtranslatetimeandnumbernamedentitiesisanimportantpre-processingstepinstatisticalmachinetranslation(SMT).ItcertainlyinfluencestheperformanceofanSMTsystem.ThispapercarefullyinvestigatesthestructuralcharacteristicsoftimeandnumbernamedentitiesinbothChineseandEnglish,dividesthetimeandnumbernamedentitiesintoseveralkindsandformulatesthecorrespondingrulesforrecognitionandtranslation.Groundonthis,arule-basedsystemhasbeenbuilttorecognizeandtranslatethetimeandnumbernamedentitiesinbothChineseandEnglish.Accordingtoourexperiments,thesystemisshowntohaveahighaccuracyofrecognitionandtranslation,andsignificantlyimprovestheperformanceofSMTsystem.Keywords:timenamedentity,numbernamedentity,namedentityrecognition,namedentitytranslation,machinetranslation1.引言命名实体(namedentity,NE)识别及翻译是信息提取0、问答系统和机器翻译等自然语言处理任务中重要的基础性问题,在自然语言处理技术走向实用化的过程中占有重要地位。一1本论文的研究工作得到国家自然科学基金项目(编号:60736014)、国家863项目(编号:2006AA010108-4)和国家支撑计划项目(编号:2006BAH03B02)资助。般来说,命名实体识别和翻译的任务就是识别并翻译待处理文本中的三大类名称词汇:实体类、时间类和数字类。这三类词汇可以进一步划分为七小类:人名、机构名、地名、时间、日期、货币和百分比。命名实体识别与翻译方法主要可以分为基于规则的方法和基于统计的方法两种。目前的主流方法是基于统计的机器学习方法,它利用人工标注的语料进行训练,模型从语言现象中学习识别和翻译知识,自动判别并翻译命名实体。但基于统计的机器学习方法需要大规模语料的支持,当语料规模较小时,会降低命名实体的识别和翻译准确率,最终影响后续的自然语言处理任务。而基于规则的命名实体识别和翻译方法虽然需要人工编制规则,但它不依赖于语料规模,不需要标注和训练,具有简单高效的优点。由于时间类和数字类命名实体的形式比较简单,在命名规则上也有较为明显的可循规律性,因此通常利用基于规则的方法对其进行识别和翻译。本文根据汉语和英语中的时间和数字命名实体的命名规律,将时间和数字命名实体进行了较为详细的分类,并分别制定了相应的识别和翻译规则,实现了一个基于规则方法的汉英双向时间和数字命名实体的识别及翻译系统。2.识别规则与翻译规则时间、数字命名实体的构造形式简单,命名规则有规律可循,但其表达形式具有多样性的特点,因此为了便于时间、数字命名实体的识别和翻译,我们将其划分为如下六种类型:数量(Number)、数码(Figure)、序数词(Ordinal)、时间(Clock)、日期(Date)、星期(Week),并针对这六类分别制定识别规则和翻译规则。制定识别和翻译规则的基本策略如下:(1)识别规则z数量和数码识别:获取阿拉伯数字串和汉语、英语词串;以左邻词和右邻词为依据区分数量与数码词。z时间、日期、序数词、星期识别:获取对应类别的名词词缀;利用习惯和常用形式对获取的名词和已识别得到的数字表达式进行组合;以左右相邻词或中间连接词作为识别标志。(2)翻译规则z找到字串中特殊的名词词缀;z确定字串中名词词缀和数字表达式的相对位置;z利用习惯或常用基准对识别得到的字串进行分解并翻译;z对翻译结果进行重排序。2.1英语时间、数字命名实体的识别规则命名实体识别通常包括两部分:(1)实体边界识别;(2)确定实体类别。英语中每个词之间均由空格隔开,在进行规则匹配和类型确定时相对汉语较为容易。但英语的时间、数字命名实体在使用时较为灵活多变,为尽量兼顾英语时间、数字命名实体的各种用法,英语时间、数字命名实体的识别和翻译规则较为繁琐,且需要不断扩展。通过对英语数字、时间命名实体构成规律的分析,我们给出了英语时间、数字命名实体识别的主要规则,如表1所示。表1.英语时间数字命名实体识别规则2.2汉语时间、数字命名实体的识别规则汉语时间、数字命名实体的识别和翻译基于分词后的文本进行,以便于确定时间数字命名实体的边界。例如:“下一个周三”,通过空格可以迅速确定“星期”类命名实体“周三”的边界。虽然汉语时间、数字命名实体的命名规律相对固定,但也经常会出现一些较复杂的特殊情况,例如:“4-5百亿”。因此制定汉语时间、数字命名实体的识别规则时需要在一般规律的基础上进行扩展。表2给出了遵循汉语时间、数字实体一般命名规律的实体识别规则。表2.汉语时间、数字命名实体识别规则实体类别主要识别规则介绍(其中括号内为对应的翻译结果)数量(Number)1.英语数量单词组合。如:twothousandfivehundredandfifty(二千五百五十)2.带point英语数量词组合。如:onepointfivemillion(一百五十万).3.混合阿拉伯数字表示数量。如:1.53million(一百五十三万)4.分数、百分数。如:threesevenths(七分之三)thirtytwopercent(百分之三十二)数码(Figure)连续英文数字组成数码。如:onetwothree(一二三)序数词(Ordinal)1.英文单词组合。如:thirtysecond(第三十二)eighteenth(第十八)2.阿拉伯数字加后缀。如:36th(第36)时间(Clock)1.两个英文单词组合。如:eighttwenty-two(八点二十二分)2.带past或to的时间表示。如:eightpastten(十点八分)3.带quarter的时间表示。如:aquartertoten(十点差一刻)日期(Date)常用日期表示方法。如:10september2008(2008年9月10日)octobertenth,2008(2008年10月10日)10thofseptember(9月10日)星期(Week)表示星期的单词:Monday(星期一)数字实体类别主要规则介绍(其中括号内为对应的翻译结果)数量(Number)1.汉字表示数量。如:四十三(forty-three)、三万(thirtythousand)2.混合阿拉伯数字表示数量。如:3万(threehundredthousand)3.小数,分数。如:五分之二(twofifths),十五点二(15.2)4.大约的数量。如:七八百(sevenoreighthundred)数码(Figure)连续的中文数字组成数码。如:二六二一零(twosixtwoonezero)序数词(Ordinal)特殊词“第”加数量词构成序数词。如:第二十四(twenty-fourth)时间(Clock)1.确切的时间。如:7时25分(seventwenty-five)、八点零八分(eightpasteight)2.表示时间的特定词。如:八点一刻(eightfifteen)日期(Date)1.汉字表示日期:公元二零零八年八月八日(eighthAugust2008A.D.)2.阿拉伯数字加表示日期的词缀:1990年6月23日(23thJune1990)星期(Week)表示星期的前缀加对应汉字:星期一(Monday)周日(Sunday)2.3汉英双向时间、数字命名实体的翻译规则时间、数字命名实体的翻译在识别结果上进行。由于翻译需要针对不同的实体类型作更为详细的划分,因此相对识别规则较为繁琐,我们仅仅列举翻译过程中最常用的规则,如表3所示(其中C1C2…和E1E2...分别代表汉语和英语表示数字含义的词):表3.汉英数字命名实体翻译规则3.识别及翻译系统实现根据上述识别和翻译规则,我们实现了基于规则的汉英双向时间、数字命名实体识别及翻译系统。该系统由“汉到英”和“英到汉”两部分组成,每个部分结构相同,都包含3个基本模块:识别模块、翻译模块和输出模块。系统框架如图1所示:图1:基于规则的汉英时间数字命名实体识别及翻译系统框图系统接受经过分词的汉语文本或经过词汇化(tokenization)的英语文本作为输入,以行为单位进行处理。识别模块将包含数字信息的表达式抽取出来,按照表1所示的六类进行识别标记。翻译模块根据识别模块的识别标记结果进行分类翻译。输出模块可以根据识别和翻译的结果提供识别输出、翻译输出以及输出生词列表三种结果。以英文句子“Septembereighthisthethirtysecondday.”为例,给出系统的识别与翻译过程。例句中September为日期词缀,eighth和second为序数词缀,thirty为数量词,其他词不具有数字含义。根据日期和序数词的识别规则,识别模块将September和eighth合并,并规则举例汉语数量→阿拉伯数字→英语数量三百二十八→328→threehundredandtwentyeightC1C2C3…→E1E2E3…零一零五三→zeroonezerofivethreeC1点C2分→E1E2八点二十五分→eighttwenty-fiveC1年C2月C3号→E3E2E1二零零九年十月一日→firstOctober2009星期C1→E1星期天→Sunday英语数量→阿拉伯数字→汉语数量onethousandtwohundred→1200→一千两百E1E2E3…→C1C2C3…fiveninesix→五九六E1pastE2a.m.→上午C2点C1分eightpasttena.m.→上午十点八分E1E2,E3→C3年C1月C2日September10th,2008→2008年9月10日E1→星期C1Sunday→星期日标记为日期实