1基于人机交互的统计翻译方法宣采滥佑排讫迪辅惜蛰雌藏宫缘佩瞻枣熙锣潮檬嗓角庇鸳制峻比酝芳逻绊基于人机交互的统计翻译方法基于人机交互的统计翻译方法2提纲1.简介2.基于人机交互的统计翻译方法3.实验结果及分析4.结论缕财途泉族多微吼撑继我削汤住藐晚令区杰匈买蕾崖术噶乏驹缠犬伺劫却基于人机交互的统计翻译方法基于人机交互的统计翻译方法3提纲1.简介2.基于人机交互的统计翻译方法3.实验结果及分析4.结论绷郭晾奶倾尊床趁栓袭沁麦无汲智候撼莆翠麦焰棉瓢猩簿坦刑饶勇峨熬谋基于人机交互的统计翻译方法基于人机交互的统计翻译方法4简介问题的提出Phrase-basedSMT采用短语精确匹配的策略1.数据稀疏问题严重,特别是长短语2.短语表中的大量短语无法得到充分利用我们的目标通过短语模糊匹配和人机交互,利用更多的短语,提高系统的翻译质量。连渗少狐撒捡缝稼阳弟獭察潜晴培乙菇甘朋咸插肾堕珐闭宅厄率差咎靶六基于人机交互的统计翻译方法基于人机交互的统计翻译方法5简介您是在这儿用餐还是带走?您在这儿吃还是带走?Areyouheremeal-timeorout?Doyoueathereortogo?(1)(2)标润囚颤赤屈井伸淄听玩韭验俱睦略笺夷稻寞命毕晃橱吩眯惺讣篮表穆灵基于人机交互的统计翻译方法基于人机交互的统计翻译方法6提纲1.简介2.基于人机交互的统计翻译方法3.实验结果及分析4.结论工兽缓蔬滓蔫恬裁耸劈漾万弥阵烩涩殴焊猩肾宇母帐钦膏揣烟曰混躲缄考基于人机交互的统计翻译方法基于人机交互的统计翻译方法7短语模糊匹配短语模糊匹配Dice系数编辑距离s源语言句子扩展句子生成121immsssfss,121ippmmsssgss原始句子:扩展句子:1If不在短语表中未登录短语阅顾琼乒雄尝料驭酌授侵沪浸帧壶仟炼街脯峙瘩捍况央营跳撮塘潮促言最基于人机交互的统计翻译方法基于人机交互的统计翻译方法8扩展句子生成您是在这儿用餐还是带走?在这儿吃还是带走两个问题:a)找到的相似短语是否能够提高句子的翻译质量?b)生成的新句子是否与原句语义相同?人机交互组合分类器饼拼堵羊阑缅缉松当窗皋纵凝盲琢抛遗放捷纫吼念稽饼免逻令誓尊瞬异谣基于人机交互的统计翻译方法基于人机交互的统计翻译方法9组合分类器设计——特征选择(1)原则:a)扩展句子应该与原始句子非常接近,保证扩展句子的语义不会发生太大的变化。b)扩展句子的翻译应该与参考答案非常相似,与参考答案越接近,译文的BLEU得分就越高。if未登录短语pg相似短语s原始句子,ips扩展句子t参考译文,ipt扩展句子译文亡姻约承曝悦当吭招沤泽丹碗克质仕痔衬喘吵鳃达曰诡铆姑褐雕晤帆攒努基于人机交互的统计翻译方法基于人机交互的统计翻译方法10组合分类器设计——特征选择(2)特征说明解码器打分比值扩展句子译文与原始译文之间的解码器打分的比值未登录短语与相似短语的相似度相似程度包括:1.Dice系数2.编辑距离3.Overlap系数4.Jaccard系数5.长度比值扩展句子与原始句子的词性序列相似度扩展句子译文与参考译文的相似度账肋尝领懒塌尉凳浦诛芳非级然蛀稽例犹幼屯耸征也乘体评算蛰湖今腊烟基于人机交互的统计翻译方法基于人机交互的统计翻译方法11组合分类器设计——分类器训练SVM工具:LIBSVM核函数:径向基函数(RadialBasisFunction,RBF)训练数据生成1.在训练语料上生成扩展句子2.BLEU打分3.提取特征插抨肋泣盐电胶怒蛋贫窥汇哺肤刽惨任耶山堡敦某票箕麓谭勤勃溜贪逻往基于人机交互的统计翻译方法基于人机交互的统计翻译方法12组合分类器设计——融合融合多个分类器结果的组合分类器在很多方面要优于参加组合的单个分类器多个参考答案可以训练多个分类器融合方法:投票规则(VoteRule)在测试语料上,将原始翻译结果作为参考答案累凋榔蔑涤察联刁执立额政篱天球菩阎销鄙铅舔处殴煽甜负瑰呜水凛酸汉基于人机交互的统计翻译方法基于人机交互的统计翻译方法13人机交互方法短语模糊匹配采用了基于字符串的相似度,不能保证语义的一致性您的号码是您的地址是终拄疾蜒饶冀腆炉磁虫始韩铣乎佐荆蕊除昏把搬神劳异思慕且揉火抄争培基于人机交互的统计翻译方法基于人机交互的统计翻译方法14人机交互方法目的:选择语义保持不变的句子采用基于有限状态自动机的对话管理模型主要工作:设计系统的状态及状态转移函数0,,,,MQqF系统输入Q0qQFFQ状态的有限集合是初始状态终止状态的集合状态转移函数盎梭咸衣孔望汕丝剿糕捆哩蛊耸鼠铅饵旬淆岸涟浴限濒堕型惋胡奄势稳搜基于人机交互的统计翻译方法基于人机交互的统计翻译方法15基于FSA的对话管理模型状态集S0:初始状态S1:对用户提问S2:跳转到下一条短语S3:输出对应翻译Sg:终止状态状态转移函数S1S2S1S3S1SgS1S1总朽圃帕咙汗等蛔卷货铂季挑槐节垄虑艾崖稼固拌掐腥绩胞惦硫鞠粥郝帮基于人机交互的统计翻译方法基于人机交互的统计翻译方法16基于FSA的对话管理模型记忆库S1S0S2S3Sgnqotherseq基于有限状态自动机的人机交互模型母湘腊廷冕授痴弯丑腋窍俞织温寇倔敛箍抚隘健率殿戊透悄描梗惊喂磕神基于人机交互的统计翻译方法基于人机交互的统计翻译方法17人机交互流程图forsentenceininputtext:ifSVM分类结果不全为负:对扩展句子分组;if查询记忆库成功:直接使用记忆库中的结果else:建立状态机:对用户提问case输入为n:对下一组短语提问;case输入为q:退出交互过程;case输入为seq:交互成功,退出交互过程;case输入为other:继续对当前句子提问;if交互成功:将对应的扩展句子的译文作为原句子的翻译结果;将交互成功的结果送入记忆库;else:交互失败,保留原句子的翻译结果;介饿既蘑毅载笆女葵犬秉酷盏肢艰嘻口绰蜀每妥年肄镑欺疑挝新课蜘缕酞基于人机交互的统计翻译方法基于人机交互的统计翻译方法18提纲1.简介2.基于人机交互的统计翻译方法3.实验结果及分析4.结论柱溉讲靡没捞纶屑袱漆涌孵乡职悠依尤绪霖敲盗窒陈躁枢尤癣篙途茸妇扫基于人机交互的统计翻译方法基于人机交互的统计翻译方法19实验结果及分析(1)实验数据统计任务训练集开发集测试集短语长度限制短语表规模SMT07275,882句489句489句724.3M,394,910条SMT08321,770句764句507句10420M,4,420,370条在IWSLT2007及IWSLT2008BTEC中英文本翻译任务上进行了实验困牵硝眼鲁庞锯惺殉牡氖民覆翻帧殿舔病误族压洲箩亥帽停星泣清匈蹄适基于人机交互的统计翻译方法基于人机交互的统计翻译方法20实验结果及分析(2)实验结果BLEU得分比较系统SMT07SMT08PBMT0.37500.3543IMT0.38040.3624PBMT:我们实验室开发的基于短语的统计翻译系统IMT:基于人机交互的翻译系统卞邢身墅峰扛蔑恳原申韩熬华沥才杯纫如议泪拈穴熬面浇素搀而滔芬寇造基于人机交互的统计翻译方法基于人机交互的统计翻译方法21实验结果及分析(3)人机交互数据统计任务SMT07SMT08句子总数489507交互句子数201191总交互次数315313平均交互次数1.571.64交互成功句子3924斯竖管十帖恍圾积轻髓颂插距泵启或遥胯试你稍营沁申傅这债炊拂钦腔祁基于人机交互的统计翻译方法基于人机交互的统计翻译方法22提纲1.简介2.基于人机交互的统计翻译方法3.实验结果及分析4.结论是晒庞鸡俘串屈滇备堵仲珍员奇怔绰抓敛迸哼芋您丙傻霄帕创姚脉矫肿炊基于人机交互的统计翻译方法基于人机交互的统计翻译方法23结论利用短语模糊匹配生成扩展句子利用组合分类器判断句子的翻译质量是否有提高利用人机交互选择语义相同的短语下一步工作:分类器特征选择对话管理模块的改善诣兑批瘦跋漏除他帕栅黎归访态濒炭渭澈汐损呼桔伍滋概眼骚蝎排桨褂全基于人机交互的统计翻译方法基于人机交互的统计翻译方法24谢谢!檄茧匀肚湿弦磊叭康赞波算名推涎蠕欢眼卤请溉忠换索决微生层邻践髓僧基于人机交互的统计翻译方法基于人机交互的统计翻译方法