关毅guanyi@hit.edu.cn研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室第五章n-gram语言模型1、n-gram语言模型附录1、语言模型构造实例附录2、最大熵模型的理论基础研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室本章主要内容噪声信道模型噪声信道模型目标:通过有噪声的输出信号试图恢复输入信号研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)()|(maxarg)()()|(maxarg)|(maxargIPIOPOPIPIOPOIPIIII噪声信道模型的应用噪声信道模型是一种普适性的模型,通过修改噪声信道的定义,可以将如下应用纳入到这一模型的框架之中研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室噪声信道模型的应用-语音识别一个声学信号对应于一个语句,一个语音识别器需找到其对应的可能性最大的语言文本根据贝叶斯公式研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室))|((maxargATpTT)|()(maxarg)()|()(maxargTApTpApTApTpTTT噪声信道模型的应用-语音识别信息源对应于以概率生成语句文本,噪声信道对应于以概率分布将语句文本转换成声音信号。语音识别的目的就是由通过噪声信道而输出的声音信号恢复其原始的语句文本。研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)(Tp)|(TAp噪声信道模型的其他应用信源以概率生成语句文本,信道为,语音/图像/翻译文本/字音转换模型手写体汉字识别文本-〉书写(或者打印、扫描)-〉图像文本校错文本-〉输入编辑-〉带有错误的文本机器翻译目标语言的文本-〉翻译-〉源语言文本音字转换文本-〉字音转换-〉汉字(拼音)编码研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)(Tp(|)pOT噪声信道模型的其他应用信源以概率生成词性标注序列,信道为词性标注序列转为词序列的转换模型词性标注词性标注序列-〉词性词串转换-〉词串研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)(Tp(|)pOT香农游戏(ShannonGame)ClaudeE.Shannon.“PredictionandEntropyofPrintedEnglish”,BellSystemTechnicalJournal30:50-64.1951.给定前n-1个词(或者字母),预测下一个词(字母)从训练语料库中确定不同词序列概率研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室语言模型P(T):语言模型,如何计算P(T)?根据链规则问题:1、参数空间过大,无法实用!2、数据稀疏问题研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室12121312121()()(...)()(|)(|)...(|...)nnnPTPSP基本思想“马尔科夫假设”-下一个词的出现仅仅依赖于它前面的一个词或者几个词.假设下一个词的出现依赖于它前面的一个词:bigram假设下一下一个词的出现依赖于它前面的两个词:trigram……研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)...|()...|()|()()...()()(12121312121nnn)|()...|()|()(123121nnwwpwwpwwpwp)|()...|()|()(12213121nnn语言模型最大相似度估计(MaximumLikelihoodEstimate)“n-gram”=n个词构成的序列unigrambigramtrigramfour-gram(quadgram4-gram)……研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)...()...()...|(12121121nnnn语言模型N元文法对下一个单词的条件概率逼近的通用等式是:构造(训练)N-gram语言模型:在训练语料库中统计获得n-gram的频度信息研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)|()|(1111nNnnnnwwPwwP举例I3437want1215to3256eat938Chinese213food1506lunch459研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室假设语料库总词数为13,748词举例IwanttoeatChinesefoodlunchI81087013000want307860686to30108603012eat002019252Chinese200001201food190170000lunch4000010研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室举例P(IwanttoeatChinesefood)=P(I)*P(want|I)*P(to|want)*P(eat|to)*P(Chinese|eat)*P(food|Chinese)=0.25*1087/3437*786/1215*860/3256*19/938*120/213=0.000154171P(IwanttoeatChinesefoodlunch)=?研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室N的选择:可靠性vs.辨别力“我正在________”讲课?图书馆?听课?学习?借书?……“我正在图书馆________”学习?借书?……研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室可靠性vs.辨别力更大的n:对下一个词出现的约束性信息更多,更大的辨别力更小的n:在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室N的选择词表中词的个数|V|=20,000词研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室n所有可能的n-gram的个数2(bigrams)400,000,0003(trigrams)8,000,000,000,0004(4-grams)1.6x1017数据稀疏问题假设我们使用trigram模型如果某个那么P(S)=0数据稀疏问题必须保证从而使研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)|()...|()|()()(12213121nnn)()()|(121212iiiiiiiiwwCC0P假设某语料库词汇分布如下研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室最大相似度估计研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室期望概率分布研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室期望概率分布研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室平滑(Smoothing)降低已出现的n-gram条件概率分布,以使未出现n-gram条件概率分布非0又可称为“折扣方法”(Discountingmethods)(确认)“Validation”–特指使用两个不同的训练语料库的平滑方法研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室拉普拉斯定律LaPlace’sLaw(加一平滑法addingone)研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室拉普拉斯定律(addingone)研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室)(,1)...()...(2121nnnLapVBBN拉普拉斯定律研究生专业必修课自然语言处理,2007年秋季Copyrights@2007.HIT.AllRightsReserved哈尔滨工业大学计算机学院语言技术中心哈工大-雅虎中国联合实验室Lidstone定律