构造汉语的统计计算语言模型 - 哈尔滨工业大学

shanglei819
0 ℃
2020-07-08

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

汉语语言模型研究及其在音字转换中的应用计算机科学与技术学院语言技术研究中心刘秉权2003年5月28日1绪论本文研究的目的和意义计算语言学概述相关领域研究与发展综述统计语言建模技术基于统计的计算语言模型给定所有可能的句子，统计语言模型就是一个概率分布：条件概率形式：N-gram模型：)(sp∏===niiindefhwpwwpsp11)|(),,()(∏=−+−=niiNii),,|()(1统计语言模型的作用信源－信道模型:I:语言文本；O:声音信号、字符图像信号、拼音输入等。语言模型：)|()(maxarg)()|()(maxarg))|((maxargˆIOpIpOpIOpIpOIpIIII===)(Ip统计语言模型建模方法极大似然方法语言建模贝叶斯方法)|(maxargˆMXPMM=)|(maxargˆXMPMM=)()()|(maxargˆXPMPMXPMM=)()|(maxargˆMPMXPMM=统计语言模型的评价标准熵(Entropy)交叉熵(CrossEntropy)复杂度(Perplexity))(log1)(1limnnxpnLH→∝−=∑⋅−=xMTMTxPxPPPH)(log)();(');('2)(MTPPHMTPP=参数学习和数据平滑参数学习有指导学习--基于完全数据的最大可能性估计无指导学习—(针对不完全数据的)具有隐含变量的参数训练过程—EM算法数据平滑--Good-Turing估计、回退平滑和线性插值技术；变长N-gram模型、网格方法、压缩模型当前主要语言模型N-gram模型决策树模型指数模型（最大熵模型）整句模型文法模型概率上下文无关文法链文法概率依存文法自适应模型统计语言模型存在的不足之处最成功的统计语言建模技术很少使用真实的语言知识跨领域的适应能力差不能有效处理长距离语言约束：为保证可行性，所有现有的语言模型都在文本的不同部分之间作了独立假设。汉语语言模型的独特问题本文的目标针对汉语统计模型的参数训练问题进行研究应用于手机类信息设备的智能拼音汉字输入改进音字转换引入语言知识，提高统计模型的描述能力研究汉语模型的自适应和机器学习方法本文主要工作汉语统计语言模型参数训练的优化基于语言元素的汉语统计模型汉语语言模型的自适应方法面向手机类设备的智能拼音汉字输入方法2汉语统计语言模型参数训练的优化∑+−+−−+−=iwiNiiNiiNiiwwcwwc)()()|(1111语料库分词语料参数估计语言模型分词系统词表问题的分析汉语统计模型的准确构建和优化涉及到以下几个问题：词表的确定（生词识别）分词参数估计三者存在因果关系词表←→分词分词←→参数估计（模型）参数估计（模型）←→词表优化分词-生词识别-参数估计迭代算法的提出非迭代过程的缺点：几个过程不能相互作用，相互促进迭代过程的优点：对分词的影响：更好地解决分词歧义问题，提高分词精度对生词识别的影响：减少不合理的候选生词排除伪生词，生词自动消歧，减少后处理过程对模型的影响：逐步优化词表、提高参数估计精度、提高音字转换正确率基于N-gram信息的生词获取基本思想：N元对→词频过滤→互信息过滤→校正→生词获取词频互信息（MutualInformation）词频与互信息的关系候选生词的校正)()(),(log);(212121wpwpwwpwwI×=基于N-gram信息的生词获取结果分析MI因素：准确率随着互信息值的升高而升高，但抽取出的元组的数量也随之减少；WF因素：准确率随着词频值的升高而降低，抽取出的元组数量也随之减少。影响结果的其他因素分词错误：“不容\易”、“和服\务”量词：“个百分点”、“集电视连续剧”、“届世乒赛”姓氏：“新华社记者刘”、“新华社记者王”基于统计和规则方法的中文人名识别问题的提出主要方法规则方法：准确；规则库冲突、复杂、庞大统计方法：资源少、效率高；准确率低混合方法：取长补短本文方法：先规则，后统计；充分利用各种资源；采用分词预处理基于统计和规则方法的中文人名识别中文姓名用字特点（82年人口普查结果）729个姓氏用字姓氏分布很不均匀，但相对集中有些姓氏可用作单字词名字用字分布较姓氏要平缓、分散名字用字涉及范围广某些汉字既可用作姓氏，又可用作名字用字人名识别系统知识库姓氏用字频率库和名字用字频率库：653个单姓氏，15个复姓，1894个名字用字的总出现次数用作姓氏的次数作为姓氏cccp=)(的总出现次数用作名字用字的次数作为名字用字cccp=)(人名识别系统知识库名字常用词表朝阳劲松爱国建国立新黎明宏伟朝晖向阳海燕爱民凤山雪松新民剑峰建军红旗光明人名识别系统知识库称谓库三种类型只能用于姓名之前，如：战士、歌星、演员等；只能用于姓名之后，如：阁下、之流等；姓名前后皆可，如：先生、主席、市长等。称谓前缀表：“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等人名识别系统知识库简单上下文指界词表：约110个词动词：说、是、指出、认为、表示、参加等；介词：在、之、的、被、以等；正在、今天、本人、先后等。标点符号集人名出现在句首或句尾（包括分句）的机会比较大，标点符号可用来帮助判断人名的边界。顿号一边是人名时，另一边的候选人名的可靠性高。人名识别系统知识库非名字用词表：有些双字词，如：时间、奖励、纬度等不作名字用词，但因为组成它们的单字可作为名字用字，如果跟在姓氏后面，往往会将其与可作姓氏的字一起误判为姓名。例：“做\这\件\事\花\了\我们\一\段\时间\。\”中文人名识别过程待处理文本潜在姓名表切分预处理校正识别结果系统资源表知识库中文人名识别人名识别的具体实现→姓氏判别→名字识别→概率判断候选字符串为人名的概率为：P=姓氏部分为姓氏的概率P1*余下部分的汉字作名字用字的概率P2*P3(单名时，为P2)校正(对潜在人名的后处理)自动校正：如果两个潜在人名相似，考察它们的权值。一高一低时，将低权的潜在人名清除；都为高权时，两者都认为是人名；都是低权时，则各自通过第三个字作名字用字的概率大小来判断。概率够高，识别为人名。否则将第三个字去掉。人工校正人名识别结果与分析实验结果：8个测试样本，共22000多字，共有中文人名270个。系统共识别出中文人名330个，其中267个为真正人名。召回率=267/270*100%=98.89%准确率=267/330*100%=80.91%准确率和召回率是互相制约的，可通过概率阈值的调整来调节二者的关系。人名识别结果与分析产生错误的主要原因被未识别的地名干扰。“湖北\英\山\县\詹\家\河\乡\陶\家\河\村\，\”受非中式人名的干扰。“司\马\义\·\艾\买\提\”分词结果不理想。“为\迎接\香港\回\归\送\贺\礼\”规则不准确。“南\宋\大\诗人\杨\万\里\“\惊\如\汉\殿\三\千\女\，\”其他。“全世界\每年\影片\产量\高\达\两\三\千\部\，\”汉语N-gram模型参数训练的迭代算法语料库分词语料参数估计语言模型新词识别词典优化分词初始词典新词表优化词典汉语N-gram模型构建的迭代算法算法描述1.利用初始词典0V对未分词语料库进行首次分词处理，构造初始语言模型0P。2.利用词典iV和语言模型iP对语料库重新分词。3.在分词语料基础上进行新词识别。4.对词典进行优化，生成优化词典1+iV。5.针对优化词典进行参数估计，获得优化语言模型1+iP。6.反复执行2-5的过程，直到分词结果无明显变化或执行完某一限定的迭代次数。实验结果和分析本文针对Bi-gram模型进行了实验，初始词典规模为24686，实验文本为2000万字的《人民日报》语料。实验表明，大部分的新词在第一次迭代过程中即已识别出来，后面的迭代过程只进行较小的调整并很快趋于收敛。经过三次迭代过程，共接受新词911个，其中中文人名359个。分别采用FMM方法、不带新词识别的优化语言模型和带新词识别的优化语言模型进行分词实验，通过对测试语料的抽样检查，分词准确率分别达到96.4%、97.3%和97.9%。针对拼音汉字转换问题对优化模型进行了测试，音字转换错误率降低了3.4个百分点。3基于语言元素的汉语统计模型已有实验结论：基于词的语言模型性能要明显优于同阶的基于字的模型，高阶模型优于低阶模型提高语言模型描述能力的途径：提高模型阶数扩展语言单位目标：在保持模型阶数不变的条件下，有效提高模型的描述能力当前主要处理方法此方向的探索：基于短语和基于分词模式的语言模型目前短语选取和概率计算方法存在缺陷：短语的选取标准只考虑了降低模型复杂度的因素，并没有考虑短语构成的内在语言规律短语集的规模通常十分巨大，导致模型空间增长，同时相对减少了训练数据量训练数据的重新分割使得短语成为不可分割的语言单位，将导致构成短语的单个词的概率估计不准确当前主要处理方法规则统计相结合的模型将模型的单位延伸至语言分析的结果，统称为语言元素，元素间概率计算利用已有词模型的参数近似估计（本课题组前人工作）特点：避免概率模型的大幅度增加，提高语言单位获取的灵活性；能够处理长距离语言关系和递归问题本文方法：基于语言元素的汉语N-gram语言模型引入元素数量约束根据语言规则层次特点对概率值进行加权利用规则可信度、词可信度加权特点：保持原有特点；进一步提高模型精度；多种语言约束为机器学习提供灵活机制基于语言元素的汉语N-gram语言模型∏=−+−==niiNiineeepeeepsp11121)|()()(∏=−=niiieepepsp211)|()()()|())|()(()|(1,11,21,,1,1−−=−−⋅=∏iitiitjjijiiiiwwpwwpwpeep当N=2时权值向量定义ji,ω为权值向量：0,0ω为度量元素数量因素的权值，当n0,0ω时表示语言元素越少，汉字串的可信度越高，当n=0,0ω时表示元素数量因素不起作用；)1(0,≥iiω为第i个元素的可信度权值；)1,1(,≥≥jijiω为第i个元素的第j个构成词的可信度权值，当概率模型初步建立时，1,=jiω。基于语言元素的汉语N-gram语言模型基于元素的Bi-gram模型∏=−⋅⋅⋅⋅⋅=niiiiiieeperepernsp210,1110,10,0)|()))((/()()))((/()/()(λοωλοωω)|())|()(()|(1,11,1,21,,,1,1,1−−=−−⋅⋅⋅⋅⋅=∏iitiiitjjijijiiiiiwwpwwpwpeepωωω考虑到概率归一化∏=−⋅⋅⋅⋅⋅⋅Ζ=niiiiiieeperepernsp210,1110,10,0)|()))((/()()))((/()/(1)(λοωλοωω∑=Ζssp)(词类及其组织方法词类按语法体系划分按语义分类混合方式词类的组织：类似语义网知识表达结构--用很小的时间代价节省大量的存储空间规则的表示—产生式系统词法规则基数|序数→数词系数|系数位数|系数位数基数→基数个|十|百|千|万|……→系数短语规则副词动词|动词动态助词→动词短语着|了|过→动态助词句法规则主语动词|主语状语动词|……→S动物吃食物→S规则的组织统一表达形式按索引分类索引选择标准：含词数最少的词类（概率最小的词类）例：动物吃食物→S动物拿食物→S以吃、拿作为分类索引更合理BAAAt→+++21BAAAAtm→+++21:低层推理优先原则如果存在规则：“X+Y+Z→Y”和“WISAY”,则首先匹配规则“X+W+Z→W”(“X”和“Z”可以为空)元素的语言学分析基于最少元素的状态空间化简