大连理工大学硕士学位论文基于SVM的中文组块间依存关系分析姓名:尹鹏申请学位级别:硕士专业:计算机应用技术指导教师:黄德根20051201基于SVM的中文组块间依存关系分析作者:尹鹏学位授予单位:大连理工大学参考文献(36条)1.周明.黄昌宁面向语料库标注的汉语依存体系的讨论1994(03)2.郭艳华.周昌乐一种汉语语句依存关系网分析策略与生成算法研究[期刊论文]-浙江大学学报(理学版)2000(6)3.ZhouMAblock-basedrobustd-ependencyparserforunrestrictedchinesetext20004.PlaF.AntonioMolinaAnintegratedstatisticalmodelfortaggingandchunkingunrestrictedtext20005.BuchholzS.VeenstraJ.DaelemansWCascadedgrammaticalrelationassignment19996.VeenstraJMemory-basedtextchunking19997.李珩.谭咏梅.朱靖波.姚天顺汉语组块识别[期刊论文]-东北大学学报(自然科学版)2004(2)8.SangTK.ErikF.BuchholzSIntroductiontotheCoNLL-2000sharedtask:chunking20009.ParkSB.ZhangBTTextchunkingbycombininghand-craftedrulesandmemory-basedlearning200310.周强.詹卫东.任海波自然语言理解与机器翻译200111.王厚峰汉语分析的计算模型研究199812.汉语组块的定义和获取200313.李珩.朱靖波.姚天顺基于SVM的中文组块分析[期刊论文]-中文信息学报2004(2)14.李优.黄德根一个基于规则的汉语句子组块识别系统[会议论文]200015.周明.黄昌宁.张敏统计与规则并举的汉语句法分析模型[期刊论文]-计算机研究与发展1994(2)16.周明.黄昌宁面向语料库标注的汉语依存关系体系的探讨1994(03)17.刘伟权.王明会.钟义信建立现代汉语依存关系的层次体系1996(02)18.何钦铭.王申康机器学习与知识获取199719.MitchellTM.曾华军.张银奎机器学习200320.KudoT.MatsumotoYJapanesedependencystructureanalysisbasedonsupportvectormachines200021.UchimotoK.SekineS.IsaharaHJapanesedependencystructureanalysisbasedonmaximumentropymodels199922.CristianiniN.TaylorJS.李国正支持向量机导论200423.卢虎.李彦.肖颖支持向量机理论及其应用[期刊论文]-空军工程大学学报(自然科学版)2003(4)24.NivreJIncrementalityindeterministicdependencyparsing200425.NivreJDeterministicdependencyparsingofenglishtext200426.YamadaMatsumotoYStatisticaldependencyanalysiswithsupportvectormachines200327.NivreJAnefficientalgorithmforprojectivedepencencyparsing200328.EisnerJThreenewprobabilisticmodelsfordependencyparsing199629.傅爱平广义依存关系和汉语自动分析[会议论文]200130.刘海涛依存语法和机器翻译1997(03)31.李向宏.王丁.黄成哲自然语言句法分析研究现状和发展趋势2003(02)32.张敏.罗振声语料库与知识获取模型1994(01)33.赵铁军机器翻译原理200134.姚天顺.朱靖波.杨莹自然语言理解--一种让机器懂得人类语言的研究200235.AllenJ自然语言理解200536.ManningCD.SchutizeH统计自然语言处理基础2005相似文献(10条)1.学位论文张慧汉语句法分析及其在汉英统计翻译中的应用2007本文是对汉语句法分析和基于句法的统计机器翻译的一个初步研究。文中对句法分析和机器翻译的重要技术和发展脉络进行了整理和分析,并在此基础上分别设计并实现了一个汉语句法分析系统和一个基于句法的统计机器翻译原型系统。句法分析方面,我们主要的工作是将词性标注的过程和句法分析的过程进行融合,将词性标注和句法分析一体化,探讨最终避免词性标注错误传播的途径。我们将词性标注看作分析的初始化过程,将单词的词性看成一种特殊的边,对于每个单词上的每种可能词性标注都生成一条边,并根据隐马尔可夫过程假设计算该边的优先级。而对于具体的分析过程,我们采用Collins的基于核心节点的马尔可夫扩展方式和Chamiak的基于边的最佳优先算法。最终的实验结果表明,这样的尝试是成功的,我们在滨州树库1.0上取得F1为80.36%,词性标注准确率为92.74%。同时,我们进行了对比实验,我们采用Adwait的最大熵词性标注器给出最优的标注,后进行句法分析,得到句法分析F1为76.07%,词性标注准确率为92.8%。这进一步证明了我们的融合思想的正确性,即在词性标注准确率相同的情况下,词性标注和句法分析的融合可以有效地减少错误传播。机器翻译方面,我们主要是对Graehl和KevinKnight的模型进行演化改进,提出了广义叶子节点的概念。我们采用自底向上的策略,将已找到对齐的子树缩成一点,用该子树的根节点代替该子树作为新的叶子节点;这种新生成的叶子节点,我们称之为广义叶子结点。在这自底向上的过程中,当找到对齐时,我们用子树的根结点和广义叶子结点集合来表示翻译规则,而不是采用整棵子树来表示。我们基于该设想实现了一个统计机器翻译原型系统,初步实验结果表明该模型存在超越短语模型的潜力,且所需要的规则数目大大少于目前其他系统。2.期刊论文费鲲.FEIKun机器翻译中句法分析的设计与实现-计算机工程与设计2006,27(15)论述了英汉机器翻译中句法分析的设计与实现方法.首先阐述了编译原理中句法分析的相关理论,并以此理论为依据提出了机器翻译中句法分析的具体实现.实现过程中,采用部分分析的思想,将一个句子划分为多个语法成分,分别对各语法成分进行分析,从而完成对待翻译句子的句法分析,给出句法树.3.学位论文曹自清基于文本的英汉机器翻译实验系统的设计与实现2007本文设计并且实现了英文文本到中文文本的单向英汉机译实验系统。首先介绍了机译词典的构建和机译词典导入MySQL数据库;随后按照英汉机译系统的先后顺序分成的七个处理阶段:单词预处理阶段、词法分析阶段、词类标注阶段、浅层句法分析阶段、深层句法分析阶段、语义分析阶段和译文生成阶段,详细地介绍了各个阶段的设计思路和具体实现。其中,语义分析和译文生成与句法分析同步进行;其它各个阶段的任务明确,功能唯一,底层阶段为上层阶段提供服务。重点内容是浅层句法分析和深层句法分析。在这两个阶段,对LR(1)分析算法进行了多项改进,实现了LR(1)分析算法在自然语言句法分析上的应用;自行推导出符合LR(1)文法的句法产生式,实现了that从句、wh从句和常用句型句子的正确识别,并获得了较好的处理结果。4.学位论文徐冰机器翻译系统及相关技术评测的研究2004随着机器翻译的发展,机器翻译评价也越来越受到重视.机器翻译评价是一项复杂的研究课题,最主要的困难在于评价指标的确定.如何评价一个机器翻译系统好与坏,如何在多个翻译系统中评价出哪个更好,这都需要一个全面的、客观的评价体系.人工评价往往带有主观性,同时又费时费力,所以能否找到一个可行的自动机器翻译评价方法是机器翻译评价研究的发展方向.该文对机器翻译系统采用了白箱测试方法,评测主要以自动的方式实现.文中涉及到了分词及词性标注的评测、句法分析评测和译文质量评测.在分词及词性标注评测部分共对3个系统进行了分词、未登录词识别、歧义字段识别及词性标注评测.评测参考国家863中文与接口技术评测活动中的分词评测标准,评测指标除采用标准的正确率、召回率及调和平均数外,还增加了一些新的评测指标.分词评测增加了可接受性指标,增加这个指标可使评测结果更合理,但这个指标难以实现自动评测.考虑到分词结果对词性标注的影响在词性标注评测中增加了一个相对正确率的评测指标.另外,在对多个不同的词性标注系统进行评测时,使用了一个最小的词性标注集,将每个系统的标注集都映射到这个最小的标注集上,这样才能评测出不同系统的词性标注结果.在句法分析评测部分从基本短语识别和句子级短语分析两个方面评测,评测指标采用了正确率、召回率和调和平均数三个评测指标,详细地对每类短语分析的结果进行评测.译文质量评测主要依据成熟的BLEU标准,对汉语译文质量进行自动评测.根据汉语的特点,在使用BLEU标准评测时分别以字和词为模型进行评测.实验结果证明,采用词模型的一元关系的评测比采用字模型的一元和二元关系的评测更接近人工评测结果.5.期刊论文孟遥.赵铁军.李生面向机器翻译系统句法分析器的研究与实现-黑龙江工程学院学报2002,16(3)自然语言句法分析是机器翻译不可缺少的前期处理过程,文中总结了几代机器翻译系统中句法分析的经验,在最新研制的英汉双向机器翻译系统MTS2000中设计并实现了一个模块化的统计与规则相结合的句法分析模型.整个句法分析采用综合的策略,分别使用了隐马尔可夫方法、统计决策树方法、基于历史的句法分析等多种方法,并注意语义知识在句法分析中的应用.实验结果表明,模块化的句法分析器的设计方法,不论是对英语句法分析还是对汉语句法分析都是一种可取的方法.6.学位论文熊德意基于括号转录语法和依存语法的统计机器翻译研究2007基于句法的统计机器翻译近年来逐渐成为统计机器翻译的研究热点.基于句法的模型有助于解决基于短语的模型所面临的主要问题,如短语层次上的重排序,泛化能力弱,以及要求短语连续等问题.语言学意义上基于句法的模型,还可以将源语言端、目标语言端的语言学知识引入到翻译模型中,从而极大地改善译文的质量.本文在基于句法的统计机器翻译框架下,针对短语模型的主要问题,在括号转录语法的基础上提出了基于最大熵的括号转录语法模型,在依存语法的基础上提出了依存treelet-string对应模型.为了支持基于依存语法模型的研究,本文在统计汉语句法分析方面也进行了深入的研究.在以上三个方面,取得了以下主要成果:1.多知识源驱动的统计汉语句法分析句法分析的准确度和速度对于基于句法的统计机器翻译来说至关重要.在提高句法分析准确度方面,本文采用多种策略,将树库内部和外部的知识融合到统计句法分析模型中.首先改造了中心词映射表,并对一些短语进行重标注,从而充分利用了树库内部的词汇知识和语法知识.其次构建了一个单词.类的选择偏向模型,将树库外部的语义知识引入到句法分析中,使句法分析F1值提高了0.9﹪,错误率下降了4.4﹪.进一步的错误分析表明语义知识在复合名词短语,并列结构以及名/动词性标注消歧方面都有很大作用.在提高句法分析速度方面,本文定义了两种估计量来近似估计边的外向概率:先验估计量和边界估计量.由这两种估计量构成的组合估计量使句法分析器在性能不变的情况下,速度提高了1.5倍.2.基于最大熵括号转录语法模型的统计机器翻译针对括号转录语法(BTG)模型没有提供一个机制来确定相邻语块顺序的缺陷,本文提出了基于最大熵的括号转录语法(MaximumEntropyBasedBTG,下文简称为MEBTG)模型.该模型将BTG中预测相邻语块顺序问题看作是一个分类问题,从而引入最大熵分类器,构建最大熵重排序模型.本文提出了重排序实例抽取算