基于词元语义特征的汉语框架排歧技术研究【摘要】:近年来,语义分析已经引起了自然语言处理领域越来越多的关注。随着SemEval2007任务Task19的提出,框架语义抽取任务受到了越来越多研究学者的关注。框架排歧任务是框架语义结构抽取任务中的子任务,作为中间环节,占有基础又重要的地位。目前常用的框架排歧方法是人工设定模型和特征模板,研究表明这种方法不能充分利用目标词所激起的框架的语义特征,因而,本文研究了基于语义特征的汉语框架排歧。框架排歧最重要的两个步骤就是模型选择和特征选择。针对模型选择,本文将汉语框架排歧看作是一个单点分类问题,考察了SVM模型和最大熵模型对汉语框架排歧的影响。针对特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。为此,本文提出了自动特征选择算法,即为每个目标词自动选择一个特征模板。本文的主要研究内容与贡献包括:(1)基于词元语义特征的汉语框架排歧模型。分别阐述了SVM模型和最大熵模型,研究了这两种模型在词法层面和句法层面对汉语框架排歧性能的影响。实验结果表明,最大熵模型更适合汉语框架排歧。(2)基于词元语义特征的汉语框架排歧特征选择。使用最大熵模型,采用传统的人工特征选择方法和本文提出的自动特征选择方法进行汉语框架排歧。实验结果显示,自动特征选择方法在时间复杂度和空间度要明显优于人工特征选择方法,而且简化了特征模板。(3)使用most-frequentframe方法作为baseline实验,并与其他汉语框架排歧的文献结果进行对比分析。此外,从词法和句法层面验证了自动特征选择方法的有效性。本文在语料扩充的基础上,借助汉语框架网语义资源,利用词元的语义特征,为每个歧义目标词单独采用最大熵模型建模,并使用自动特征选择算法选出的特征模板,进行5-fold交叉验证,平均精确率可达到84.46%。【关键词】:汉语框架排歧汉语框架网语义资源自动特征选择词元语义特征【学位授予单位】:山西大学【学位级别】:硕士【学位授予年份】:2013【分类号】:TP391.1【目录】:中文摘要8-9ABSTRACT9-11第一章引言11-171.1研究背景及意义111.2国内外研究现状11-141.3论文的研究内容141.4论文的组织结构14-17第二章框架排歧与汉语框架网语义资源17-232.1基本概念介绍17-182.2汉语框架网语义资源18-212.3框架排歧任务描述212.4本章小结21-23第三章基于词元语义特征的汉语框架排歧模型23-333.1系统架构23-243.2模型选择24-283.2.1SVM模型24-263.2.2最大熵模型26-283.3实验设置28-313.3.1实验语料及预处理28-303.3.2实验评价指标303.3.3实验结果及分析30-313.4本章小结31-33第四章基于词元语义特征汉语框架排歧的特征选择33-414.1人工特征选择33-344.2自动特征选择34-364.3实验设置36-404.3.1基于人工特征选择的汉语框架排歧实验结果及分析36-374.3.2基于自动特征选择的汉语框架排歧实验结果及分析37-394.3.3对比实验结果及分析39-404.4本章小结40-41第五章结论与展望41-435.1结论415.2展望41-43参考文献43-47攻读学位期间取得的研究成果47-49致谢49-51个人简况及联系方式51-55本论文购买请联系页眉网站。