基于转换学习的词性标注研究【摘要】随着社会信息化的日益增强,互联网越来越成为人们日常生活中的一部分,人们越来越强烈地渴望用自然语言同计算机进行交流。但这有个前提就是计算机能够理解人类的自然语言,这是一个很富有挑战性的问题。这样的问题称作自然语言处理问题,而词性标注作为这一领域浅层处理中最基础最重要的技术对整个语言处理起着至关重要的作用。词性标注应用的领域十分广泛,包括语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等诸多领域。同时,随着机器学习算法的飞速发展,各种机器学习方法先后被应用到词性标注领域,有HMM算法、最大熵算法、决策树算法、基于规则的算法等。而TBL就是一种基于规则的算法。虽然TBL算法从1995年出现到现在,已经有不少学者对它进行了一定的改进,已经比较成熟,但由于此算法在工作时需要占用大量的资源和性能进行规则的提取和评估,从而造成了算法自身训练时间偏慢的特点。本文采用前人的研究思想,在原有算法的基础上通过跳过那些评估分数很低,并且不能对语料库的标注起到显著结果的规则,只为那些应用效果显著的规则进行打分。首先寻找应用最好的转换规则使语料库中的样例发生改变,从而可以找到这些样例在语料库中的上下...更多还原【Abstract】Astheincreasinginformationtechnologyofsociety,theInternetisincreasinglybecomingapartofdailylife,peopleareincreasinglystrongdesiretocommunicatewiththecomputerbynaturallanguage.Butthereisapremisethatcomputerswouldunderstandnaturalhumanlanguage.Thisisaverychallengingproblem.Thisproblemisnaturallanguageprocessingproblem,andpartofspeechtaggingisthemostbasicandimportanttechnologyasthemostlowlayerprocessinthisfield,playingake...更多还原【关键词】自然语言处理;词性标注;基于转换学习;规则;【Keywords】naturallanguageprocess;partofspeech;transformation-basedlearning;rule;【索购全文】Q联系Q:138113721Q联系Q:139938848付费即发摘要3-5ABSTRACT5-6第一章绪论9-171.1研究背景和意义10-121.1.1词性标注的定义101.1.2词性标注的意义10-121.1.3TBL概述121.2国内外研究的历史和现状12-141.2.1国外研究状况12-131.2.2国内研究状况13-141.3TBL算法的发展及遇到的问题14-161.4本文组织结构16-17第二章词性标注及其关键技术17-272.1词性标注的难度17-192.2词性标注的各种算法19-262.2.1基于统计的词性标注19-222.2.2基于决策树的词性标注22-232.2.3基于条件随机场的词性标注23-252.2.4基于规则的词性标注252.2.5基于转换的错误驱动词性标注25-262.3本章小结26-27第三章TBL算法的关键技术27-373.1TBL原理27-313.1.1TBL算法的组成28-303.1.2转换规则30-313.2TBL算法描述31-343.3TBL算法的优缺点34-353.3.1TBL的优点343.3.2TBL的缺点34-353.4本章小结35-37第四章算法性能的研究37-394.1算法性能的影响因素374.2算法性能的评估37-384.3算法性能比较384.4本章小结38-39第五章TBL方法的改进及实现39-535.1方法的改进395.2系统实现39-505.2.1参数文件39-405.2.2文件格式40-425.2.3文件模板425.2.4规则模板42-445.2.5规则文件格式445.2.6限制文件44-455.2.7数据训练45-485.2.8数据分类485.2.9规则交互48-495.2.10结束条件49-505.2.11规则测试505.3实验分析50-525.4本章小结52-53第六章总结与展望53-556.1总结536.2未来展望53-55参考文献