当前位置:首页 > 财经/贸易 > 资产评估/会计 > Word排版素材-长文档草稿
I一、绪论.............................................................................................................II(一)课题的背景和意义.........................................................................II1.研究的背景...................................................................................II2.研究的目的和意义.......................................................................II(二)国内外研究现状............................................................................IV1.主题图和主题图融合研究现状..................................................IV2.词汇相似性度量研究现状...........................................................V3.句子相似性度量研究现状..........................................................VI(三)本文的研究content....................................................................VIII1.研究content..............................................................................VIII2.研究方法及技术路线...............................................................VIII(四)扩展主题图的融合.........................................................................X1.扩展主题图融合定义及原则.......................................................X2.扩展主题图融合过程................................................................XII(五)语义冲突.....................................................................................XIII1.语义异构的原因.......................................................................XIII2.语义冲突的定义及类型...........................................................XIV(六)语义相似度在扩展主题图融合中的使用................................XVII1.简单文本分类的应用..............................................................XVII2.扩展主题图融合中的文本分类技术应用............................XVIII3.主题融合与词语语义相似度...................................................XXI4.知识元融合与句子语义相似度..............................................XXII(七)本章小结..................................................................................XXIVII一、绪论(一)课题的背景和意义1.研究的背景本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。2.研究的目的和意义扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典III有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)[2],均是封闭的系统,在计算未登录词时效果很差。IV(二)国内外研究现状863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。1.主题图和主题图融合研究现状主题图(TopicMaps)的概念最初是由W3C(WorldWideWebConsortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(StandardGeneralizedMarkupLanguage)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC13250:2000[3],这项国际标准定义出了TopicMaps的完整数据模型。2001年,基于可扩展标记语言(ExtensibleMarkuoLanguage,XML)的XML主题图—XMLTopicMaps(XTM)[4]成为ISO/IEC13250的一部分。同年,ISO委员会又提出主题图查询语言TMQL(ISO/IEC18048)和主题图约束语言TMCL(ISO/IEC1975)。主题图融合方面,在国外,2004年LutzMaicher等人提出了SIM算法[5]和2007年由Jung-MnKim[6]提出了TM-MAP算法。SIM算法的本质是字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法[7],TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的V两个。2.词汇相似性度量研究现状国内比较突出的是中国科学院计算技术研究所的刘群[8]等人提出的基于《知网》的词汇语义相似度计算。刘群等的语义相似度计算方法以《知网》为计算依托,充分利用了《知网》中的义原(描述一个“概念”—词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用《知网》中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。国外较为突出的是美国的蒙大拿州立大学的ShenWan和RafalA.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法[9],该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordnet的层次关系建立上下文的空间,及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。美国卡耐基梅隆大学的SatanjeevBanerjee[10]等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅VI仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行加权整合计算,测试效果很好,在一定程度上接近了认知效用,但空间、时间复杂度很高。3.句子相似性度量研究现状目前,国内外存在着很多句子相似性度量的方法。在国外,Niladri[11]提出了一种基于线性模型的相似度度量模式,其相关系数由多重回归技术确定,句子的相似性(或者说是非相似性)由一系列决定句子不相似成分共同作用的结果组成。Nirenburg[12]等提出了两种串匹配的方法,即:“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似性度量原理都是词组合法。Lambros等提出同时依据句子的表层结构和content计算相似度的方法[13],方法使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。国内研究汉语句子句子相似度的学者也较多。李素建[14]基于知网和同义词词林,提出了语句相关度的定量计算模型;陈利人[15]等提出了句子相似度包括结构相似度和语义相似度两个概念,认为句子相似度计算包括两个步骤:首先,使用词结构相似度计算,得到句子的结构相似度;然后,在句子结构相似度的基础上,再进行句子语义相似度计算。吕学强[16]等考虑词形与词序相似度两个因素,提出了句子相似模型与最相似句子的查找算法;秦兵[17]等使用向量空间模型的TF~IDF法和基于语义本体的方法,面向常VII见问题集计算问句间的语义相似度;杨思春[18]等使用具有部分格语义的语法功能句型计算模式来实现句子相似度计算等等。上面的方法大部分是简单的的使用语义词典,没有考虑到句子的内部信息和词语间的相互作用和联系,没有考虑到句子蕴含的一些特征,因此准确率并不高。VIII(三)本文的研究content1.研究content本文在对扩展主题图融合中的语义冲突进行研究分析基础上,详细研究解决冲突的关键技术—语义相似性度量技术。首先分析扩展主题图融合中主题间的语义冲突问题,提出一种基于本体和语料库的综合词汇相似度计算方法。然后针对扩展主题图融合中知识元间的语义冲突问题,结合课题中知识元的特点(知识元的资源来源是单个句子),提出基于全信息理论的句子相似度计算方法。最后,对所提的两种相似性度量算法进行综合测试分析,并融合到扩展主题图融合模块,整合到整个863系统中进行实际应用。本文的研究content包括以下几个方面:(1)扩展主题图融合研究:在研究扩展主题图的融合原则及过程基础上,分析融合过程中所产生的语义冲突,研究其产生原因,并对其进行分类。(2)提出一种基于本体和语料库的综合词汇相似性度量算法:为解决扩展主题图融合过程中主题元素间的融合问题,设计实现了一个结合本体与语料库,辅以规则和同义词计算的权重参数自适应调节的综合词语相似性度量算法。(3)提出一种基于全信息理论的句子相似性度量算法:研究常见的句子语义表示模型,综合句义三维模型
本文标题:Word排版素材-长文档草稿
链接地址:https://www.777doc.com/doc-1748147 .html