基于知网2000词语相似度计算系统

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

分类号编号华北水利水电学院NorthChinaInstituteofWaterConservancyandHydroelectricPower毕业设计题目基于知网2000词语相似度计算系统学院信息工程学院专业计算机科学与技术姓名张凯歌学号200610807指导教师张瑞霞日期2010年6月2日计算机专业毕业设计任务指导书一.毕业设计的目的研究当前词语语义计算的多种方法,熟练掌握Java编程环境及一些编程思想,利用其实现一个未登陆词相似度计算系统,从而为中文信息处理建立一个基础平台;了解中文信息处理的相关信息及相关知识,从而培养科研能力。二.主要设计内容基于知网的未登陆词相似度计算系统主要是以知网为知识库,研究当前以登陆词相似度计算,设计并实现未登陆词相似度计算方法,它的设计主要包含以下三个内容:(1)基于知网的已登录词相似度计算方法的研究(2)根据基于知网的未登陆词相似度计算方法描述设计所需数据结构(3)根据基于知网的未登陆词相似度计算方法描述实现其算法三.重点研究问题重点研究问题主要包括以下三个方面:(1)从用户角度出发,研究系统界面的友好性;(2)从实用角度出发,研究计算方法的便捷性、高效性与开放性;(3)以面向对象程序设计思想为基础,研究系统内部类的组成及其关系。四.主要技术指标或主要设计参数主要的技术指标或主要设计参数有以下三点:(1)界面的友好性;(2)算法的高效性;(3)处理结果的正确性。五.设计成果要求初步设计一个用Java实现的词语相似度计算系统,要求该系统能便捷、高效的计算词语相似度,并要求程序具有良好的可读性,设计、实现系统的同时编写相应的文档。华北水利水电学院本科生毕业设计开题报告2010年3月19日学生姓名张凯歌学号200610807专业计算机科学与技术题目名称基于知网2000词语相似度计算系统课题来源导师指定指导教师张瑞霞主要内容一、课题研究背景在实际的应用中,词义相似度是用一种简单的数量对自然语言的词语之间的复杂关系的度量。词义相似度计算在很多领域中都有广泛的应用。在自动问答,情报检索,文本聚类等的应用中,词语相似度的计算是一个非常关键的问题。针对这一问题,人们已经做了大量的研究,并且提出了一些定量计算的方法。词语的相似度计算也可应用于机器翻译中的双语对齐技术中,词语的相似度计算对句子相似度计算的处理起着至关重要的作用,如果仅仅从关键词的匹配上进行处理而没有深入到语义层次,那么词语相似度计算的结果就不会准确而全面,因而句子的相似度计算也不会准确。目前,在用计算机处理自然语言领域存在一定的困难,只有使计算机拥有丰富的语言知识这包括词语知识、句法知识、语义知识、语用知识、语境知识等等,才能使计算机具有理解和处理自然语言的能力。以上知识的核心是词语知识,同时,这也是自然语言处理领域中的热点,也是一个尚未解决和关键的问题。在知网中并不是将每一个概念对应于一个树状的概念层次体系中的一个结点,而是通过义原利用某种知识的描述的语言来描述一个DEF。义原之间是通过上下位的关系组成一个树状义原层次的体系结构。所以我们需要用知识描述语言表示两个语义表达式进行相似度计算。参考文献[2]认为词语相似度是一个主观性相当强的概念。脱离具体的应用去谈词语的相似度,很难能够形成统一的定义。二、课题研究的目标及内容2.1设计内容根据《汉语词语相似度的计算研究》论文设计相似度计算的实现。词语相似度计算的研究与实现主要是以知网为知识库,以当前国内认可的词语相似度计算方法为基础设计并实现采用一种或两种种方法计算词语相似度的系统,它的设计主要包含以下内容:(1)义原相似度计算方法的设计与实现;(2)词语相似度计算方法的设计与实现;(3)系统中内部类及其关系的设计;(4)了解词语相似度的实现方法,熟悉开发环境,学习数据结构中关于图和树的内容,掌握和了解词语相似度计算的实现过程,义原相似度计算;(5)设计登录词相似度的计算方法以及实现过程;(6)设计未登录词的相似度计算方法及实现过程;(7)分析实验结果的准确性。2.2重点研究问题重点研究的问题主要包括四个方面:(1)从用户角度出发,研究系统界面的友好性;(2)从实用角度出发,研究计算方法的便捷性、高效性与开放性;(3)以面向对象程序设计思想为基础,研究系统内部类的组成及其关系;(4)未登录词计算的方法研究等。2.3设计目标初步设计一个用Java实现的词语相似度计算系统,系统能便捷、高效的计算词语相似度,并要求程序具有良好的可读性,设计、实现系统的同时编写相应的文档。由于词语相似度是一个主观性相当强的概念。本系统的界面追求人性化和实用性,而且追求各功能控件布局合理有序。由于基于知网2000词语相似度计算本身比较抽象,作为一个演示系统,不仅需要实现任务书所提出的各种基本功能,而且还要把那些比较抽象的概念,以直观的的方法表现出来,有助于理解本文的设计思想以及和其他系统进行比较。采取的主要技术路线或方法本系统用java语言编写,采用SQLServer2000数据库,主要采用文献[8]的思想和方法。首先,通过阅读相关的文献和知网的背景知识,了解其中的基本概念。对知网的结构进行分析。(1)对义原的相似度进行分析,并计算其相似度。(2)对登录词的Def进行分析,然后分解成a、基本义原b、关系义原c、关系符号义原d、其他义原,并且分别计算这四类义原的相似度。(3)然后是对未登录词的分析,需要将未登录词转化为知网可以理解的形式进行计算,未登录词的相似度可以通过对应的组合概念的获得涉及三个过程:①未登录词概念的切分;②组合概念语义的确定;③组合概念相似度的计算。为便于处理,本文针对登录词和未登录词分别进行计算,登录词和未登录词的界定以知网为标准,即知网中出现的词语作为登录词,否则为未登录词。预期的成果及形式论文和软件时间安排第3周:动员、采集文献资料,完成研读与开题报告;第4-5周:完成体系与框架分析与设计;第6-10周:完成课题,设计与实现,并投入使用;第11-12周:翻译与撰写论文;第13-14周:论文修订、打印、整理与提交;指导教师意见签名:年月日参考文献[1]杜飞龙(1999),《知网》辟蹊径,共享新天地——董振东先生谈知网与知识共享,《微电脑世界》杂志,1999年第29期[2]刘群,李素建.基于《知网》的词汇语义相似度的计算.第三届汉语词汇语义学研讨会,台北,2002.[3]董振强.知网.http://.keanage.corn,2002[4]DekangL.AnInformation-theoreticDefinitionofSimilarity//Proceedingsofthe15thInternationalConferenceonMachineLearning.1998:296-304.[5]朱毅华,侯汉清,沙印亭.计算机识别汉语同义词的两种算法比较和测评.中国图书馆学报,2002,28(140):82-85.[6]夏天,樊孝忠,刘林.基于ALICE的汉语自然语言接口.北京理工大学学报,2004,24(10):885-889.[7]吴健,吴朝晖,李莹等.基于本体论和词汇语义相似度的Web服务发现.CHINESEJOURNALOFCOMPUTERS,2005,28(4)[8]夏天.汉语词语语义相似度计算研究.ComputerEngineering,10003428(2007)06019104,33(6):191-194.[9]余超,蔡东风,张桂平.基于知网的相似度计算及其应用小型微型计算机系统,2006(27):407-409华北水利水电学院本科毕业设计I摘要词语相似度计算在很多领域中都有广泛的应用,例如,基于实例的机器翻译,信息检索,文本分类,词义排歧等等。《知网》是一部语义知识词典,其中词语的语义采用的是一种多维的知识表现形式,每一个词语的语义有多个义原组成,而且义原之间是不平等的。了解其描述一个词义所用的多个义原之间的关系,并在此基础上运用了知网进行词语相似度计算的方法。本文运用了一种面向语义、基于知网、可扩展的相似度计算方法,该方法从信息论的角度出发,对知网义原间的相似度的计算公式进行了定义,先通过对登录词的计算分析未登录词的计算,对未登录词进行概念切分和语义自动生成,使未登录词无法参与语义计算的问题得到有效解决,实现了任意词语在语义层面上的相似度计算。本系统在设计过程中的重点是运用现有的思想完善相似度计算,提高其准确性,通过实验验证该计算方法是有效的。关键词:词语相似度;知网;概念;义原华北水利水电学院本科毕业设计IIAbstractWordsimilaritybetweenmanyareashaveawiderangeofapplications,suchasexample-basedmachinetranslation,informationretrieval,textclassification,wordsensedisambiguationandsoon.HowNetisasemanticknowledgedictionary,inwhichthesemanticsofthewordsusedinamulti-dimensionalformsofknowledge,eachhavemorethanoneword,thesemanticmeaningoftheoriginalcomposition,andinequalitybetweentheoriginalmeaning.Understandthemeaningusedtodescribeanumberoftheoriginalmeaningandtherelationship,andonthisbasis,thesimilarityuseofthewayoftheHowNetcalculation.Inthispaper,asemantic-oriented,basedonHowNet,scalablesimilaritycalculationmethodfromtheperspectiveofinformationtheory,theoriginalmeaningoftheHowNetsimilaritybetweentheformulaaredefined,thefirstThecalculationofwordonloginanalysethecalculationofunknownwords,theconceptoftheunknownwordsegmentationandmeaningweregeneratedautomatically,sothatunknownwordscannotbeinvolvedinsemantictermsareeffectivelyaddressedtoachievethelevelofanywordinthesemanticsimilaritycalculation.Thesystemdesignprocessfocusedonimproveduseofexistingideologicalsimilaritymeasures,improvetheaccuracyofthemethodbyexperimentalverificationiseffective.Keywords:Wordssimilarity;Hownet;Concept;Sememe华北水利水电学院本科毕业设计1目录摘要..............................................................................................................................................IAbstract...........................................................................................

1 / 50
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功