湖南农业大学硕士学位论文农业知识库知识录入系统关键技术研究与实现罗武二○一一年六月1分类号密级UDC单位代码10537湖南农业大学硕士学位论文农业知识库知识录入系统关键技术研究与实现ResearchandRealizationofSeveralKeyTechniquesforknowledgeinputSystemBasedonagricultureKnowledgeBase研究生姓名罗武指导教师方逵教授学科专业农业信息化技术研究方向农业信息获取与处理提交论文日期论文答辩日期答辩委员会主席论文评阅人学位授予日期二O一一年六月独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得湖南农业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:时间:年月日关于论文使用授权的说明本人完全了解湖南农业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同意湖南农业大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。(保密的学位论文在解密后应遵守此协议)研究生签名:时间:年月日导师签名:时间:年月日I摘要近年来,农村信息化是建设社会主义新农村的重要内容,随着信息技术对农业和农村经济发展的促进作用逐渐显现,农业信息化必将成为“十二五”规划的重点之一,而农业信息化服务的重要性突显[1]。目前湖南农业科技服务手段匮乏,服务模式落后,信息技术缺乏针对性,覆盖面不足,缺乏大型实用的高质量知识库,信息资源重复建设,利用率不高,造成极大的资源浪费,所以智能、高效的农业知识库建设已成当务之急。在农业信息化服务平台中,本文的研究负责知识库及知识的入库,是整个平台其核心部分。本文以广大农学专家的科研成果、农学专家的实际经验和资料为基础,深入研究中文分词技术、文本分类技术、文本相关度计算等技术,设计出农业知识库结构并实现了知识库录入系统,取得一定的成果。本文主要成果包括以下几点:1.利用Hash表在查找效率上优势,提出了基于Hash机制的词典查找、更新、删除、添加等操作新算法,该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率和分词的速度。2.在词典中建立了农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。3.建立查重机制。知识库知识录入及沉淀时需对数据进行查重,控制知识“进”的咽喉,减少数据冗余。通过研究文本相关度技术,提出了一种针对农业的文本相关度计算方法,计算录入数据与知识库数据的相关性。当存在录入数据与知识库数据条目的相似度达到某阈值(变量)时,系统将不允许该知识条目的录入。4.系统采用Ext、JQuery等富客户端技术,使用AJAX无刷新技术,实现了知识录入系统的界面,达到了直观、形象和人机界面友好、易用等特点。关键词:知识库;查重算法;分词算法;农村信息化IIAbstractTheruralinformationistheimportantcontentofthesocialismnewcountrysidebuildinginrecentyears.Theagriculturalinformationwillcertainlybecomeoneoftheimportantaspectsin12thFive-YearPlanwiththeactionwhichtheinformationtechnologypromotedthedevelopmentofagriculturalandruraleconomicwasgraduallyemerging,sotheimportanceofagriculturalinformationserviceisprominent.Ithascausegreatwasteofresourcesbecausethemethodsofagriculturaltechnologyservicewaslack,theservice’smodelwasbehind,theinformationtechnologywasn’ttargetedandthecoveragewastoonarrow,thelarge-scale,practicalandhigh-qualityknowledgelibrarywaslack,theinformationresourceswasduplicatedandtheutilizationratewasnothigh.Theknowledgebasewhichwasstudiedinthispaperisresponsibleforknowledgebaseandtheinputofknowledge,anditisthecoreoftheentireplatform.Thispaperbasedontheagricultureresearch,practicalexperienceandinformationofexpertsinagriculture.WeresearchedthetechnologyofChinesewordSegmentationandtextclassificationandtextdegreeofcorrelationcomputation.Itisdesignedagriculturalknowledgebasestructureandrealizestheknowledgebaseinputsysteminthispaper.Themainachievementinthispaperincludingfollowingseveralpoints:1.Hashmechanismwasproposedbasedondictionarylookup,update,delete,addnewalgorithmsandotheroperationsbytheadvantagesinHashtableseekingdata.ThealgorithmisbasedonthecharacteristicsofChineseGBcode,savedthefirstcharacterGBcode,andimprovedutilizationofstoragespace.2.Thealgorithmestablishedtherelationshipofone-to-manybetweenagricultureglossaryanddialects,whilemeetingthesystemrequirementsandimprovingtheaccuracyandspeedofsegmentation.3.Thispaperestablishedthemechanismoffindtherepetitionrate.Thedatawasrequiredtofindtherepetitionrateandreducedataredundancy,andwascontrolledtoinputthedatabasewhenknowledgeinputandprecipitate.Thispaperproposedacalculationmethodwhichwasknowledgeofdataentrydataandcalculatedthecorrelationforthetextrelevanceofagriculturalbyresearchingthetechnicalofrelevanceofthetext.WhenthedataentryandknowledgebasetoachieveacertainIIIsimilaritythreshold(variable),thesystemwillnotallowitintotheknowledgebase.4.Werealizedthesystemwhichprovidedwithvisualimage,friendlyinterface,easytouseandsoonbyusingExt,JQueryandotherrichclienttechnologiesandAJAXwithoutrefreshingtechnology.Keywords:knowledgebase;check-repeatalgorithm;wordsegment;ruralinformation;i目录摘要............................................................................................................IAbstract........................................................................................................II第一章绪论...........................................................................................11国内外研究现状.......................................................................................12本文选题依据及研究意义.......................................................................33本文研究目标及主要研究内容...............................................................34本文结构安排...........................................................................................4第二章相关技术探究...............................................................................51中文分词技术概述....................................................................................51.1基于词典的中文分词方法....................................................................51.2基于统计分词方法................................................................................71.3基于理解分词方法................................................................................72查重相关技术...........................................................................................82.1TF/IDF算法............................................................................................82.2向量空间模型.............