产品命名实体识别及规范化研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

硕士学位论文产品名实体识别及规范化研究RESEARCHONPRODUCTNAMEDENTITYRECOGNITIONANDNORMALIZATION梅丰哈尔滨工业大学2011年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文产品名实体识别及规范化研究硕士研究生:梅丰导师:林磊副教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2011年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:681.37DissertationfortheMasterDegreeinEngineeringRESEARCHONPRODUCTNAMEDENTITYRECOGNITIONANDNORMALIZATIONCandidate:MeiFengSupervisor:AssociateProf.LinLeiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2011Degree-Conferring-Institution:HarbinInstituteofTechnology摘要-I-摘要随着电子商务的普及与繁荣,针对电子商务的检索技术开始被越来越多的研究者所关注,其中,作为电子商务检索技术的核心问题之一的产品名实体识别技术也成为了一个重要的研究课题。本文主要研究产品名实体的定义与语料库的构建、产品名实体识别及规范化技术,具体内容包括以下几个方面:第一,根据产品名实体在网络环境中的变化规律,提出了产品名实体的组成成分的全新定义,从而有利于更为细致的针对不同组成成分的识别问题开展研究。在此基础上,制定了产品名实体语料标注规范,并采用半监督的方法构建了一个高质量的产品名实体识别语料库。另一方面,为了使得产品名实体规范化能够顺利展开,还给出了产品名实体规范化定义,并据此构建了一个包含21240产品的层次型产品实体库。第二,针对产品名实体划分结构的特点,将产品名实体识别分为两个阶段,第一阶段识别产品的品牌名、系列名、型号名及公司名,第二阶段在第一阶段的识别基础上,对产品名实体进行识别,并给出了基于隐马尔科夫模型、最大熵模型、条件随机场模型的产品名实体识别方法。在基于最大熵模型和条件随机场模型的产品名实体识别方法中,将产品的品牌库和系列库融入到模型的特征模板中,用于触发产品的品牌名、系列名及型号名的识别。实验结果表明,在融入产品的品牌特征和系列特征之后,系统对产品名实体识别的F值提升了8.42%。最后,比较分析了三个方法之间的优缺点,其中基于条件随机场模型的产品名实体识别方法取得了最好的识别性能,系统的F值取得了86.45%。第三,针对产品名称简写及产品多名等原因造成产品名实体的歧义问题,给出了产品名实体规范化概念,并根据产品名实体组成结构的特点,给出基于编辑距离算法的产品名称相似度的计算方法,在产品名实体规范化中系统的准确率达到84.72%。此外,采用了基于自学习的关系抽取方法抽取相邻产品实体之间的关系,并依据关系的传递性质,推导出全文中各个产品实体之间的关系,利用产品实体之间的关系和产品名称相似度计算方法规范化产品名实体,系统的准确率取得了88.09%。关键词:产品名实体语料库构建;产品名实体识别;产品名实体规范化;最大熵模型;条件随机场模型;Abstract-II-AbstractWiththepopularityandprosperityofe-commerce,moreandmoreresearchersbegintoconcernaboute-commercesearchtechnology.Asoneofcoresearchtechnologyfore-commerce,theproductnamedentityrecoginitiontechnologyhasbecomeanimportantresearchissue.Inthispaper,weresearchonthedefinitionofproductnamedentityandcropusconstruction,productnamedentityrecoginitiontechnologyandproductnamenormalizatontechnology.Thedissertationconcernsthefollowingaspects:1)Accordingtovariationofproductnamedentitiesintheinternet,weproposedthenewdefinitionofthecompositionofproductnamedentity,whichisconducivetorecognizethecompositionofproductnamedentity.Basedonthedefinitionofproductnamedentity,wedevelopedadetailedspecificationcropusannotation,andbuiltahighqualityproductnamedentitycropusbyusingsemi-supervisedmethods.Ontheotherhand,inordertosuccessfullycarryouttheresearchonproductnamedentitynormalization,wegivedthedefinitionofproductnamedentitynormalization,andbuildedahierarchicalproductnamedentitylibrarywhichcontainsatotalof21240productnames.2)Accordingtothecharacteristicsofthestructureproductnamedentity,wedividedproductnamedentityrecognitionintotwostages,thefirststagerecognizedthebrand,series,typeandcompanyname,basedontherecognitionofthefirststage,thesecondstagerecognizedtheproductnamedentities,andwealsogivedtheproductnamedrecognitionmethodbasedonHiddenMarkovmodel,Maximumentropymodel,conditionalrandomfield.IntheproductnamedrecognitionmethodbasedonMaximumEntropymodelandConditionalRandomField,weaddedthebrandfeaturesandseriesfeaturesintofeaturetemplates,usedtotriggerthebrandnamedentities,seriesnamedentitiesandtypenamedentitiesrecognized.TheExperimentalresultshowsthatafteraddedbrandfeatureandseriesfeatureintofeaturetemplate,theF-Measureofproductnamedentityrecognitionsystemimproved8.42%.Finally,wecomparedthethreemethodofproductnamedentityrecognition,andthemethodbasedonConditionalRandomFieldachievedthebestperformance,thesystem’sF-Measureachieved86.45%.3)Accordingtotheambiguityofproductnamedentitieswhichiscausedbyabbreviationofproductnamesandmanynamesofoneproduct,weproposedtheconceptoftheproductnamedentitynormaliziton.Accordingthecharacteristicsofthestructureofproductnamedentity,wegivedtheproductnamesimilaritycalculationmethodbasedonEditDistancealgorithm,whichreached84.72%Abstract-III-accuracyinproductnamedentitynormalization.Thenweusedbootstrappingrelationextractionmethodtoextractedtherelationbetweenadjacententities,andderivedtherelationbetweentheeveryentitiesinthetextbasedthetransitivityofrelation.Finallyweusetherelationbetweentheentitiesandthesimilarityofproductnamecalculationmedthodtonormalizeproductnamedentity,whichachieved88.09%accuracy.Keywords:productnamedentity’scropusconstruction,productnamedentityrecognition,productnamedentitynormalization,maximumentropymodel,conditionrandomfield目录-IV-目录摘要..........................................................................................................................IABSTRACT...............................................................................................................II第1章绪论...........................................................................................................11.1课题背景及研究的目的和意义.................................................................11.2名实体识别的研究现状及困难.................................................................11.2.1国内外研究现状.......................................................................................11.2.2产品名实体的特点及识别难点分析.......................

1 / 67
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功