合肥工业大学人工智能与数据挖掘研究室合肥工业大学硕士学位论文预答辩答辩人:冯佳佳导师:胡学钢教授2012-03-12基于序列模式挖掘的关键词抽取问题研究合肥工业大学人工智能与数据挖掘研究室22内容简介研究背景相关工作基于序列模式挖掘的关键词抽取关键词抽取原型系统总结与展望合肥工业大学人工智能与数据挖掘研究室3本文的主要研究内容得到以下项目的资助:国家自然科学基金-海外及港澳学者合作研究基金“基于通配符和长度约束的模式匹配和挖掘研究”(项目号:60828005);国家973前期研究项目“普适个性化信息处理基础理论和方法研究”(项目号:2009CB326203)。一研究背景合肥工业大学人工智能与数据挖掘研究室4序列模式挖掘数据挖掘中的一个重要技术应用领域生物基因学文本检索WEB日志挖掘等文本方面文本集合的序列模式挖掘[1]问答系统[2]作者识别问题[3]一研究背景[1].H.,Ahonen.FindingAllMaximalFrequentSequencesinText.MachineLearninginTextData.1999.[2].Denicia-Carral,Claudia.,Montes-y-Gómez,Manuel.,Villaseñor-Pineda,Luis.ATextMiningApproachforDefinitionQuestionAnswering.NaturalLanguageProcessingLectureNotesinComputerScience,2006.Volume4139/2006.76-86.[3].Coyotl-Morales,RosaM.,LuisVillaseñor,Pineda.,ManuelMontes-y,Gómez.,Paolo,Rosso.Authorshipattributionusingwordsequences.InProceedingsoftheIberoamericanCongressonPatternRecognition.2006.pages844--853合肥工业大学人工智能与数据挖掘研究室55一研究背景关键词:概括文本的最小单位文本自动摘要生成文本分类文本聚类合肥工业大学人工智能与数据挖掘研究室6本文的主要研究工作将序列模式挖掘技术应用到文本的关键词抽取主要思路:对文本进行序列模式挖掘,挖掘出词语模式对词语模式进行分析,得到词语的序列特征将序列特征加入关键词抽取中,从而提高抽取关键词的质量一研究背景合肥工业大学人工智能与数据挖掘研究室7二相关工作序列模式挖掘关键词抽取合肥工业大学人工智能与数据挖掘研究室8二相关工作序列模式挖掘广度优先搜索策略算法基于Apriori性质的一种逐层进行挖掘的算法需要多次扫描序列数据库需要产生相当多的候选序列思想简单,方便实现深度优先搜索策略算法基于分而治之的思想,递归划分序列数据库不需要产生候选序列集合对原始序列数据库的扫描次数少需要大量的内存空间合肥工业大学人工智能与数据挖掘研究室9二相关工作广度优先搜索策略算法Apriori-All算法[4]最早的序列模式挖掘算法,提出了Apriori性质GSP算法[5]Apriori-All算法的改进算法,引入了连接和剪切操作SPADE算法[6]针对垂直序列数据库的[4].Agrawal,R.andSrikant,R.1995.Miningsequentialpatterns.InProc.IEEEICDE’95(Mar.1995).Taipei,Taiwan.3-14.[5].Srikant,R.andAgrawal,R.1996.Miningsequentialpatterns:Generalizationsandperformanceimprovements.InProc.ofthe5thInternationalConferenceonExtendingDatabaseTechnology.Avignon.[6].M.J.,Zaki.SPADE:Anefficientalgorithmforminingfrequentsequences.InInternationalConferenceonMachineLearning.2001.vol.42,31-60.合肥工业大学人工智能与数据挖掘研究室10二相关工作深度优先搜索策略算法FreeSpan算法[7]基于投影技术划分原始序列数据库的挖掘算法PrefixSpan算法[8]根据长度为1的序列模式递归划分序列数据库SPAM算法[9]运用位示图存储序列数据库,应用位并行技术计算支持数[7].J.,Han.,J.,Pei.,B.,Mortazavi-Asl.,Q.,Chen.,U.,Dayal.,M.C..Hsu.Freespan:Frequentpattern-projectedsequentialpatternmining.InProc.2000Int.Conf.KnowledgeDiscoveryandDataMining(KDD’00).pages355–359,Boston,MA,Aug.2000.[8].J.,Pei.,J.,Han.,B.,Mortazavi-Asl.,H.,Pinto.,Q.,Chen.,U.Dayal.,M.,Hsu.PrefixSpanminingsequentialpatternsefficientlybyprefixprojectedpatterngrowth.InICDE2001.2001.215-226,Heidelberg,Germany.[9].J.,Ayres.,J.,Flannick.,J.,Gehrke.,T.,Yiu.SequentialPAtternminingusingabitmaprepresentation.InProceedingsoftheeighthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining(July23-26,2002).Edmonton,Alberta,Canada.2002.合肥工业大学人工智能与数据挖掘研究室11二相关工作关键词抽取通过对一个输入文本文档的分析和处理,抽取出能够反映文章主题思想的词语的过程词语特征统计特征:通过简单的数学统计得到特征词频特征词语位置特征TF/IDF值特征语义特征:借助于语义词典来获取词汇链特征词语节点度特征合肥工业大学人工智能与数据挖掘研究室12二相关工作关键词抽取基于无监督的关键词抽取方法仅仅只通过单个文本而进行的关键词抽取,属于一种启发式的抽取方法基于有监督的关键词抽取方法把关键词抽取问题当做成是一种二元分类问题,通过机器学习的方法建立抽取关键词模型步骤建立一个包含大量文本并标出关键词的训练集合;通过训练集合对分类算法的训练得到一个分类器;应用构造好的分类器对新文本进行关键词抽取。合肥工业大学人工智能与数据挖掘研究室13二相关工作基于无监督的关键词抽取方法各个名词短语的长度、频率及第一个词语的词频[10]两个词语之间的互信息[11]词同现的统计特征[12]词汇链和TF-IDF值[13][10].K.N.,Barker.,N.,Cornacchia.Usingnounphraseheadstoextractdocumentkeyphrases.InCanadianConferenceonArtificialIntelligence.2000.40-52.[11].A.M.,Steier.,R.K.,Belew.Exportingphrases:astatisticalanalysisoftopicallanguage,InProceedingsofSecondSymposiumonDocumentAnalysisandInformationRetrieval.1993.179-190.[12].Y.,Matsuo.,M.,Ishizuka.Keywordextractionfromasingledocumentusingwordco-occurrencestatisticalinformation.InternationalJournalonArtificialIntelligenceTools.2004.13(1):157-169.[13].胡学钢,李星华,谢飞,吴信东.基于词汇链的中文新闻网页关键词抽取方法.模式识别与人工智能.2010,23(1).:45–51.合肥工业大学人工智能与数据挖掘研究室14二相关工作基于有监督的关键词抽取方法KEA[14]GenEx[15]KEA++[16]运用WEB挖掘和统计方法得到候选关键词间相关性[17][14].A.M.,Steier.,R.K.,Belew.Exportingphrases:astatisticalanalysisoftopicallanguage,InProceedingsofSecondSymposiumonDocumentAnalysisandInformationRetrieval.1993.179-190.[15].R.,Mihalcea.P.,Tarau.TextRank:Bringingorderintotexts,InProceedingsofEMNLP.Barcelona,Spain.2004.404–411.[16].P.D.,Turney.Learningtoextractkeyphrasesfromtext.NRCTechnicalReportERB-1057.NationalResearchCouncil,InstituteforInformationTechnology.1999.1-43,Canada.[17].E.,Frank.,G.W.,Paynter.,I.H.,Witten.Domain-Specifickeyphraseextraction.InProceedingsofthe16thInternationalJointConferenceonArtificialIntelligence.Stockholm,Sweden,MorganKaufmann.1999.668-673.合肥工业大学人工智能与数据挖掘研究室15三基于序列模式挖掘的关键词抽取系统框架合肥工业大学人工智能与数据挖掘研究室16三基于序列模式挖掘的关键词抽取伪代码合肥工业大学人工智能与数据挖掘研究室17三基于序列模式挖掘的关键词抽取文本和序列数据库的对应关系合肥工业大学人工智能与数据挖掘研究室18SPAM算法位示图表示序列数据库位并行技术计算支持数模式增长方式S-stepI-step三基于序列模式挖掘的关键词抽取{}aa,aa,b(a,b)level12…...…...a,a,aa,a,ba,(a,b)…...3S-stepI-step合肥工业大学人工智能与数据挖掘研究室19SPAM算法改进针对文本序列,只采用S-step加入通配符条件三基于序列模式挖掘的关键词抽取合肥工业大学人工智能与数据挖掘研究室20三基于序列模式挖掘的关键词抽取词语特征合肥工业大学人工智能与数据挖掘研究室21三基于序列模式挖掘的关键词抽取预处理生成文本序列数据库和统计特征合肥工业大学人工智能与数据挖掘研究室22三基于序列模式挖掘的关键词抽取词语模式和所有特征合肥工业大学人工智能与数据挖掘研究室23三基于序列模式挖掘的关键词抽取标准化合肥工业大学人工智能与数据挖掘研究室24三基于序列模式挖掘的关键词抽取实验数据我们实验所使用的语料库是从中文自然语言处理开放平台上下载的200篇中文论文评价标准n是测试集合通过分类器得到的关键词个数;N是测试集合中关键词的总数;m是测试集合中被分错类别的词语个数NnPNmRRP