文本挖掘与web数据挖掘

lovezaka
4 ℃
2020-02-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

2020/2/12第8章文本挖掘与Web数据挖掘•文本挖掘•Web数据挖掘•案例五：跨语言智能学术搜索系统•案例六：基于内容的垃圾邮件识别8.1文本挖掘8.1.1分词8.1.2文本表示与词权重计算8.1.3文本特征选择8.1.4文本分类8.1.5文本聚类8.1.6文档自动摘要2020/2/128.1.1分词分词(词切分)是指将连续的字序列按照一定的规范重新组合成词序列的过程英文：单词之间以空格作为自然分界符，容易中文：词没有一个形式上的分界符，难中文分词极具挑战性的问题歧义切分问题：[研究/生]物；学生会|学生会玩魔方未登录词问题：新词(木有、凡客体)，人名等分词法主要分为以下三大类：基于词典的方法、基于统计的方法、基于语法分析的方法2020/2/12基于词典的分词法正向最大匹配从左开始算起，最大是指从一个设定的长度开始匹配，直到第一个匹配成功就切分成为一个词逆向最大匹配与正向最大匹配相似，区别在于从右至左匹配例子：研究生命起源正向匹配结果：研究生/命/起源逆向匹配结果：研究/生命/起源特点：简单，易实现；正确率受词典大小限制2020/2/12基于统计的分词法假设：词是稳定的单字组合，直观地，在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典(统计)分词法基于统计模型的分词方法是研究热点，如基于隐马尔可夫的方法、基于最大熵的方法特点：精度高、词性标注、命名实体识别；需要语料作支撑2020/2/12基于中文语法的分词方法通过让计算机模拟人对句子的理解，达到识别词的效果其基本思想就是在分词的同时进行句法、语义分析，利用句法和语义信息来处理歧义现象包括三个部分：分词子系统、句法语义子系统、总控部分特点：由于汉语语言知识的笼统、复杂性，基于理解的分词系统还处在试验阶段2020/2/12常见分词工具ICTCLAS中国科学院计算技术研究所开发采用层叠隐马尔可夫模型中文分词，词性标注，命名实体识别，新词识别支持C/C++/C#/Delphi/Java等主流开发语言imdict-Chinese-analyzerICTCLAS中文分词程序基于Java的重新实现采用基于隐马尔科夫模型的方法直接为Lucene搜索引擎提供简体中文分词支持2020/2/12常见分词工具(续)IKAnalyzer采用特有的“正向迭代最细粒度切分算法”基于Java语言开发的轻量级开源分词工具包60万字/秒的高速处理能力简易中文分词系统SCWShightman个人开发采用标准C开发提供C接口、PHP扩展(源码、WIN32的DLL文件)2020/2/12常见分词工具(续)盘古分词基于.netFramework的中英文分词组件中文未登录词识别、人名识别、多元分词等功能支持英文专用词识别、英文原词输出、英文大小写同时输出等单线程分词速度为390KB/s，双线程分词速度为690KB/s(CoreDuo1.8GHz)其它Paoding(庖丁解牛分词)、HTTPCWS、MMSEG4J以及CC-CEDICT等2020/2/128.1.2文本表示与词权重计算目前文本表示主要是采用向量空间模型(VectorSpaceModel，VSM)每个文本被表示为在一个高维词条空间中的一个向量词条权重wi,j一般采用TF×IDF方法来计算得到2020/2/12m,im,i,i,i,i,i,i,iiw:t,...,w:t,w:t,w:td332211ittNntfj,ij,ij,ij,ittmNlogidfmjtittitttj,ij,ij,ij,ij,ij,ij,imNlogNnmNlogNnidftfw128.1.3文本特征选择文本特征选择是根据某种准则从原始特征中选择部分最有区分类别能力的特征主要分为无监督和有监督的方法常用的方法有以下几种文档频率(DocumentFrequency，DF)单词权(TermStrength，TS)信息增益(InformationGain，IG)互信息(MutualInformation，MI)期望交叉熵(ExpectedCrossEntropy，ECE)2020/2/12基于文档频率的方法文档频率是指所有训练文本中出现某个特征词的频率是一种无监督的方法通常会分别设置一个小的阈值和大的阈值来过滤一些低频词和频数特别高的词特点优点：简单、易行缺点：低频词有时能很好反映类别信息；忽略了特征词在文档中出现的次数2020/2/12基于信息增益的方法根据某个特征词t在一篇文档中出现或者不出现的次数来计算为分类所能提供的信息量，并根据该信息量大小来衡量特征词的重要程度，进而决定特征词的取舍信息增益是最常用的文本特征选择方法之一特点：该方法只考察特征词对整个分类的区分能力，不能具体到某个类别上2020/2/12njijijinjijijinjjjiitCPlogtCPtPtCPlogtCPtPCPlogCPt|CHCHtIG1212128.1.4文本分类文本自动分类(简称“文本分类”)是在预定义的分类体系下，根据文本的特征(词条或短语)，将给定文本分配到特定一个或多个类别的过程基本步骤可以分为三步：将预先分过类的文本作为训练集输入构建分类模型对新输入的文本进行分类常见的算法包括：线性分类器、k最近邻分类器、朴素贝叶斯、决策树、支持向量机分类器2020/2/12朴素贝叶斯分类器贝叶斯分类算法有两种模型：多变量伯努利事件模型和多项式事件模型多变量伯努利事件模型特征词在文本中出现则权重为1，否则权重为0。不考虑特征词的出现顺序，忽略词出现的次数多项式事件模型一篇文档被看作是一系列有序排列的词的集合2020/2/12类的文本数量类中出现的文本数量在特征iiCCtC|tPjijmjijxtijxtiC|tPBC|tPBC|dP111|v|ijjniji!nC|tP|!d||d|PC|dPjiiCmVnmnCmmjijdtcountdtcountCtP111,,|常用基准语料Reuters-21578是最常用的公开英文语料库21578篇新闻报道135个类别20Newsgroups是重要的公开英文语料库大致20000篇新闻组文档6个不同的主题以及20个不同类别的新闻组TanCorp是公开的中文基准语料库收集文本14150篇分为两个层次。第一层12个类别，第二层60个类别2020/2/12常用基准语料(续)复旦大学中文文本分类语料库测试语料共9833篇文档，训练语料共9804篇文档包含20个类别其它语料库还包括OHSUMED、WebKB、TREC系列和TDT系列等2020/2/12模型评估文本自动分类通常是不平衡的分类任务，常用的分类准确率(Accuracy)指标并不合适一般使用每个类的F-measure值以及全部类F-measure值的平均来评估算法的性能其中，r表示每个类的召回率(Recall)，p表示每个类的精度(Precision)，通常β取值为1，也就是经常被使用到的F1值2020/2/12221prpr)(measureF模型评估(续)语料上的整体性能，通常采用微平均和宏平均方法微平均是根据所有类准确划分文本个数和错误划分文本个数来计算精度和召回率宏平均则是计算每个类别得到的精度和召回率的平均值在不平衡数据分类上，宏平均方法更能反映出分类器的性能。2020/2/128.1.5文本聚类自动化程度较高的无监督机器学习方法,不需要预先对文档手工标注类别主要任务是把一个文本集分成若干个称为簇的子集，然后在给定的某种相似性度量下把各个文档分配到与最其相似的簇中相似性度量方法在此过程起着至关重要的作用2020/2/12文本相似度计算方法主要分为两大类：基于语料库统计的方法和基于语义理解的方法基于语料库统计的方法：基于汉明距离和基于空间向量模型的方法汉明距离用来描述两个等长码字对应位置的不同字符的个数，从而计算出两个码字的相似度基于空间向量模型方法是一种简单有效的方法2020/2/12mkk,jk,ijijiwwd,ddd,dsim1211mkk,jmkk,imkk,jk,iji文本相似度计算(续)基于语义理解的方法：考虑语义信息的文本相似度计算方法该方法主要分为三大类：词语相似度、句子相似度、段落相似度计算词语相似度往往需要一部语义词典作为支持，目前使用频率最高的语义词典是《知网》句子相似度计算要通过利用语法结构来分析汉语句子机构相当复杂，段落相似度计算更复杂2020/2/12文本聚类过程以K-means算法详细介绍文本聚类的过程①任意选择k个文本作为初始聚类中心②Repeat③计算输入文本与簇之间的相似度，将文本分配到最相似的簇中④更新簇质心向量⑤Until簇质心不再发生变化2020/2/12评估指标外部质量准则的聚类熵、聚类精度文本分类方法的召回率、精度、F-measure值文本聚类算法整体性能的评估宏平均或微平均F-measure值聚类熵2020/2/128.1.6文档自动摘要文档自动摘要，简称自动文摘，是指利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文处理过程大致可分为三个步骤：文本分析过程信息转换过程重组源表示内容，生成文摘并确保文摘的连贯性2020/2/12文档自动摘要的类型按不同标准，文档自动摘要可分为不同类型：根据文摘的功能划分，指示型文摘、报道型文摘和评论型文摘根据输入文本的数量划分，单文档文摘和多文档文摘根据原文语言种类划分，单语言文摘和跨语言文摘根据文摘和原文的关系划分，摘录型文摘和理解型文摘根据文摘的应用划分，普通型文摘和面向用户查询文摘2020/2/12相关技术文档自动摘要技术主要有以下几种类型自动摘录法最大边缘相关自动文摘法基于理解的自动文摘基于信息抽取的自动文摘基于结构的自动文摘基于LSI语句聚类的自动文摘2020/2/12相关技术(续)自动摘录法将文本看成是句子的线性排列，将句子看成词的线性排列，然后从文本中摘录最重要的句子作为文摘句最大边缘相关法从文本中挑选出与该文本最相关的，同时与已挑选出的所有代表句最不相关的句子作为下一个代表句基于理解的方法利用语言学知识获取语言结构，更重要的是利用领域知识进行判断、推理，得到文摘的语义表示，从语义表示中生成摘要2020/2/12相关技术(续)基于信息抽取的方法首先根据领域知识建立该领域的文摘框架，然后使用信息抽取方法先对文本进行主题识别，再对文本中有用片段进行有限深度的分析，最后利用文摘模板将文摘框架中内容转换为文摘输出基于结构的方法将文章视为句子的关联网络，与很多句子都有联系的中心句被确认为文摘句，句子间的关系可通过词间关系、连接词等确定2020/2/12相关技术(续)基于LSI语句聚类的方法利用潜在语义索引LSI(LatentSemanticIndexing)，获得特征项和文本的语义结构表示。在语义空间考虑特征项权重不是依赖于单纯的词频信息，而是考虑到特征项对于文本主题的表现能力以及在整个文本集中使用的模式。2020/2/12相关技术(续)以上方法普遍会面临以下三个关键问题的挑战文档冗余信息的识别和处理重要信息的辨认生成文摘的连贯性2020/2/12性能评估自动