web文本挖掘

doyilong
2 ℃
2020-04-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

文本挖掘中文web信息自动抽取与摘要主要内容web挖掘综述中文web挖掘与自动摘要分词信息抽取特征选择文本分类与聚类模型评价自动摘要WEB挖掘综述Web挖掘来源伴随着internet发展出现的海量非结构型数据和半结构型数据——文本和网页形式的数据。web挖掘面对的难题a)异构数据源b)半结构化的数据结构c)动态化的应用环境WEB挖掘综述Web挖掘的分类a)Web内容挖掘：网页内容挖掘，搜索结构挖掘（文本挖掘属内容挖掘，在web又称为：信息抽取）b)Web结构挖掘c)Web使用挖掘Web内容挖掘可以看成是对基本搜索引擎挖掘所完成工作的扩展，常用的分类体系将其分为基于代理的挖掘和基于数据库的挖掘WEB挖掘综述文本挖掘的目标是对页面进行摘要和分类，摘要是基于关键字的，可以通过传统的页面文本摘要得到关键字的信息，而分类时，分类器输入的是一个web页面集（训练集），再根据页面内容文本信息进行监督学习，然后就可以把分类器用于分类每个新输入的页面。文本挖掘的功能可以用如下的层次图表示。在下图，最简单的功能位于最上一层，最复杂的在最下层关键词词语联想相似性检索分类和聚类自然语言处理WEB挖掘综述文本挖掘基本思想：首先利用文本切分技术（分词），抽取文本特征，将文本数据转化为描述文本内容的结构化数据，然后利用分类、聚类技术和关联分析等数据挖掘技术，形成结构化文本，并根据该结构发现新的概念和获取相应的关系。所以，文本挖掘同时又被称为文本知识发现。其层次图如下：WEB挖掘综述文本挖掘处理过程：先进行分词把web页面集合文本信息转化成一个二维的数据表，其中列集为特征集，每一列是一特征，行集为所有页面的集合，每一行为一个web页面的特征集合。在文本学习中，常用的方法是TFIDF向量表示法，它是一种文档的词集(Bag-of-Words)表示方法，所有的词都是从文档中抽取出来的，而不考虑词间的次序和文本的结构。构造的二维表，它表示的是web页面集合的词的统计信息，最终就可以采用朴素贝叶斯方法或K-正邻等方法进行分类挖掘。（在挖掘钱，一般要进行特征子集的选取，以降低维数）。全过程如下：中文WEB挖掘概述：从网页上丰富信息的数据源获取需要的信息，若采用一般的查找、筛选、备份这样的过程，需要耗费大量精力的，而且回报率很低。因此，从网页中有效的抽取信息并且实现自动摘要，已经成为信息检索，数据挖掘的一个重要课题。Web信息抽取的实质就是从大量的非结构化或半结构化的web文档中自动获取需要的信息的，并且自动以摘要的形式呈现出来，所谓摘要，就是准确全面的反映某一文献中心内容的简洁连贯的短文。相关技术：相关技术之分词中文文本没有类似英文空格之类的显式标示词的边界标志，而汉语言的理解、汉外翻译、词频统计等自然语言处理系统都以词作为基本处理单位。因此，把输人的汉语字的序列切分为词的序列是这些自然语言处系统必须进行的一步工作。常见的语言理解系统如下图一般的语言理解系统相关技术之分词机械分词法。机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等语义分词法。语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等人工智能法。又称理解分词法，人工智能是对信息进行智能化处理的一种模式，主要有两种处理方式：一种是基于心理学的符号处理方法。模拟人脑的功能，像专家系统。即希望模拟人脑的功能，构造推理网络，经过符号转换，从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题，应用到分词方法上，产生了专家系统分词法和神经网络分词法相关技术之分词在众多的分词方法中研究的最早使用的最为频繁的分词方法是最大匹配法，其原理图如右：现在的智能分词系统很多几乎都是几种方法结合起来使用。我国自80年代初提出自动分词以来，出现了许多成功的自动分词系统：CDWS分词系统，复旦分词系统，SEG分词系统，ABWS分词系统，SEGTAG系统以及哈工大北大等开发的分词系统。相关技术之分词分词遇到的问题：虽说现在分词技术较为成熟，分词的准确率一般都能达到95%以上，但是，相对某些相关行业，还需要更进一步改进的。而且由于中文特有的语言习惯，更增加了中文分词的难度。其代表性的问题如下：1.歧义识别：交集型歧义，组合型歧义，真歧义2.未登录识别：数字的识别（如正册表达式），中文姓名的识别，专业术语的识别，相关技术之信息抽取信息抽取是指从文本文档中识别出特定的目标信息(或数据)，并将其形成结构化的信息(或数据)的一个过程，信息抽取的一般过程如右图：相关技术之信息抽取随着需求的增加，越来越多不同的技术可以实现web页面的信息抽取，这些方法涉及到不同的领域，而且不同的技术之间存在着明显的差异，其处理对象和使用范围也各不相同。常见技术如下：①面向包装器开发过程而设计的语言：包装器语言是种特定的抽取和包装应用逻辑语法描述规则的集合，其常用的工具有：Minerva，TSIMMIS,Web-OQL和InternetSoftbots②基于HTML结构特种的工具：此类工具充分利用HTML文件所固有的结构特征来实现数据结构抽取任务。一般是将文档转换为一个HTML文件中标记其所处层次的解析树，然后通过自动或者半自动的方式生成抽取规则，并将规则应用于解析树。常见的此类系统有：W4F，XWRAP，RoadRunner和Lixto③基于自然语言处理的包装工具:此类工具借助自然语言处理技术（NLP）来归纳数据抽取规则。使用过滤，词性标注在内的资料语言处理技术来建立短语和短语之间的关系，进而产生基于语法约束和语义约束的规则。使用NLP面向HTML文档的代表性工具包括SRV，RAPIER，WHISK相关技术之信息抽取④包装器归纳工具：通过一系列训练样本文档的分析，归纳得到基于界定符的抽取规则。该工具与工具（3）的最大不同在于其不依赖于语言约束，而是依据半结构化文档中的格式化特征形成抽取规则。代表性的工具WIEN，SOFTMEALY，STALKER⑤基于建模方式的工具：其实现方式是定义所需抽取数据对象的结构，系统对源文件进行搜索，查找符合这种结构的数据片段。数据结构的定义通过符合一种特定的数据模型的建模源语完成。例如：元组，列表等形式。这种类型的典型工具包括NoDoSE和DEByE。⑥基于本体的工具：基于本体的工具字节依赖于内容数据本身来生成抽取规则或抽取模式，针对一个特定的领域对象，一个本体可以被定义并出现在文档中的常量进行定位，同时完成本体的对象的封装。基于本体的方法首先需要本体的领域专家进行手工建模，在本体模型建立后，数据的抽取就可以实现自动化。且具有很好的适应性。基于本体的工具本体论（Ontology）原本是一个哲学上的概念，是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。是研究实体存在及其本质的通用理论。后来，“本体”被引进人工智能领域。其定义：给出相关领域词汇的基本术语和关系，以及利用这些术语和关系构成词汇外延的规则。亦有另种比较认同的定义：本体论是共享概念模型的明确的形式化规范说明。在计算机领域里面，用于描述本体形式化模型中较常用的有：基于框架的系统，语义网络。基于本体的工具a)语义网络是一种表达能力较强而且灵活的指示表示方式，从图论的观点上看，它其实就是一个带有标识的有向图。在有向图中，其节点表示各种事情，概念，属性及知识实体等，边表示各种语义联系。所有，语义网络把实体的结构，属性实体之间的因果联系显示和简明的表达出来，与一个实体相关的事实、特性、关系可以通过相应节点的弧推导出来，便于联想法师实现系统的解释。b)框架模型：框架是把某一特殊事件或对象的所有知识存储在一起的复杂的数据结构，它包含过去定义的内在关系的说明信息和过程信息，依靠他们可以利用以前获得的知识来解释新的数据。类似于“期望制导”。框架内不同类的指示可以用不同的槽来说明。框架表示方法的主要优点是：有利于期望制导的处理;在给定的状况下,通过设计能决定其本身的可利用性或者提供其他框架；知识组织的方式有利于推理。基于本体工具的难点I.要由领域专家创建某一应用领域的详细清晰的ontology，工作量大。II.由于是根据数据本身实现信息抽取，因此在减少了对网页结构依赖的时，增加了对网页中所含的数据结构的要求，如要求内容中包含日期、ID号码等有一定格式的内容。III.从大量异构的文档中提取公共模式工作量繁重，并且不支持对超链接的处理。相关技术之信息抽取文本关键词自动提取算法可分为基于统计的方法，基于词语共现图的方法，基于词语网络的方法三种。基于统计中最基础的词频统计方法是选出文档中词频最高的几个词语作为关键词，该方法简单快速，当无法提取出含有文档中心内容的当频率不高的词。基于词语共现图的方法需要设定的参数过多，常会造成边界上的取舍问题，算法的稳定性和精度很难控制。基于词语网络的方法是以文档词语网络模型的平均路径长度或者聚类系数作为关键词自动提取依据。平均路径长度或聚类系数理论以连通图为基础，故对非连通的文档模型，正确衡量顶点的重要性成为困难。随着网络技术发展，网页信息日益增多，为了管理网页信息，常需对网页进行分类，而网页的分类的一般是按着关键词的分类进行的。在上述的三个关键词抽取的方法中，较为经典和常用的是基于统计的，其一般流程如下：基于本体工具的难点I.要由领域专家创建某一应用领域的详细清晰的ontology，工作量大。II.由于是根据数据本身实现信息抽取，因此在减少了对网页结构依赖的时，增加了对网页中所含的数据结构的要求，如要求内容中包含日期、ID号码等有一定格式的内容III.从大量异构的文档中提取公共模式工作量繁重，并且不支持对超链接的处理。相关技术之信息抽取相关技术之特征选择定义：文本特征指的是关于文本的元数据分类：描述性特征：文本的名称、日期、大小、类型等。语义性特征：文本的作者、标题、机构、内容等相关技术之特征抽取(FEATUREEXTRACTION)预处理去掉html一些tag标记禁用词(stopwords)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、…词频统计TFi,j:特征i在文档j中出现次数，词频(TermFrequency)DFi:所有文档集合中出现特征i的文档数目，文档频率(DocumentFrequency)数据清洗：去掉不合适的噪声文档或文档内垃圾数据文本表示：向量空间模型降维技术特征选择(FeatureSelection)特征重构(Re-parameterisation，如LSI)相关技术之特征抽取(FEATUREEXTRACTION)向量空间模型(VectorSpaceModel)M个无序标引项ti(词条项,特征)，词根/词/短语/其他每个文档d可以用标引项向量来表示权重计算，N个训练文档WM*N=(wij)词项的权重:{0,1},tf(词频=termfrequency),tf*idf,相关技术之特征抽取(FEATUREEXTRACTION)词频矩阵行对应关键词t，列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度矩阵元素可以是词频，也可以是布尔型。相关技术之特征抽取(FEATUREEXTRACTION)Character，字：中Word，词：中国Phrase，短语：中国人民银行Concept，概念同义词：开心高兴兴奋相关词cluster，wordcluster：葛优/顾枫N-gram，N元组：中国国人人民民银银行某种规律性模式：比如某个window中出现的固定模式相关技术之特征抽取(FEATUREEXTRACTION)布尔权重(boolea