Web数据挖掘OutlineWeb挖掘概述web数据挖掘分类Web数据挖掘中的关键技术Web数据挖掘的应用WhyWebMining?随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/在全球互连互通,可以从中取得的数据量难以计算,而且Internet/的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。随着Internet的发展,Web数据挖掘有着越来越广泛的应用,Web数据挖掘是数据挖掘技术在Web信息集合上的应用。Web挖掘概述Web上有少量的数据信息,相对于传统的数据库的完全结构化的数据,Web上的数据最大特点就是半结构化。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘的重点。典型的Web挖掘的处理流程1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。Web挖掘的IR和IE过程Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(InformationRetrieval)和信息抽取IE(InformationExtraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。由于Web数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。2web数据挖掘分类Web数据有三种类型,:HTML标记的Web文档数据、Web文档内的链接的结构数据和用户访问数据。相应地Web数据挖掘可分为三类:内容挖掘(Webcontentmining)、结构挖掘(Webstructuremining)和用户访问模式挖掘(Webusagemining)。2.1Web内容挖掘Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。Web内容挖掘的对象包括文本、图象、音频、视频等多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。在Web多媒体数据挖掘方面的研究成为另一个热点,即多模态数据挖掘。2.1.2实现方法和策略Web内容挖掘按实现方法分为两大类:信息检索(IR)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。1.从资源查找(InformationRetrival)的观点挖掘非结构化文档:非结构化文档主要指Web上的自由文本,包括小说、新闻等。大部分研究都是建立在词汇袋(bagofwords)或称向量表示法(vectorrepresentation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性。一个比较有意义的方法是潜在语义索引(LatentSemanticIndexing),它通过分析不同文档中相同主题的共享词汇,找到它们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如:“informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少属性集合的规模。其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等。2.用资源查找(InformationRetrival)的观点挖掘半结构化文档与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。3.从数据库的观点挖掘非结构化文档:数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。数据库观点主要利用OEM(ObjectExchangeModel)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、html等,也可以是一个复合类型,以对象引用集合的形式表示。对于在半结构化数据上的查询语言研究也得到了人们的重视,并做了专题研究。Web图像挖掘举例特征提取和表示+聚类+分类算法流程利用BOW词袋的方法生成词典典型的视觉词典主题和词典视觉词典表示的图例参考文献文本挖掘举例文本挖掘概述文本挖掘的基本概念文本特征的表示文本特征的提取1文本挖掘的基本概念文本挖掘一词出现于2019年第十届欧洲机器学习会议上。Kodratoff认为文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识。1.概念文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。2.主要任务(1)短语提取提取文本集中所有相关的短语。(2)概念提取(聚类)对这些短语之间的关系,建立一个该文本集中的主要概念。(3)可视化显示和导航从多个视角出发进行分析.3.文本挖掘与数据挖掘数据挖掘文本挖掘研究对象用数字表示的、结构化的数据无结构或者半结构化的文本对象结构关系数据库自由开放的文本目标获取知识,预测以后的状态提取概念和知识方法归纳学习、决策树、神经网络、粗糙集、遗传算法等提取短语、形成概念、关联分析、聚类、分类成熟度从1994年开始得到广泛应用从2000年开始得到广泛应用文本特征的表示文本特征指的是关于文本的元数据:(1)描述性特征,例如文本的名称、日期、大小、类型等;(2)语义性特征,例如文本的作者、机构、标题、内容等。文本特征的表示矢量空间模型(VSM)是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量:V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))d中出现的所有单词作为ti,或所有短语。wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。函数wi(d)=Ψ(tfi(d)),常用的Ψ有:(1)平方根函数(2)对数函数)d(tfi)1)d(tflog(i文本特征的提取特征提取主要是识别文本中代表其特征的词项。文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等;数字特征主要包括日期、时间、货币以及单纯数字信息。特征项抽取的判断算法(1)该特征项集合包含所有该类中出现的词。(2)对于每个词,计算词Wi和类别Cj的互信息量I(W,C)(3)对于该类中所有的词,依据上面计算的互信息量排序。(4)抽取互信息量大的词作为特征项。(5)根据抽取的特征项进行向量压缩,精简向量表示。文本挖掘文本挖掘功能层次关联分析文本聚类文本分类11.2.1文本挖掘功能层次文本挖掘功能层次(1)关键词检索关键词建立倒排文件索引,与传统的信息检索使用的技术类似。(2)相似检索找到相似内容的文本。(3)词语关联分析聚焦在词语(包括关键词)之间的关联信息分析上。(4)文本聚类和文本分类实现文本的聚类和分类。(5)自然语言处理揭示自然语言处理技术的语义,进行文本语义挖掘。关联分析在文本数据库中,每一文本被视为一个事务,文本中的关键词组可视为事务中的一组事务项。即文本数据库可表示为:{文本编号,关键词集}文本数据库中关键词关联挖掘的问题就变成事务数据库中事务项的关联挖掘。关联分析挖掘可以用于找出词或关键词间的关联。文本聚类1.层次聚类法对于给定的文本集合D={d1,…,di,…,dn}:(1)将D中的每个文本di看作是一个具有单成员的类ci={di},这些类构成了D的一个聚类:C={c1,…,ci,…,cn};(2)计算C中每对类(ci,cj)之间的相似度sim(ci,cj);(3)选取具有最大相似度的类对,并将ci和cj合并为一个新的类ck=ci∪cj,从而构成了D的一个新的聚类C={c1,…,cn-1};(4)重复上述步骤,直至C中剩下一个类为止。该过程构造出一棵生成树,其中包含了类的层次信息,以及所有类内和类间的相似度。文本分类首先,把一组预先聚类过的文本作为训练集。然后对训练集进行分析以便得出各类的分类模式。对文本分类的有效方法是基于关联的分类:(1)提出关键词和词组。(2)生成关键词和词组的概念层次,或类层次结构。(3)词关联挖掘方法用于发现关联词,它可以最大化区分一类文本与另一类文本。这导致了对每一类文本,有一组关联规则。2.2Web结构挖掘Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现它们之间连接情况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和outgoing连接,运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。2.2.2算法常见的算法有HITS(HypertextInducedTopicSearch),PageRank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析,从而进行一次值的指派;查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。它们的共同点是使用一定方法计算Web页面之间超连接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。Web访问挖掘是从服务器端记录的用户访问日志或从用