《Web挖掘研究》阅读报告文章开头指出了当今人类累积了难以想像的海量数据,并且这些数据正在以惊人的速度不断增长,先不用考虑这些数据的存储,这么多的数据怎样才能给人们带来价值,益处。从这个问题出发,作者指出数据本身是不会决策意志,人们需要不断扩大数据库的能力,搜集海量数据,但这样决策者更难决策,从而引出了数据挖掘技术,以便从数据中发现有价值的知识。然后简要介绍了数据挖掘技术,包括:特征,分类,关联,聚类,偏差,时间序列,趋势分析等。引入数据挖掘技术后,作者将数据挖掘技术的范围缩小到了Web上的数据挖掘。Internet正在以令人难以置信的速度飞速发展,虽然Internet上有海量的数据但Web是无结构的动态的并且页面的复杂程度远远超过了文本文档人们要想找到自己想要的数据如同大海捞针一样。信息界开启了许多搜索引擎,但其覆盖率有限,因此查全率低,另外,不能给特定的用户给出特殊的服务。不能提供个性化的服务。针对这个问题,作者提出了一个解决方法,其思想就是将传统的数据挖掘技术和Web技术结合起来,进行Web挖掘,Web挖掘就是从Web文档和Web活动中提取感兴趣的潜在的有用模式和隐藏的信息。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威界面,Web文档分类,WebLog挖掘,智能查询,建立Meta-Web数据仓库等。万维网是一个巨大、分布广泛、全球性的信息服务中心,涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务等许许多多的的信息服务。Web还包含了动态的丰富的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,然而,对Web进行有效的资源和知识发现具有极大的挑战性。作者在这里指出了三点:一、Web非常庞大,且正在以兆兆字节的速度迅速增长。二、Web页面的复杂性高于任何传统的文本文档,Web页面缺乏同一的结构,有许多的风格和内容。三、Web动态性极强,不仅以极快的速度增长,而且其信息无时无刻都在更新。作者指出这些挑战已经推动了高效且有效的发现和利用因特网上的资源的研究工作。针对Web链接存在的局限性,作者引入了另外一种重要的页面,称为hub页面,hub页面和authority之间的相互作用,可用于权威页面的挖掘和高质量Web结构和资源的自动发现。这就是为解决这个问题,作者引入的hub/authority方法的基本思想。具体的实现是一个HITS算法,HITS算法是一个利用hub/authority方法的搜索引擎算法。接下来文章指出了几类Web发掘,比如:Web内容挖掘,Web结构挖掘,Web使用记录的挖掘。挖掘Web结构的目的是发现页面的结构和Web的结构,在此基础上对页面进行分类和聚类从而找到权威页面。Web使用记录的挖掘是通过挖掘Web日志记录来发现用户访问Web页面的模式。通过研究和分析Web日志记录中的规律,可以识别电子商务的潜在用户,增强对最终用户的因特网信息服务的质量和交付,并改进Web服务器的性能和结构。这时,文章又引出了一个问题,Web是一个没有标准,没有结构,异构的系统,并且在以很快的速度增长、变化,造成为进行搜索而建的索引很快因不能反映真实情况而失效。如何对一个巨大的、分布的、异构的、半结构的、支持超文本和超媒体、经过网络连接的不断变化的信息库进行查询?作者针对这个问题提出建立一个多数据库(multiplelayereddatabaseMLDB)的方法。方法的思想是用数据库技术管理Web的元数据,它是一个分层的数字图书目录,其作用类似于电话号码本的黄页。由于Web上信息的多样性,多变性和巨大的数据量,对原始信息进行结构化处理,再利用数据库技术进行管理和查询是非常困难的,也是不切实际的。多层数据库的主要思想是概括,即根据经常出现的查询模式,对Web上的原始信息进行概括归纳形成多层次的结构化的数据库。在实现的过程中由于不同的站点可能采用不同的数据库管理系统,可以采用将不同数据库中的数据以XML文档的形式来表现,但由于XML允许用户自由定义标签来描述,存在不利于信息的共享的问题,针对这个问题,作者引出了由1995年世界上专家提出的15个描述符,这套描述符作为第一层的标准描述符,这样就解决了结构的问题。然后作者介绍了WEBML,WEBML是采用类似SQL语句的查询语言,它针对的是Web资源查询和Web知识挖掘。因为在MLDB中概念是按层次综合的,查询条件不一定与当前抽象层次一致,可能更抽象或更特例化。在文章的最后,作者指出构造多层次的Web信息库是效果是比较理想的,它可以方便因特网上的资源发现、多维分析和数据挖掘。这篇文章的重点介绍了用于权威页面的Web链接结构挖掘、多层次Web信息库的建立以及WebLog挖掘的技术和方法。Web挖掘是一个较新的研究领域,还有许多还有许多问题有待于进一步的研究和深化。