数据仓库技术在学生成绩管理中的应用课程名称数据仓库与数据挖掘院(系)计算机学院软件学院专业计算机科学与技术指导老师班级姓名学号Web挖掘研究摘要因特网目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务.Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源.Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息.对Web挖掘最新技术及发展方向做了全面分析,包括Web结构挖掘、多层次Web数据仓库方法以及WebLog挖掘等.关键词数据挖掘,Web挖掘,Web仓库、WebLog挖掘,Web使用记录挖掘RESEARCHONWEBMINING:ASURVEYAbstractTheWorldWideWebservesashuge,widelydistributed,globalinformationservicecenterforvariousapplications.WebcontainsarichanddynamiccollectionofhyperlinkinformationandWebpageaccessandusageinformation,providingrichsourcesfordatamining.ThegoalofWebminingistodiscovertheaccesspatternandhiddeninformationfromthehugecollectionofdocumentsplushyperlinkinformation,accessandusageinformation.GiveninthispaperisanoverviewofWebminingtechniquesandnewtrends,mainlyinvolvingWebStructuremining,amultilayeredWebinformationbasebuilding,andWebLogmining.Keywordsdatamining,Webmining,Webwarehouse,WebLogmining,Webueagemining1引言60年代,大的物理流伴随着大信息流.传统的文件方式不能适应信息处理的需求,因此出现了数据库技术.90年代,人类积累的数据量以高于每月15%(或每年5.3倍)的速度增加,数据海洋不能产生决策意志,为了进行决策,人们不断地扩大数据库能力,搜集海量数据,但这使得决策者更难于决策,因此出现了数据挖掘技术,以便从数据库中发现知识.数据挖掘技术包括特征、分类、关联、聚类、偏差、时间序列、趋势分析等.近年来,Internet正以令人难以置信的速度在飞速发展,越来越多的机构、团体和个人在Internet上发布信息、查找信息.虽然Internet上有海量的数据但由于Web是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档,人们要想找到自己想要的数据犹如大海捞针一般.信息检索界开发了许多搜索引擎,但其覆盖率有限,因此查全率低,一般的搜索引擎是基于关键字的查询,命中率较低,另外不能针对特定的用户给出特殊的服务,因为每个人感兴趣的东西是不一样的,因此不具有个性化.解决这些问题的一个途径,就是将传统的数据挖掘技术和Web结合起来,进行Web挖掘.Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息.Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,WebLog挖掘,智能查询,建立Meta-Web数据仓库等.万维网目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务.Web还包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源.然而从以下的分析可以看出对Web进行有效的资源和知识发现具有极大的挑战性.对有效的数据仓库和数据挖掘而言Web似乎太庞大了.Web的数据量目前以兆兆字节(terabytes)计算,而且仍然在迅速地增长.许多机构和社团都在把各自大量的可访问信息置于网上.这使得几乎不可能去构造一个数据仓库来复制、存储或集成Web上的所有数据.最近,有一些工作在致力于存储或集成Web上的所有数据.例如,在下,可访问到一个巨大的数十兆兆字节的因特网存档.(1)Web页面的复杂性高于任何传统的文本文档.Web页面缺乏同一的结构,它包含了远比任何一组书籍或其它文本文档多得多的风格和内容.Web可以看做一个巨大的数字图书馆;然而,这一图书馆中的大量文档并不根据任何有关排列次序加以组织.它没有分类索引,更没有按标题、作者、扉页、目次等的索引.在这样一个图书馆中搜索希望得到的信息是极具挑战性的.(2)Web是一个动态性极强的信息源.Web不仅以极快的速度增长,而且其信息还在不断地发生着更新.新闻、股票市场、公司广告和Web服务中心都在不断地更新着各自的页面.链接信息和访问记录也在频繁地更新之中.(3)Web面对的是一个广泛的形形色色的用户群体.目前因特网上连接有约5千万台工作站,其用户群仍在不断地扩展当中.各个用户可以有不同的背景、兴趣和使用目的.大部分用户并不了解信息网络结构,不清楚搜索的高昂代价,极容易在“黑暗”的网络中迷失方向,也极容易在“跳跃式”访问中烦乱不已和在等待信息中失去耐心.(4)Web上的信息只有很小的一部分是相关的或有用的.据说99%的Web信息相对99%的用户是无用的.虽然这看起来不是很明显,但一个人只是关心Web上的很小很小一部分信息确是事实,Web所包含的其余信息对用户来说是不感兴趣的,而且会淹没所希望得到的搜索结果.这些挑战已经推动了如何高效且有效地发现和利用因特网上资源的研究工作.Web挖掘是一个更具挑战性的课题,它实现对Web存取模式、Web结构、规则和动态的Web内容的查找.2Web挖掘的分类Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类。Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。采用第一种策略的有针对Web的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。属于该类的有WebSQL,及对搜索引擎的返回结果进行聚类的技术等。根据挖掘处理的数据可以将Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。Web结构挖掘是从Web组织结构和链接关系中推导知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档间的超链接结构挖掘。这方面的代表有PageRank和CLEVER,此外,在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。Web使用挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。Web挖掘相关技术:数据挖掘方法通常可以分为两类:一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。Web内容挖掘:1、Web文本挖掘Web文本挖掘可以对Web上的大量文档的集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测。在Internet上的文本数据一般是一组html格式的文档集,要将这些文档转化成一种类似关系数据库中记录的规整且能反映文档内容特征的表示,一般采用文档特征向量,但目前所采用的文档表示方法中,都存在一个弊端就是文档特征向量具有非常大的维数,使得特征子集的选取成为Internet上文本数据挖掘过程中的必不可少的一个环节。在完成文档特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分类、聚类、关联分析等来提取面向特定应用的知识模式,最后对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到以前的某个环节,分析改进后进行新一轮的挖掘工作。关联规则模式数据描述型模式,发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:①连接数据,做数据准备;②给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;③可视化显示、理解、评估关联规则。目前Web内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、重复数据消除、数据模式抽取、中间形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面,尤其是基于XML的上述专题研究。对分类挖掘而言,在预处理阶段要做的事情就是把这个Web页面集合文本信息转化成一个二维的数据库表,其中每一列是一个特征,每一行为一个Web页面的特征集合。在文本学习中常用的方法是TF工DF向量表示法,它是一种文档的词集(bag-of-words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。构造这种二维表的方法是:每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次.那么其值就为k。这样就可以表征出页面中词的频度。这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用NaiveBayesian方法或k-NearestNeighbor方法进行分类挖掘。WebSQL是一个用于Web页重构的查询语言,利用Web文档的图树表示形式,可从在线的文档站点或导游指南中获取信息。而Ahoy则利用像搜索引擎一类的互联网服务来获取与个人有关的服务,利用试探法识别文档中显示该文档作为个人主页的句法特征。分词目前已有很多分词算法,如:正向最大匹配法(MM)、逆向最大匹配法(RMM)、逐词遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳匹配法等。近几年又提出了很多新的方法旨在提高分词的精度和分词的速度,如:生成测试法通过词法ATN和语义ATN之间的相互作用来进行歧分决策,以提高分词的精确性;改进的MM分词算法采用正向增字最大匹配法和跳跃匹配法,结合词尾语义检查和归右原则以消除类型歧义;基于神经网络的分词方法尝试利用神经网络来处理歧分问题,但同时又引入一个问题:训练样本的选取,由于自然语言的复杂性,如何选取训练样本还需要作深入的研究;结合直接匹配算法、后缀分词算法和词表结构支持首字Hash的方法,局部提高了速度,但不能进行标准的二分查找;支持首字Hash的近邻匹配算法利用最大增字匹配算法,并支持首字Hash和标准二分查找以提高分词速度。分词的基本算法有:(1)基于词典与规则匹配法。基于词典与规则的方法应用词典匹配,汉语词法或其它汉语语言知识进行分词,这类方法简单、分词效率较高,但对词典的完备性、规则的一致性等要求比较高。匹配策略有:最大匹配法、最小匹配法、逆向匹配法、增字或减字匹配法、双向扫描法。(2)标志法。如切分标志法、统计标引法。(3)词频统计法。基于统计的分词方法将汉语基于字和词的统计信息,完备性较差。(4)语义语用法。如后缀分词法。目前使用最多的是基于词库的分词方法。由于中文在分词时可能产生二义性,如“计算机器”可分成“计算”“/机器”和“计算机”“/器”,这样必须结合其它分分词方法,如基于语法规则的分词法、基于朴素贝叶斯分词法等。在具体的分词过程中,我们还可以将单词变