华中科技大学硕士学位论文Web日志挖掘及其对电子商务中客户分类支持的应用研究姓名:冯燕申请学位级别:硕士专业:系统工程指导教师:陈学广20030625Web日志挖掘及其对电子商务中客户分类支持的应用研究作者:冯燕学位授予单位:华中科技大学相似文献(10条)1.学位论文李向云Web日志挖掘技术的研究2007Internet的快速发展,WWW的广泛应用以及所有客户行为的电子化,使得收集用户的行为数据,深入研究用户行为成为可能.如何利用这些繁琐的数据得到大家都看得懂的、有价值的信息和知识就是我们面临的问题,由此产生Web日志挖掘.Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式,从而改善Web站点结构及页面间的超链接结构,提高站点的服务质量,改进站点性能,同时将一些可疑信息及时反馈给网站管理员以加强网站的安全性.本篇论文主要从以下几个方面对Web日志挖掘进行系统的分析和研究.首先阐述本篇论文的研究背景及Web日志挖掘的国内外研究现状,并对数据挖掘、Web数据挖掘和Web日志挖掘进行了概述,并给出他们之间的关系;其次对Web日志挖掘中的数据预处理技术进行了分析与研究,详细分析了传统的数据预处理阶段中的各项任务,并在此基础上提出一种简化预处理步骤的算法,实验证明这种算法可以在不降低预处理精度的情况下提高预处理的速度;接着本篇论文对数据挖掘中常用的几种算法进行简单介绍,并重点研究了关联规则算法中的Apriori算法,对Apriori算法常用的几种改进方法作对比,提出采用数字化的方法实现Apriori算法;论文紧接着介绍了Web日志挖掘的具体实现过程,并给出具体实例.最后论文总结本课题的研究成果和工作中尚存的不足,并指出Web日志挖掘的研究方向、应用前景和它所面临的挑战.2.期刊论文庞科Web日志挖掘在电子商务中的应用-中国科技财富2008,(7)电子商务网站每天都会产生海量数据,在这些网络信息和网站使用记录中挖掘潜在有价值的信息,这对商务领域中管理决策有着极其重要的意义,本文讲述了web数据挖掘中的日志挖掘在电子商务中的具体应用.3.学位论文李巍数据挖掘及其在Web日志挖掘中的应用研究2009随着网络的快速发展,人们尽情地享受到了网络带来的便利,网络已经成为人们日常生活中必不可少的一部分。但是,由于网络上资料上过多,已经远远超过人们的处理能力。不同的用户其使用兴趣和目的各不相同,人们都希望能够尽快地访问到出对自己有价值的网页。网站管理者为了增加网站的吸引力,希望能够了解客户的访问行为,来优化网站结构,提高响应速度,根据用户浏览行为,进行个性化页面推荐,从而更好地为客户提供优质的服务。数据挖掘的应用非常广泛,随着互联网与WWW的快速发展与使用,人们将数据挖掘技术应用到了web环境中,web挖掘已成为一个热门的研究领域。由于随着网络的发展,web日志的数据量急速地增加,这些隐藏在web日志文件中的信息,对于用户和网站管理者都能带来极大的好处。web挖掘主要区分为三类:内容挖掘、结构挖掘、以及使用挖掘。其中,使用挖掘也叫日志挖掘,是利用使用者在浏览网页时所留下的网页存取记录,来进行使用者行为特征模式的分析。以前在web日志挖掘的研究,从基于Apriori有候选集产生的使用模式挖掘算法和不产生候选集的前缀树类算法,都是希望以更有效率的方式来挖掘用户访问模式。br 本文研究了如何从web日志中挖掘用户访问模式以及用户访问模式在个性化推荐中的应用。首先,本文介绍了数据挖掘的相关概念和技术,以及web挖掘的有关内容重点介绍了日志数据预处理技术,说明了怎样将web日志中的数据转换成用户访问序列。然后分析了挖掘用户访问模式常用的算法,以及它们的缺点,在此基础上,提出了改进的用户访问模式挖掘算法,利用树型结构来压缩用户访问序列和用户访问模式所需的全部信息,对该树不断进行调整,最后对该树进行遍历,即可挖掘出所有的用户访问模式,无须生成候选集。最后设计了一个由用户访问模式来进行页面个性化推荐的高效算法,将序列关联规则的置信度和页面的访问可能性相结合作为规则的兴趣度,将规则按兴趣度进行排序后,存放在树中,然后根据当前用户访问序列和访问模式的匹配情况,进行页面推荐。4.期刊论文郭运宏数据挖掘、Web挖掘与Web日志挖掘之研究-郑州铁路职业技术学院学报2006,18(2)随着internet的迅速发展,传统的数据挖掘技术无法有效地解决信息过载和信息迷失的问题.直接或间接解决这个问题的途径就是将传统的数据挖掘技术和Web结合起来,进行Web挖掘;为进一步解决Web的无结构的、动态的,复杂的和个性化的问题,我们把数据挖掘技术应用于Web服务器日志的挖掘,从用户在Web上浏览行为数据中获取用户的浏览模式,根据用户的行为模式,改进站点的设计和服务,开展个性化服务和构建智能Web站点.5.学位论文汪莉栋Web日志挖掘中数据预处理算法的研究及实现2008Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富。通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务设计。更重用的是,通过对这些用户特征的理解和分析,有助于开展有针对性的电子商务活动。随着数据挖掘和万维网技术的结合,使得从收集到的访问Internet网页的网站日志记录中进行数据挖掘成为可能。将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,便形成了Web访问模式挖掘。它对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的。Web访问模式挖掘是目前数据挖掘领域的热点课题之一,也是Web日志挖掘的主要目标之一,本文的研究目的是发现更多有意义的序列模式。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程。通过对基于Web日志的数据挖掘的讨论,说明如何进行Web日志挖掘以及在Web日志挖掘中应采取的数据挖掘技术。针对多页面结构的站点会降低挖掘结果的兴趣性,本文提出了Web日志数据预处理的改进算法-Frame页面过滤算法,实验结果表明,通过过滤用户会话文件中非用户点击产生的subframe页面请求,可以提高日志挖掘结果的兴趣性。6.期刊论文童恒庆.梅清.TONGHeng-qing.MEIQingWeb日志挖掘数据预处理研究-现代计算机(专业版)2004,(3)随着WWW的广泛应用及相应的Web技术的出现,数据挖掘的研究也进入了一个新的阶段.Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,而数据预处理在Web日志挖掘过程中起着至关重要的作用.Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理.本文针对基于日志的数据挖掘,提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现.7.学位论文邝洽楼Web日志挖掘技术在商务网站中的应用2006随着Internet的日益普及,电子商务蓬勃发展,基于互联网的商业web站点面临越来越多的竞争。商务网站从“以站点为中心”向“以用户为中心”发展成为必然。如何对大量的电子商务信息进行有效的组织利用,从中抽取感兴趣的模式,以便理解客户的行为,从而调整站点的结构或为客户提供个性化的服务,并从中发现、分析企业业务,为企业的营销及市场宣传提供参考成为电子商务发展必须要解决的问题。Web挖掘可以分为三类:Web内容挖掘、Web结构挖掘和web日志挖掘,其中与电子商务关系最为密切的是Web日志挖掘。Web日志挖掘是数据挖掘技术在Web环境下的应用,是从大量用户浏览网站的数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式的过程。典型的Web日志挖掘的处理步骤包括查找资源、信息选择和预处理、模式发现、模式分析,在Web站点上常用的数据挖掘技术主要由路径分析、关联规则发现、序列模式发现和聚类分类技术。Web日志挖掘可以在许多领域发挥作用,而电子商务为数据挖掘提供了丰富的数据源和新的研究课题,Web挖掘的许多成果在电子商务中得到应用,如改进网页设计、个性化信息推荐等。但电子商务网站丰富的数据资源并未被充分利用。如网站产品的层次信息和项目本身的内涵特点,用户喜好及兴趣转移的深层理解,网站上来自于网页、客户事务、客户这些不同层次数据源结合使用等等,对有效优化网站内容和结构及实现优质推荐服务都非常重要。本文首先介绍了Web数据挖掘的定义、特点和分类以及web日志挖掘的定义、方法和结构体系;简单分析了Web日志挖掘的难点及其在电子商务中的应用。然后,论文对基于商务应用的挖掘算法进行介绍,引入兴趣度的概念,介绍实现频繁路径的快速挖掘算法。在此基础上,本文设计并实现了一个Web日志挖掘系统,采用正则表达式和合并用户识别/会话识别的方法,改进日志预处理的过程,提高数据处理速度;数据挖掘分析模块实施了兴趣度、频繁访问页面、页面聚类和频繁访问路径等。最后利用Web日志挖掘系统得到的用户访问模式对实际商务网站进行业务分析和站点优化分析。实践表明,Web日志挖掘技术能有助于商务决策,把算法应用到Web站点,可以建设一个自适应网站,实现以用户为中心,从而为网站决策者提供有力支持。8.学位论文凌志泉Web日志挖掘技术的研究与自适应Web站点的构建2003在Web的应用和规模快速增长下,把数据挖掘技术应用于Web是-个极具挑战性的研究方向.从Web服务器的日志挖掘中发现有用的,重要的知识(包括模式、规则、可视化结构等),成为数据挖掘与知识发现的又一重要研究和应用领域.该文作者对Web日志挖掘作了系统性的研究,通过对Web日志的挖掘,找出用户浏览页面的关联规则、聚类信息、访问路径等,并把它们应用到Web站点的智能化设计中.所作的工作主要有以下几个方面:1.该文介绍了Web数据挖掘的基本概念,分类,并给出Web数据挖掘的基本原理,基本方法,并指出Web数据挖掘的用途.2.为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量.文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍各过程的主要任务.3.从Web日志挖掘过程预处理阶段的结果用户会话文件开始,提出了一种基于扩展有向树模型进行用户浏览模式识别的Web日本挖掘方法,并在实验室对该方法进行了简单实现和实际日志数据的测试.4.推荐是Web个性化服务的核心.提出一种自动分层推荐算法,利用页面分层自动选择最佳的匹配粒度,进行基于频繁导航路径的推荐.实验结果表明,该算法大大减少了在线匹配的开销,可以成功地应用到Web日志挖掘中.5.提出了一个基于Web日志挖掘技术的应用,即用户自适应的Web站点,介绍了这一系统的实现方法和主要特色.9.期刊论文李文媛.林克正.LiWenYuan.LinKezhengWeb日志挖掘研究-金融理论与教学2008,(1)首先介绍了Web日志挖掘产生的背景,然后介绍了Web数据挖掘的概念,再从Web数据挖掘的内容角度引出Web日志挖掘,并略为详尽地阐述了Web日志挖掘的数据预处理技术及Web日志挖掘的算法.10.学位论文王春霞基于WEB日志的数据挖掘2003数据挖掘是数据库最活跃的领域之一.由于其广泛的应用背景和现实意义,数据挖掘技术的研究和应用都获得了突飞猛进的发展,在国内外的学术界和信息产业界备受关注.数据挖掘是从大量数据中发现人们感兴趣的、隐藏的、先前未知的知识.数据挖掘技术主要研究结构化的数据挖掘,而Web数据的挖掘是应用于Internet的技术研究,是从半结构或无结构的Web页面中,抽取感兴趣的、潜在的模式.尽管Internet是一个半结构化的系统,很难对它进行处理,但是Web服务器日志记录具有良好的结构,非常有利于数据挖掘的进行.此外,Web日志挖掘是W