试探基于电子商务的web数据挖掘技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1试探基于电子商务的Web数据挖掘技术[摘要]随着Internet的日益普及和电子商务的蓬勃发展,基于互联网的商业Web站点业务的竞争也越来越激烈。由于电子商务可为数据挖掘提供极为丰富的数据源,因而如何对大量的电子商务信息进行有效的组织利用,发现蕴涵的、未知的、有潜在应用价值的、非平凡模式或信息,从中抽取感兴趣的商业运作模式,以便更好地理解客户的行为,或改进站点结构为客户提供更多的个性化服务,已为众多商家所关注,因此,开展本研究课题有一定的应用价值和意义。本文在分析研究电子商务数据特点的基础上,较详细地阐述了Web数据挖掘的概念、方法等相关技术,以及在电子商务中数据挖掘技术的应用,针对基于Web日志的数据挖掘模型的缺点,构建了一个基于Session的数据挖掘模型,并提出了一种基于Web挖掘的个性化推荐。通过对用户访问信息进行有效的数据挖掘,可以从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务。[关键词]数据挖掘、Web挖掘、关联规则、电子商务、个性化推荐模型[abstract]WiththepopularizationofInternetandthedevelopmentofE-commerce,E-businessWebsitesarefacedwithmoreandmorefiercecompetition.E-commerceprovidesabundantdataresourcesfordatamining,thusmoreandmorebusinessorganizationsareinterestedinhowtomakeuseofE-commerceinformationandminetheuserinterestpatterntounderstanduserbehavior,improvetheusabilityofwebsiteandprovidepersonalizedserviceforcustomers.ThethesisdiscussesthecharacterofdatainE-commerce,expatiatestheconceptionandtechnologiesindetail,andtheapplicationofthedataminingtechnologyinE-Commerce,analyzethedisadvantagesofthemodelofDataMiningbasedontheWeblogandconstructamodelofDataMiningbasedonSession,thenitpresentsaPersonalizedrecommendersystembasedonsimilarmodelclusteringalgorithm.ByminingtheWeblogrecords,wecanobtaintheknowledgeaboutuseraccessmannerswhichcanhelpustofindouttheuseraccesspatternsandperformpersonalizedWebpagesrecommendation.Therefore,thereisafullsolutionfortheWebsiteofE-Commerce.[Keywords]Datamining、Webmining、Connectionrule、E-commerce、Personalizationrecommendation21、绪论1.1研究背景随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。人们迫切需要利用一种崭新的技术和工具智能地、自动地将数据转变为知识,这种情况下数据挖掘技术就应运而生。伴随Internet的飞速发展和普及,网上的数据资源空前丰富,以每月20%的速度急剧增加,Web从而成为储存、发布及获取信息的最重要的载体。然而,Web是无结构的、动态的、并且Web页面的复杂程度远远超过了文本文档,人们想要在Web上找到自己的信息犹如大海捞针一般。如何才能不被Web上信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?解决这些问题的一个有效途径,就是将传统的数据挖掘技术与Web结合起来进行Web挖掘。另外,其应用遍布科研、教育、商业、金融、军事等各个领域,尤其是电子商务更是倍受研究者们的关注,越来越多的公司企业和金融机构纷纷建立企业级的电子商务网站,通过计算机网络进行商务活动。新的商业环境在为企业提供新的商机的同时,也对企业提出了新的挑战,电子商务网站从“以站点为中心”向“以用户为中心”发展成为必然。如何对电子商务信息进行有效的组织利用,如何了解到顾客尽可能多的爱好和价值取向,以优化网站设计,为用户提供个性化服务,成为电子商务发展迫切要解决的问题。尽管信息检索界开发出了许多搜索引擎,如Yahoo,Google等,但由于覆盖率有限,查全率低;查询一般是基于关键字的,查准率欠佳;而且不能针对特定用户的兴趣爱好给出特殊的服务,不具有个性化。Web挖掘就是从Web上的数据(如Web日志、Web页面内容)中发现用户的浏览模式或寻找相关的Web页面等。通过Web挖掘既可以为站点管理者、投资商和广告商等提供合理建议,也可以为用户提供功能强大的智能搜索引擎,实现个性化服务。Web数据挖掘就是在这样的背景下与电子商务结合在一起的。1.2本文工作针对电子商务面临的一些问题和Web挖掘在电子商务中的应用现状,本论文比较系统、完整地分析和论述了数据挖掘技术以及Web挖掘技术;提出了一种基于Session的数据挖掘模型和一个基于相似度聚类算法的电子商务个性化推荐系统。全文组织如下:第一章简要介绍了本论文的研究背景和主要工作等;第二章介绍数据挖掘和Web数据挖掘理论;第三章介绍Web数据挖掘技术在电子商务中的应用;第四章介绍一种基于Session的Web数据挖掘模型,是本文的重点;第五章介绍基于Web挖掘的个性化推荐;第六章是本文总结,阐述了本文所做的主要工作及存在的不足之处,以及今后的研究方向。32、数据挖掘技术概述2.1数据挖掘的产生与发展数据挖掘是KDD(Knowledgediscoveryindatabase)最核心的部分。所谓数据挖掘(DataMining,DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,包括以下四个层次的含义:(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用的;(4)并不是要求发现放之四海皆准的知识,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明,所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前大多数的研究都集中在数据挖掘算法和应用上。人们往往不严格区分数据挖掘和数据库中的知识发现。在促进数据挖掘诞生、发展和应用的众多原因中主要有四种:(1)大规模数据库,尤其是数据仓库的出现,使数据挖掘技术有了赖以生存的基础。(2)先进的计算技术,尤其是网络技术和并行处理体系的发展,使大量管理人员得以从繁重的日常信息处理工作中解脱出来,有时间和精力对激增的数据进行高层次的分析,从中寻找那些对企业战略发展有重要意义的商业规律和市场趋势。(3)经营管理的需要。企业经营管理者迫切希望能够从企业积累的大量历史数据中找到应对日趋严重的竞争压力良方,这使数据挖掘有了用武之地。(4)对数据挖掘的精深计算能力。大规模数据挖掘需要复杂的、精深的计算能力,这些精深的计算能力主要基于统计学、集合论、信息论、认识论和人工智能等各种学科理论,也正是这些精深计算能力,成为促进数据挖掘诞生和发展的中坚力量。因此可以说,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有大规模数据库、高效的计算能力、经营管理的压力和有效的计算方法后的产物,是从存放在数据库、或其它信息库大量数据中挖掘有用知识的一个过程。数据挖掘从不同的角度,有如下不同的分类方式:(1)依据所挖掘的数据库的种类进行分类若挖掘系统从关系数据库中发现知识,则相应系统为关系数据挖掘系统。其它数据库系统如面向对象的数据库、演绎型数据库、空间数据库、时间数据库、多媒体数据库、异质数据库、主动数据库、遗留数据库和Internet信息库均可作为挖掘系统的挖掘对象。(2)依据挖掘知识的种类进行分类数据挖掘系统可以发现几种典型的知识,包括关联规则、特征规则、分类规则、聚类规则等。(3)依据采用的技术进行分类常用的数据挖掘技术主要有人工神经网络、遗传算法、决策树、邻近搜索、规则推理、模糊逻辑等。2.2数据挖掘的定义随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。随之而来的问题是相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。2.2.1技术上的定义及含义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据库中的知识发现(KDD)、数据分析、数据融合以及决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。即所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。42.2.2商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。2.3数据挖掘的主要技术人工智能、数据库技术、概率与数理统计是数据挖掘技术的三大支柱。人工智能中一些已经成熟的方法和技术在数据挖掘中得以利用,例如:人工神经网络、决策树、遗传算法、近邻搜索算法、规则推理、模糊逻辑等,其问题的复杂度和难度比人工智能降低了许多。数据挖掘利用的技术越多,得出的结果精确度就越高。(1)关联规则方法关联规则分析的目的是为了挖掘出隐藏在数据间的相互关系。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。关联规则的发现可分为两步。第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。(2)分类及聚集分析分类分析法的输入集是一组记录集合和几种标记,首先为每一个记录赋予一个标记,即按标记分类记录,然后检查这些标记的记录,描述出这些记录的特征。聚类分析法的输入集是一组未标定的记录,也就是说此时输入的记录还没有被进行任何分类。其目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。而所依据的这些规则是由聚类分析工具定义的。(3)人工神经网络神经网络近年来越来越受到人们的关注,因为它

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功