电子商务中的Web数据挖掘系统的设计摘要:随着互联网信息的增长,Web数据挖掘已经成为数据挖掘研究的热点之一,尤其是应用于电子商务领城。本文首先阐述了电子商务中Web数据挖掘的资源及其流程,然后在此基础上提出了一种Web数据挖掘系统的设计方案,最后并对此设计方案中进行了实现。关键词:数据挖掘;电子商务;HTML;WebDesignofWebDataMininginElectronicCommerceAbstract:WiththegrowthofInternetinformation,Webdatamininghasbecomeoneofthehotspotsthedataminingresearched,especiallyappliedine-commercerealm.TheresourceandflowofWebdataminingine-commercerealmweredescribedfirstlyinthispaper,andthenanewdesignofWebdataminingwaspresented,finally,thedesignwasimplementedinthispaper.Keywords:Datamining;ElectronicCommerce;HTML;Web1.引言随着电子商务的蓬勃发展,商业Web网站面临越来越激烈的竞争。面对大量的电子商务信息,找出用户感兴趣的信息加以组织利用,加强客户关系的管理,提高客户满意度,从而改进Web站点的设计、改善企业与客户的关系成为电子商务发展必须要解决的问题。数据挖掘概念就是从这样的商业角度开发出来的。对于企业而言,数据挖掘有助于发现业务发展的趋势,帮助企业做出正确的决策,使企业处于更有利的竞争位置。Web数据挖掘是1996年由O.Etzioni提出的。数据挖掘(DataMining)就是从大量的、不完全的未知数据中提取隐含在其中的对人们分析有用的有价值信息、模式和趋势,然后以易于理解的可视化形式表达出来,其目的是为了提高市场决策能力、检测异常模式、控制可预见风险、在经验模型基础上预言未来趋势等,从而为企业提供决策依据。2.Web数据挖掘的资源及其流程Web数据挖掘的资源Web数据挖掘的资源主要包括两大类:①Web上各种形式的文档;②用户访问信息。在Internet电子商务中,客户的浏览信息被Web服务器自动搜集,并保存在日志文件中,具体的数据源有以下几种形式:(1)服务器端数据客户在访问服务器时,就会在服务器上产生相应的服务器数据,这些文件可以分为日志文件和查询数据。其中日志文件又可分为Servicelogs,Errorlogs,Cookielogs.Servicelogs文件格式中最常用的是标准公用日志文件格式和标准组合日志文件格式。标准公用日志文件的格式存储关于客户连接的物理信息。标准组合日志文件格式主要包含关于日志文件元信息的指令,如版本号,会话监控开始和结束的日期等。在日志文件中,Cookielogs日志文件是很重要的日志文件,是服务器为了自动追踪网站访问者,为单个客户浏览器生成日志。(2)客户登记信息客户登记信息是指客户通过网页在屏幕上输人并提交给服务器的相关信息,它在电子商务活动中起着很重要的作用,特别在安全方面,或者是在对客户可访问信息的限制方面。Web数据挖掘的过程Web数据挖掘在电子商务管理中的应用是一个将信息、数据转化为商业知识的过程。(1)明确数据挖掘的目标,确定电子商务管理的应用主题,并对挖掘目标建立恰当的模型。挖掘目标主要有两个方面:一是从与产品、客户相关的数据中发现对电子商务管理起关键作用的新的有价值的知识;二是通过数据挖掘去验证假设是否成立。(2)围绕电子商务管理主题收集数据源,并对数据进行清理、转换、集成等技术处理,装载进人数据仓库。(3)在正式挖掘之前,对数据进行格式化操作,并将所有数据导人到特制的数据集市中。(4)选取合适的数据挖掘方法,构建数据挖掘模型,从目标数据中提取有价值的电子商务管理知识,包括电子商务运营规则、模式、模型和报表等。对结果进行分析和验证,调整数据挖掘模型,从而保证结果的可靠性和实用性。(5)挖掘结果评估与知识表示。将电子商务管理知识集成到电子商务管理中心,融合专家知识与领域规则,为电子商务管理活动提供决策支持。其具体过程如图1所示:服务器端数据客户登记信息数据预处理Web数据挖掘数据仓库规则模式模型图表商务平台决策管理销售管理网站性能优化…图1Web数据挖掘的过程3.Web数据挖掘系统的设计与实现Web数据挖掘系统的设计根据上述对Web数据挖掘的分析,可将Web数据挖掘系统划分为以下四大模块:数据收集模块(服务器端数据、客户登记信息)、数据预处理模块、模式规则选择模块和应用接口模块。系统的整体架构如图2所示:数据收集模块负责收集服务器端的数据和客户登记资料,然后以文本的方式将收集的结果进行返回;数据预处理模块则是对返回的数据信息首先进行一下预处理,即去除无用冗余的数据信息(如HTML的tags信息);模式规则选取模块是从各个站点或站点间获取通用模式,是一种常用的习气学习和数据挖掘技术,同时还对获取的模式负责解释。从描述的处理过程来看,不难发现Web数据挖掘包含了传统的知识发现(KDD)处理过程,因而可以将它看成是KDD技术在Web数据上的应用与扩展。Web服务器数据收集模块数据预处理模块模式规则选择模块应用接口模块图2Web数据挖掘系统的整体架构图Web数据挖掘系统的实现数据收集模块(1)Web服务器的日志Web服务器日志记录用户访问该站点时每个页面请求所产生的信息。在具体实现时,不同的服务器操作系统大都提供了额外的扩展。但是由于以下原因Web服务器日志中记录的信息,并不能直接和完全代表用户的访问行为,所以需要利用应用服务器上的应用程序如CGI程序、服务器脚本程序(ASP、PHP等)来记录跟踪用户的个人信息和以自定义的格式动态记录用户的浏览信息。(2)客户端采集客户端采集浏览路径比服务器端采集更具优越性,因为它是建立在用户的行为源上的,可以准确地捕捉用户的行为,用户的浏览路径和浏览时间都可以精确地测量。可以使用客户端远程代理的方式来实现客户端采集。这种方法由客户端远程代理将用户的浏览路径和浏览时间实时地直接发送给服务器。主要的技术有JavaApplet,JavaScript,VBScript,插件技术以及使用特制的浏览器等。数据预处理模块数据预处理的步骤主要包括数据清理、用户识别、会话识别、事务识别。有时还需要进行会话子序列的生成不同的数据源、不同的挖掘需求,对于数据预处理的要求、过程和结果也不相同。应用服务器和客户端采集的数据由于在采集时就考虑了所需的应用,处理起来相对简单。下面主要就以Web日志数据的预处理为例来进行阐述。(1)数据清理数据清理是指根据挖掘的具体需要,删除那些不是用户直接点击产生,而是由浏览器自动“请求”而产生的访问记录。主要有:①URL中的文件扩展名为GIF,JPG,SWF,MIDI,MP3等的记录;②弹出式广告的记录;③框架网页中的子网页的请求记录;④搜索引擎Robot和离线浏览软件对网站的访问所产生的访问记录;⑤产生错误的访问记录。(2)用户识别用户识别一般是根据访问者的IP地址、用户代理(Agent)来将访问记录归类给某一个用户(UID)。但是,由于缓存、代理服务器、防火墙的使用,使得要100%准确识别用户变得不太可能。一般的准则是在一定的时间范围内,相同的IP和Agent就可以认为是同一个用户。经过用户识别,给每一个访问记录加上一个用户标识uid,访问记录的格式变为:uid,url,time。(3)会话识别首先对经过数据清理和用户识别以后的数据以用户号uid作主关键词,访问时间time为次关键词进行排序。然后根据以下准则进行会话识别:①不同的用户访问的页面属于不同的会话;②对于同一个用户访问的页面,如果连续的两个访问页面的时间差超过了设定的时间值C,则认为用户开始了一个新的会话。C的取值一般为20~30分钟。由于浏览器会使用本地缓存,用户在浏览器中的部分操作(如“后退”)不被服务器记录;另外如果用户使用了代理服务器,用户的部分请求,代理服务器会直接使用其缓存而不向Web服务器发送,所以Web服务器日志中记录的信息并不能完全代表用户的访问行为。这样就导致了生成的会话在实际应用环境下是“不合理”的。此时,就需要进行路径补充。路径补充是根据网站的拓扑结构,将会话中缺失的请求页面补充进来。(4)事务识别用户会话对数据挖掘来说显得粗糙,不够精确,需要把会话分割成具有一定语义的事务,如顾客查询某一个特定商品的浏览过程。目前主要有三种事务识别分割算法:引用长度、最大向前引用和时间窗口。其中,最大向前引用最能从语义上体现“事务”的含义,一个最大向前引用路径就相当于一个事务。向后引用意味着一个用户再次请求其浏览过的页面(如用户点击“返回”按钮)。当一个向后引用发生时,说明向前引用终止,则得到的向前引用路径即是一个最大向前引用;或者当这个用户会话结束时,也获得一个最大向前引用。例如,用户会话为ABACD,则以A为起点,最大向前引用路径为AB,ACD,该会话也就分割成这2个事务。由于模式规则选择模块和应用接口模块同普通的数据挖掘处理类似,故在此不再详解,具体的实现方案可以查阅相关文档。4.结束语Web数据挖掘技术是一个发展非常快的领域,本文介绍了电子商务中进行数据挖掘的数据源、数据挖掘流程、给出了一种新的Web数据挖掘系统的设计方案,并对此方案进行了实现。Web数据挖掘技术主要致力于在网络海量的异构的信息资源中寻找蕴涵的有价值的知识。近年来,随着电子商务的迅速发展,Web数据挖掘有了更大的用武之地。它能自动预测客户的消费趋势、市场走向,帮助商家获得和保留客户,调整市场策略,进行正确的决策,促进电子商务的发展。将Web数据挖掘技术和电子商务两者有机结合起来,将会为企业更有效地确认目标市场,改进决策获得竞争优势提供帮助,有着很广阔的应用前景。参考文献:[1]WFMC.WFMC-TC-1003,theWorkflowReferenceModel[S],1995[2]MURATAT.PetriNets:Properties,AnalysisandApplications[J].ProceedingsoftheIEEE,1989,77(4):541-580[3]王实,高文,李锦涛.基于用户访问事务文法的序列关联规则发现[J].软件学报,2001,12(10):1503-1509[4]邹涛,王继成.上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024[5]王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,May2000,37(5):513-520[6]王实,高文.Web数据挖掘[J].计算机科学,2000,27(4):28-31[7]严潭.数据挖掘在电子商务中的应用[J].微计算机信息,2006,4-3:201-202