河南师范大学本科毕业论文基于电子商务个性化服务的数据挖掘技术研究摘要随着信息技术快速的发展和应用,我们已处于信息爆炸时代。同时,我们也面临着更加严峻的挑战。比如,目前电子商务推荐系统存在推荐策略单一、推荐自动化低、缺乏个性化的推荐等问题。针对这些不足,本文提出了根据产品和用户的不同特性设计和选择相应的推荐策略,建立一个系统的电子商务个性化服务体系,在这个系统中,将数据挖掘技术应用到电子商务个性化服务推荐模型中,分别设计不同的推荐策略和推荐模型,从而有效的满足电子商务系统中不同用户的各种推荐需求。本文分为三部分,前两部分讲述数据挖掘技术理论,最后一部分阐述电子商务个性化服务系统的实现。关键词数据挖掘;个性化推荐;推荐模型;电子商务;ResearchofPersonalizationE-commerceModelBasedonDataMiningAbstractWiththerapiddevelopmentandapplicationofinformation,wehavesteppedintoaninformationexplosionera.Atthesametime,wearefacedwithmoreseverechallenges.Forexample,atpresenttherehavesomeissuesinrecommendationsystemssuchassimplexrecommendationstrategyorlowdegreeofrecommendationautomatizationorlackofindividualitystrategy.toaddresstheseissues,thisthesispresentdifferentrecommendationstrategiesbasedcharacteristicoftheproductsandconsumersrespectively.ItapplydataminingintothestudyofpersonalizationE-commercemodel,whichdifferentrecommendationstrategiesandrecommendationmodelsaredesignedtosatisfytherecommendationdemandfromdifferentusers.Therethreepartsinthisarticle.Thefirsttwopartsdescribesthedataminingtechnologyandtheory,thelastpartintroducestherealizationofpersonalizationE-commercesystem.Keywordsdatamining;personalizedrecommendation;recommendationmodel;electroniccommerce前言Internet使计算机、网络、通信合而为一,使各种各样的信息均以数据的形式存储。这也让人们对数据探索的热情越来越高。60年代,大的物理流伴随着大信息流。传统的文件方式不能适应信息处理的需求,因此出现了数据库技术。90年代,人类积累的数据量以高于每月15%(或每年5.3倍)的速度增加,虽然web上的搜索引擎部分地解决了web的资源发现问题,但是其精确度不高,其结果远不能使人满意,更不能满足客户的个性化需求[1]。而且,数据海洋不能产生决策意志,为了进行决策,人们不断地扩大数据库能力,搜集海量数据,但这使得决策者更难于决策,因此出现了数据挖掘技术,以便从数据库中发现知识。国际上有影响的典型数据挖掘系统有SAS公司的EnterpriseMiner,IBM公司的河南师范大学本科毕业论文IntelligentMiner,SGI公司的SetMiner等。目前,随着商业web站点的快速增长而呈指数级增长的信息产生了信息过载问题。用户在产品之间选择的机会虽然在增加,但是同时增加的还有在选择出他们最中意的产品之前的信息处理负担。对用户而言,不得不用越来越多的时间浏览网络以发现他们需要的信息,同时对于企业而言,如何利用网络留住更多的客户是至关重要的。一个解决上述问题的方法就是使用数据挖掘技术对用户进行个性化推荐服务。通过这样的方法可以增加用户对该网站的忠诚度和满意度,以此留住顾客,增加企业竞争力。1Web挖掘分类很多电子商务网站都是一个巨大的、分布广泛的包含方方面面的信息服务中心,它不仅包含大量的文本、图片等数据信息还包含各种丰富的动态的超链接等,这为我们进行数据挖掘设置了一个很大的障碍。所以,为了能够在电子商务网站上挖掘出相关信息,则对web页面信息的组织就显得非常的必要。Web上的信息主要是3类:(1)Web页面中的内容,包括文本信息和各类媒体信息;(2)Web服务器上的用户登陆网站的访问日志数据;(3)Web页面中存在的超链接之间相互引用的数据。根据这3类不同的信息将Web数据挖掘分为Web内容挖掘、Web日志数据挖掘与Web结构挖掘。1.1Web内容挖掘(Webcontentmining)Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识及模式的过程,同时也可以对Web组织结构和链接关系进行挖掘,从人为的链接结构中获取有价值的知识。web内容挖掘的重点是页面的分类和聚类。Web页面的分类是指根据页面的不同特征,将其划分为事先建立起来的不同的类。Web上的信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,可以简单地分为Web文本信息和Web多媒体信息。针对所处理的Web信息对象,Web内容挖掘又可分为Web文本挖掘和Web多媒体挖掘。1.2Web日志数据挖掘(Webusagemining)Web日志挖掘又叫Web使用记录挖掘,是从用户存取模式中获取有价值的信息,对Web上日志数据及相关数据的挖掘来发现用户访问Web页面的模式。Web其他两类挖掘的对象是网上的原始数据,而Web日志挖掘面对的是在用户和网络互动过程中抽取出来的第二手数据,即代理服务器日志记录、网络服务器访问记录、浏览器访问记录、用户的个人简介、注册信息、用户提问式等。可以用基于扩展有向树模型来识别用户浏览序列模式,河南师范大学本科毕业论文从而进行Web日志挖掘;可以根据用户访问Web的记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面加快用户获取页面的速度。Web使用记录挖掘的主要目标则是从Web的访问记录中抽取感兴趣的模式。中的每个服务器都保留了访问日志(Webaccesslog)记录了关于用户访问和交互的信息分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务[2]。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。1.3Web结构挖掘(WebStructuremining)[3]整个Web空间中,Web结构包括不同网页之间的链接结构和一个网页内部的可以用HTML、XML表示成的树状或图状结构,以及文档URL中的目录结构等。挖掘Web结构的目的是发现页面的结构和Web间的结构。在此基础上对页面进行分类和聚类,从而找到权威页面,这种方法可以用来改进搜索引擎的工作方法。2电子商务个性化服务的数据挖掘方法访问信息挖掘是在电子商务上进行知识发现,最关键的是进行客户访问信息的挖掘,得到客户的浏览行为和访问模式,从而发现客户的兴趣、爱好等有用的市场信息,本系统针对不同的数据格式和类型使用不同的挖掘方法和工具,主要的策略有以下几种:(1)频繁路径分析。用于判断出在一个Web站点中最频繁访问的路径或网页,以此来优化网页结构,可以改进页面和网站目录结构的设计,使用户直奔所需,减少客户的流失率。(2)关联规则发现[4]。应用关联规则发现技术可以找到客户对网站上各种文件进行访问的相互关系。可以找到用户访问的页面与页面之间一般的相关性和规律性,可以更好的组织web空间结构,提高营销策略。比如70%的客户在访问页面1时会选择访问页面2这一关联性事务。(3)序列模式发现。通过时序分析和序列模式的挖掘来预测企业产品未来的销售情况。以及发掘潜在客户、促进产品销售。例如,根据前3个月企业产品的销售情况来预测下个月的销售情况:当客户在线购买一台个人电脑时,系统会根据挖掘出来的序列模式购买这种电脑的人在一个月以后很可能再来购买一台打印机,而建议他同时购买一台打印机。(4)分类。就是为具有某些公共属性的特定群体建立概要特征。这些特征可以用来对新增到数据库里的数据项进行分类。对用户分类后,就可以发现未来的潜在客户并开展有河南师范大学本科毕业论文针对性的商务活动。(5)聚类分析技术。聚类分析可以从服务器访问信息数据中聚集出具有相似特性的客户组,即把有相似特性的用户、数据项集合到一起。如自动给一个特定的顾客聚类发送销售邮件。通过这些举措使商务活动能够在一定程度上满足客户的个性化要求,实现目标营销。3电子商务中个性化服务系统的实现要实现个性化电子商务,就要在其中引入Web数据挖掘技术。基于Web的数据挖掘技术是实现个性化电子商务的关键技术。本文通过Web数据挖掘技术完成收集用户的各种信息,然后分析用户数据,进而创建符合用户特性的访问模式、需求模式和爱好模式,使个性化电子商务成为可能。电子商务网站个性化服务体系实质上就是一种以用户需求为中心的Web站点:该站点主要是将数据挖掘的思想和方法应用到Web服务器日志及Web数据库等资源上,挖掘出客户的访问规律,划分出具有相似兴趣的顾客群体。根据每一客户群体的不同特征构造出不同的兴趣模型,然后提供差异化的营销策略,进而实现个性化服务。3.1数据来源电子商务服务系统中的主要数据是Web日志、客户登记注册的数据以及产品数据等。其中,Web日志中存放了用户访问站点的原始记录。网络日志作为用户在网络中访问站点时所进行的各种操作的实时记录,是十分重要的信息。通过分析日志中用户的访问规律,可以识别用户的忠实度、喜好、满意度,通过应用数据挖掘技术,分析用户访问行为、信息需求取向等信息,进而整理归纳,可以发现潜在用户,实施有针对性的服务,为提高站点的竞争力提供了直观的依据(如图3.1)。图3.1数据来源数据源客户访问日志数据客户登记数据产品数据河南师范大学本科毕业论文3.2电子商务中个性化服务体系流程电子商务个性化服务体系主要有以下几个模块,对于Web数据的挖掘必须经过相应的处理流程(如图3.2)。图3.2服务体系流程图当用户通过浏览器访问该电子商务网站时,Web服务器接受客户端的请求,下载客户端构件,通过远程构件访问标准方法向应用服务器上的应用构件发出请求。Web数据挖掘服务器离线运行数据挖掘算法的程序,并将结果保存至数据库服务器。当Web服务器与应用服务器根据用户识别的结果向Web数据挖掘服务器请求个性化服务时,Web数据挖掘服务器向数据库服务器请求数据挖掘结果和推荐集,并反馈给Web服务器和应用服务器,最后将执行的结果反馈给用户。3.2.1用户信息搜集模块为了使数据挖掘模块有效工作,必须为它提供干净、准确、简洁的数据。然而,数据采集生成的原始信息流具有杂乱性、重复性和不完整性的特点。数据预处理是从大量的数据属性中提取出一部分对目标输出有重要影响的属性,即降低原始数据的维数,从而达到改善原始信息流中数据质量和提高数据挖掘速度的目的。数据预处理模块生成结果称为数据挖掘信息流[5]。用户信息搜集模块数据挖掘建模模块用户个性化服务模块用户推荐结果河南师范大学本科毕业论文数据预处理的基本功能包括数据集成、数据清理、数据变换和数据简化。数据采集生成的信息包括用户访问记录和从存储系统中提取的信息,