基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路简介主要问题:浏览过程中总是会出现一些自己毫不关心的话题解决方法:以网站为中心-以用户为中心提供个性化服务个性化服务(Personalization)[1]尽可能使得自己的每个用户在浏览该商业网站时都有他就是该网站的唯一用户的感觉尽可能地迎合每个用户的浏览兴趣并且不断调整自己来适应用户浏览兴趣的变化Web挖掘的定义[1]Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息WebminingistheuseofdataminingtechniquestoautomaticallydiscoverandextractinformationfromWebdocumentsandservicesWeb挖掘(WebMining)分类[2]Web使用挖掘Web内容挖掘Web结构挖掘个性化服务的表现形式推荐的超链接列表推荐的商品列表(电子商务)推荐的广告列表经裁剪的文本或图像列表基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路个性化服务技术协同过滤技术(CF,CollaborativeFiltering)数据挖掘技术(DM,DataMining)协同过滤技术[3]KNN技术(K-NearestNeighboring)基于聚类(Clustering-based)的协同过滤基于项目(Item-based)的协同过滤协同过滤技术的缺陷需要用户提供主观的评价信息不能处理大规模的数据量用户的评价信息可能会过时使用不方便数据挖掘技术关联规则(AssociationRules)发现序列模式(SequencePattern)发现聚类(Clustering)技术Web挖掘(WebMining)技术Web挖掘技术的优点不需要用户提供主观的评价信息可以处理大规模的数据量用户访问模式动态获取,不会过时使用方便基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路基于Web的个性化服务基于Web使用挖掘的个性化服务基于Web使用挖掘和Web内容挖掘的个性化服务基于Web使用挖掘的个性化[4]基本思路:分析Web日志数据,利用数据挖掘方法发现用户的使用模式,从而向用户提供个性化服务基本过程离线部分数据预处理总体使用特征获取在线部分推荐引擎数据预处理[5]数据清洗(DataCleaning)会话识别(SessionIdentification)浏览页识别(PageviewIdentification)事务识别(TransactionIdentification)路径完善(PathCompletion)用户识别(UserIdentification)数据预处理的结果浏览页集合P表示为:P={p1,p2,…,pn}用户事务集合T表示为:T={t1,t2,…,tm}每一个事务tT均表示为为浏览页集合P的n维向量:t=w(p1,t),w(p2,t),…,w(pn,t)总体特征获取使用聚类算法得到不同的事务聚类同一个事务聚类内用户之间的浏览模式尽可能相似,而不同事务聚类中用户之间的浏览模式尽可能不同给定事务聚类c和显著性阈值,事务聚类c的总体使用特征prc的计算方法如下:prc={p,weight(p,prc)|pP,weight(p,prc)}weight(p,prc)=推荐引擎根据当前的用户会话产生实时的推荐集用户当前会话S可以表示为:S={s1,s2,…,sn}总体使用特征C可以表示为:C={w1C,w2C,…,wnC}推荐引擎使用余弦相似性函数来计算C和S之间的匹配系数:计算浏览页p的推荐系数Rec(S,p):基于Web使用挖掘和Web内容挖掘的个性化[6]基于Web使用挖掘的个性化服务的问题:商业网站的用户使用数据比较少网站内容变化比较频繁基本思路:在基于Web使用挖掘的基础上,根据浏览页内容之间的相似性为用户提供个性化服务基本过程离线部分数据预处理内容特征获取在线部分推荐引擎数据预处理从文本数据和元数据中抽取内容特征内容特征权重的计算方法:元数据而的权重由商业网站的设计者提供文本内容特征而言的权重由词频反文献频率(TFIDF)确定数据预处理的结果浏览页p表示为内容特征空间上的k维向量:p=fw(p,f1),fw(p,f2),…,fw(p,fk)fw(p,fi)为浏览页p在特征fi上的权重必须对将元数据与文本内容特征进行一致化处理内容特征获取浏览页内容特征矩阵的行列互换,每个内容特征看作浏览页空间上的n维向量使用聚类算法对内容特征进行聚类,每一个内容特征聚类ci由一系列内容特征组成给定内容特征聚类G和显著性阈值r,其内容特征CG的方法如下:CG={p,weight(p,CG)|pP,weight(p,CG)r}weight(p,CG)=推荐引擎用户当前会话S可以表示为:S={s1,s2,…,sn}内容特征C可以表示为:C={w1C,w2C,…,wnC}推荐引擎使用余弦相似性函数来计算C和S之间的匹配系数:计算浏览页p的推荐系数Rec(S,p):基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路基于Web的个性化服务基本思路:在上述个性化服务的基础上进一步引入Web结构挖掘如果有许多浏览页都同时链接到浏览页A和浏览页B,则可以认为浏览页A和浏览页B之间具有一定的相关性,如果一个用户访问了浏览页A,则浏览页B对该用户而言很可能是有价值的,从而可以在推荐列表中加上浏览页B基本过程离线部分数据预处理结构特征获取在线部分推荐引擎数据预处理通过Crawler构造出网站内部浏览页之间的相互链接情况每个浏览页p可以表示为所有浏览页空间上的n维向量:p=sw(p,p1),sw(p,p2),…,sw(p,pn)结构特征获取使用聚类算法对结构特征进行聚类,每一个结构特征聚类ci由一系列结构特征组成给定结构聚类s和显著性阈值v,其结构特征prs的计算方法如下:prs={p,weight(p,prs)|pP,weight(p,prs)}weight(p,prs)=Reference:M.PerkowitzandO.Etzioni.AdaptiveWebsites:automaticallysynthesizingWebpages.InProceedingsof15thNationalConferenceonArtificialIntelligence,Madison,WI,1998.S.Chakrabart.Dataminingforhypertext:Atutorialsurvey.ACMSIGKDDExplorations,1(2),pages1--11,2000.D.DillsusandM.J.Pazzani.LearningCollaborativeInformationFilters.InProceedingsofICML’98.Pp.46-53.B.Mobasher.AWebpersonalizationenginebasedonusertransactionclustering.InProceedingsofthe9thWorkshoponInformationTechnologiesandSystems(WITS’99),December1999.R.Cooley,B.Mobasher,andJ.Srivastava.DataPreparationforminingWorldWideWebbrowsingpatterns.JournalofKnowledgeandInformationSystems,(1)1,1999.B.Mobasher,H.Dai,T.Luo,Y.Sun,andJ.Zhou.IntegratingWebUsageandContentMiningforMoreEffectivePersonalization.inProceedingsoftheInternationalConferenceonE-CommerceandWebTechnologies(ECWeb2000),September2000,Greenwich,UK.