摘要随着电子商务应用的不断扩大,个性化服务也得到越来越多的重视,大量的商务软件产品都声称支持个性化。电子商务推荐系统是智能信息服务的体现,它能够在了解用户的短期和长期需求的基础上对用户定制信息的搜索和发送机制,并向用户有针对性的推荐商品。现有的推荐方法暴露出数据稀疏性问题,冷开始问题以及推荐质量低下等问题,这些问题使得当前的普通推荐系统不能准确的挖掘用户的兴趣,并将其最感兴趣的商品提供给用户。一本文提出一种集成语义信息的新型推荐方法,该方法提出建立商品的语义关联模型,该模型的结构通过一个行业语义信息训练中心的训练得到,最终产品的语义信息被提取出来集成到现有的基于项目的协同过滤方法中。该方法利用了协同过滤技术的利用其他用户的行为来提高信息的广度和精确度的特点,同时融合了语义过滤技术深层挖掘用户隐含兴趣的优点。本文利用RDF形式的本体来表达商品信息以及用户偏好信息,并设计了一种基于决策树的用户语义偏好模型,该模型基于商品行业离线建立,在线应用,定期更新,增强了推荐系统的实时性能。在上述工作的基础上,设计和开发了集成语义信息的电子商务推荐系统。该系统基于B/S模式,为客户和系统管理员提供了一系列的浏览和操作。结果显示该系统的集成语义推荐比已有的各种推荐系统更加符合现实世界中的个性化推荐,它能够深层次挖掘用户兴趣迎合用户偏好,很大程度上克服了推荐质量低下的问题。关键词:推荐系统协同过滤语义关联模型用户偏好RDFABSTRACT独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得叁鲞基茎或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:缔签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解..苤姿盘堂有关保窖、使用学位论文的规定。特授权墨鲞基堂:.可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关都门或机构送交论文的复印侔和磁盘。f保密的学位论文在解密后适用本授权说明)学位论文作者签名:姿苏导师签名:签字日期:Z川年二月l臼签字日期:≯刁年工月f日第一章绪论1.1研究背景第一章绪论随着Internet和电子商务的迅速发展,人们能够获得的信息越来越多,这一方面为我们的决策提供了更多的信息参考,但同时由于太多的信息量,用户花费在检索信息上的时间也更多了。为适应信息量急剧增加,迫切需要相应信息检一索技术产生。特别是在电子商务的虚拟环境下,由于供应链和物流的发展,商家在网上所能提供的商品种类和数量非常之多,但用户不可能通过一个小小的计算机屏幕一眼就知道感兴趣的商品。通常来说,用户既不愿意花太多时间漫无边际在网上寻·找自己想要的商品,也不可能像在物理环境下那样检查商品的质量。在这种情况下,用户就很希望电子商务系统能够具有一种类似采购助手的功能,可以根据用户的兴趣爱好自动地推荐给每个用户他们可能感兴趣而且满意的商品。在这种情况下,电子商务个性化推荐系统(PersonalizedRecommendationSystemforE-Commerce)应运而生。电子商务个性化推荐技术,尤其是协同过滤技术,构成了现有电子商务个性化推荐系统的基础。在这里,之所以强调个性化,是因为需要推荐系统能为每个用户推荐适合他们偏好和兴趣的产品,而不是千篇一律的推荐。电子商务推荐系统具有良好的发展和应用前景。目前,几乎所有大型的电子商务系统,如Amazon,CDNOW,eBay,dangdang等,都不同程度的使用了各种形式的推荐系统。各种提供个性化服务的Web站点也需要推荐系统的大力支持.在日趋激烈的竞争环境下,电子商务推荐系统能有效保留用户,提高电子商务系统的销售。成功的电子商务推荐系统将会产生巨大的经济效益。1.2电子商务推荐系统的研究内容与研究现状’1.2.1研究内容电子商务推荐系统的研究内容和研究方向主要包括Ⅲ嘲.1).推荐技术研究:目前主要的推荐技术主要包括基于内容的过滤和协同过第一章绪论滤两种。由于基于内容的过滤自身的局限性嘲嘲,协同过滤推荐技术是当前研究的主流。2).实时性研究:在大型电子商务推荐系统中,推荐系统的伸缩能力和实时性要求越来越难以保证。如何有效满足推荐系统的实时性要求得到了越来越多研究者的关注。·3).推荐质量研究:在大型电子商务系统中,用户评分数据极端稀疏。用户评分数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难以保证。4).多种数据多种技术的集成:当前大部分的电子商务推荐系统都只利用了一一部分可用信息来产生推荐。随着研究的深入,新型电子商务推荐系统应该利用尽可能多的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效的推荐服务。5).数据挖掘技术在推荐系统中的应用:随着研究的深入,各种数据挖掘技术(主要包括关联规则挖掘、序列模式挖掘、聚类分析、Bayesian分类等)在推荐系统中得到了广泛的应用.基于Web挖掘的推荐系统得到了越来越多研究者的关注。6).用户隐私保护研究:由于推荐系统需要分析用户的购买习惯和兴趣爱好,涉及到用户隐私问题,如何在提供推荐服务的同时有效保护用户隐私值得作进一步深入的研究。7).推荐系统可视化研究:推荐系统的目的是为用户提供服务,因此必须为用户提供友好的可视化服务界面.主要包括推荐结果可视化研究和推荐结果解释研究等方面的内容。1.2.2研究现状推荐系统中的推荐技术主要包括基于内容的过滤和协同过滤两种。基于内容的过滤是信息检索领域的重要研究内容∞儿引。基于内容过滤的推荐系统需要分析资源内容信息…哺1,根据用户兴趣建立用户档案(profile),然后根据资源内容与用户档案之间的相似性向用户提供推荐服务憎3。文uw提出使用智能代理技术分析用户的特定需求,提供推荐服务。Salton等人提出根据用户反馈自动更新用户档案u¨。Bayesian概率模型∞。、遗传算法归副以及其它机器学习技术也被广泛应用于用户档案的建立和更新.基于内容过滤的实验型推荐系统主要包括Malone等人提出的电子邮件信息过滤系统u”。Stanford大学提出的信息过滤工具SIFTu制、音乐过滤系统LyricTime¨副。SIFTER原形系统¨驯等。基于内容过滤的推荐技术具有一定的局限性u儿制。这主要表现在必须分析资第一章绪论源的内容信息,因此对音乐、图像、视频等信息无能为力;无法分析信息的质量;无法提供新颖的推荐。针对上述问题,研究者提出了协同过滤推荐技术‘3m73‘1砌‘1引。在早期的协同过滤推荐系统中,用户之间需要相互了解对方的兴趣爱好啪【删。随着研究的深入,研究者提出了自动化协同过滤推荐技术n钔‘211‘翻‘2引。推荐系统的推荐质量是推荐系统成功的关键。经典协同过滤推荐技术根据用户之间的相似性产生推荐结果Ⅲ儿划。Karypis等人瞄叫憎¨提出根据项之间的相似性提供推荐服务,从而有效提高推荐质量。文脚。中提出通过图搜索计算用户最近邻居的优化算法。文哪。提出对用户最近邻居和项均采用不同权重的方法改进推荐质量。文瞄副对各种用户间相似性度量方法进行了分析,提出了各种改进方法。用户评分数据的稀疏性是导致推荐系统推荐质量下降的主要原因删唧’。文瞄叼中提出使用奇异值分解技术减少项空间的维数,从而有效改善用户评分数据的稀疏性。文日u中提出通过对稀疏数据的关联分析可以有效提高推荐质量。文淄儿”1提出使用智能代理技术可以增加用户评分数据的稠密度。随着电子商务规模的扩大,推荐系统的实时性研究逐渐成为研究热点,得到了越多越多研究者的关注u儿副。Sarwar等人嵋划提出了基于关联规则挖掘的推荐系统。文‘吲中提出了基于Bayesian分类挖掘的推荐系统。文‘34H3钉‘361中提出使用聚类分析将用户划分为不同的组,从而有效减小搜索空间。文¨¨中提出通过项聚类分析,从而在用户评分数据的子集上搜索最近邻居。文嵋引中提出使用奇异值分解技术减少项空间的维数,提高最近邻居搜索速度。文嘲1提出了通过RecTree方法有效减小搜索空间,从而满足推荐系统的实时性要求。传统的协同过滤推荐技术根据用户显式评分产生推荐结果,用户使用不方便,许多研究者提出可以通过web挖掘技术获取用户隐式评分‘1儿羽。文‘3钔‘删提出通过web日志挖掘提供推荐服务。文H¨提出通过UP/,聚类产生推荐的方法。文Ⅲ1提出通过Web使用挖掘和Web使用内容挖掘提高推荐质量的方法。各种数据挖掘方法如关联规则挖掘技术‘433‘3引、聚类挖掘技术‘训‘451被广泛的应用于Web日志分析中以提高推荐精度。协同过滤推荐技术也存在自身的不足u儿副。主要表现在用户评分数据比较少的时候推荐质量比较低。因此基于多种数据多种技术的有效集成得到研究者的重视u儿副。Balabanovic等人…。提出通过基于内容的过滤和协同过滤的复合型推荐系统提高推荐质量。文m’中提出基于Web使用挖掘和web内容挖掘的推荐系统。文旧训∞副中提出同时使用智能代理技术和协同过滤技术提供推荐服务的方法。文H副中提出在推荐系统中增加产品语义信息,从而提高推荐系统的推荐质量。推荐系统是信息检索和信息过滤领域的研究热点,得到了许多著名研究机构第一章绪论和研究者的关注,以下是主要的研究型推荐系统实例:1).TYPESTRY:是XeroxPARC研究中心提出的一个研究型协同过滤推荐系统口1,用于过滤电子邮件、推荐电子新闻。TYPESTRY系统提供电子文档存储、用户评价存储和协同过滤推荐服务。在TYPESTRY系统中,设计了一种类似于SQL的查询语言TQL,用户的查询请求中必须明确指出与自己兴趣爱好相似的其他用户。由于用户之间必须了解对方的兴趣爱好,因此TYPESTRY推荐系统只适用于用户群体比较小的场合。2).ACF:ActiveCollaborativeFiltering系统是Carnegie-Mellon大学开发的主动协同过滤推荐系统L20J,,用于电子文档推荐。ACF系统通过指针实现协同过滤推荐服务,指针包含指向电子文档的超链接、电子文档的上下文信息以及用户撰写的电子文档评论。在才cT系统中,用户可以通过主动的方式将创建的指针推荐给其他可能感兴趣的用户,也可以将创建的指针保存在系统中供其他用户查看。ACF系统也只适用于用户群体比较小的场合。3).GroupLens:由MIT开发的自动协同过滤推荐系统u引u剀。用于新闻组信息推荐。GroupLens系统通过用户的评分信息自动搜索用户的最近邻居,然后根据最近邻居的评分信息产生最终的推荐结果,适合于用户数量比较大的场合。GroupLens系统具有极好的开放性,用户可以通过GroupLens系统提供的API函数晦]GroupLens服务器提供评分信息,请求推荐结果。同时,GroupLens系统提供三种客户端工具EmacsGnus、NN和NewsWatcher达到上述目的。’.4).MovieLens:是Minnesota大学开发的研究型自动协同过滤推荐系统H儿酬珏劓,用于推荐电影。与GroupLens不同,MovieLens系统是一个基于Web的推荐系统,系统通过浏览器的方式进行用户评分数据收集与推荐结果显示,用户使用更加方便。5).Ringo:由MIT媒体实验室开发的研究型协同过滤推荐系统咄。,用于提供个性化的音乐推荐服务。Ringo系统可以向用户推荐用户最喜欢的音乐,预测用户最不喜欢的音乐,也可以预测用户对特定音乐的评分。6).VideoRecommender:是BellCore开发的协同过滤推荐系统嵋¨,用于电影推荐。VideoRecommender系统通过电子邮件的方式收集用户评分数据,提供推荐服务.在VideoRecommender系统中,不仅可以预测用户最喜欢的电影,也可以预测用户对特定电影的评分。在VideoRecommender系统提供推荐结果时,同时向用户提供用户最