重庆大学硕士学位论文个性化服务中用户兴趣模型的研究姓名:裴仰军申请学位级别:硕士专业:计算机软件与理论指导教师:朱征宇20050501重庆大学硕士学位论文中文摘要I摘要近年来,随着Internet上数据量的大量增加,人们对数据的需求也越来越专业化,个性化服务技术的出现正好可以在一定的程度上解决Internet中信息的多样化与用户需求的专一化之间的予盾,用户兴趣建模技术作为个性化服务的核心问题,主要是研究如何有效地组织用户的兴趣源,用户兴趣的表示,更新,存储以及计算,本论文主要是从以下几个方面作了研究,并通过大量的实验,验证了其有效性。(一)问题的提出。通过对传统用户兴趣模型的大量研究,提出了不同于以往基于标准分类树或文档训练集合的用户兴趣分类方法,即基于用户浏览页面的直接分类方法。(二)用户数据的收集。数据收集工作,在用户兴趣模型建设中是一项基础而重要的工作,主要任务是收集用户浏览页面的集合和用户在页面上的行为记录,并进行整理和组织;本文在分析利用现有各种基本数据收集技术基础上,形成了一套富有成效的数据收集方法。包括如何对收集到的文档进行标准化、如何对页面进行清洗、如何根据领域字典进行特征词的提取、如何统计特征词的词频、以及如何将其表示成文档特征向量矩阵形式等;为收集用户的行为数据,则采用了在客户端设计一个可以捕捉用户行为数据的浏览器插件的方法,在每次用户浏览结束时该插件能够把用户在该页面的操作序列进行统计保存。(三)特征权值的计算。对基于页面内容的特征权值计算本文分析采用了一种改进的TF-IDF-IG公式;对用户行为与网页兴趣度的关系计算,则是采用建立用户行为回归方程方式,然后根据回归方程计算出用户对所浏览页面的兴趣度;最后把计算出的基于页面内容的特征词权值和用户对页面的兴趣度合成一个完整的文档特征向量的特征权值,表示成页面特征向量矩阵。(四)用户兴趣模型及生成。通过对层次聚类和k-means聚类方法的比较,提出了组合层次聚类算法来生成用户兴趣树,该算法有效地避免了层次聚类的合并或分裂的缺点,同时也避免了k-means聚类易陷入局部最有解的缺点,通过实验验证,本文研究用户兴趣模型对计算页面兴趣分类和相似度的准确度上有较大的提高。该论文研究提出的用户兴趣模型,可以用在用户个性化信息服务领域、客户信息管理、电子商务、以及数据挖掘领域。关键词:个性化,用户模型,向量空间模型,组合层次聚类重庆大学硕士学位论文英文摘要IIABSTRACTWiththegreatincreaseofdataontheInternetinrecentyears,people’sdemandfordatabecomesmoreandmorespecialized.Thepersonalizedservicetechnologycanbeappliedtoremovethecontradictionbetweenthediversificationofinformationandthespecializationoftheusers’demand.Asacentralconcerninpersonalizedservice,theUsers’InterestConstructionModelTechnologymainlyaimstoprobeintohowtoorganizetheusers’interestsourceseffectivelyandhowtoindicate,upgrade,storeandcalculatetheusers’interest.Thisdissertationplanstomakeastudyfromthefollowingaspectsandtriestoprovetheeffectivenessofthetechnologybyconductingaseriesofexperiments.First,Propositionofthequestion.Throughalargeamountofresearchesoftraditionaluserinterestmodel,thisthesishaveproposedanewmethodofcategorizeduserinterestwhichisdifferentfromthemethodbasedonStandardclasstreeorfilesdisciplineaggregation,thatisthedirectcategorizedmethodbasedontheuserbrowsedpage.Second,Collectionofinitialdata.Itistocollectuserpagesetanduserbehaviorrecordinpagesthatdatacollectionworks.Thecollectionofpageismainlydonethroughclient-sideandseverside.Frististostandardizevariouskindsoffilescollected.Secondistocleanthepage,whichmainlyremovesstopwordsandvariouskindsoffilelabelsinpages,andcountsthefrequencyofthecharacterwordsbasedontheabstractionofthecharacterwordsbythefielddictionary.Theuserbehaviordataiscollectedthroughadesignofbrowserplugwhichcancatchuserbehaviordatainclient-side,andcountsandkeepstheoperationarrayofthispagewhenuserfinishingbrowseeachtime.Third,Calculationofthecharacterweight.ThecalculationofthecharacterweightbasedonpagecontentadoptstheTF-IDF-IGformula,whilethecalculationoftheinterestdegreeofuserbehaviorisbasedontheregressiveAnalysisequationofuserbehaviouserbehavior.Thenonthebasisoftheinterestdegree,theintegratedvectorialfeaturefilescharacterweightiscalculatedbythecombinationofthepagecontentdataanduserbehaviorequation.Finally,integratedvectorialfeaturematrixofthepageisdrawnout.Fourth,Formulationofuserinterestmodel.CombinedLevelClusteringis重庆大学硕士学位论文英文摘要IIIproposedbycomparingthelevelClusteringandk-meansClusteringmethod.ThisalgorithmeffectivelyavoidsthedisadvantageoftheamalgamationordivisionofthelevelClustering,andpreventsk-meansclusteringfrombeingapttosolvesomlyandoptimumly.Thevalidityisalsoprovedbyexperiments.Userinterestmodelthatthisthesisstudiescanbeusedinthefieldofuser'sindividualizedinformationservice,customerinformationmanagement,e-commerce,anddatumexcavate,sothisresearchisofgoodapplyingvalueandreferencevalueinreallife.Keywords:Personalization,UserProfile,VectorSpaceModel,CombinedLevelClustering重庆大学硕士学位论文1绪论11绪论1.1个性化服务研究现状随着Internet的进一步发展与用户需求的专门化、垂直化,激发了Internet中信息的多样化且无序性与用户需求的专一性之间的矛盾。由于这一矛盾的存在,一方面造成了信息资源的巨大浪费,另一方面为用户查询所需要的信息造成了极大的困难。于是寻找一种快捷有效的方式,引导人们在信息海洋中确认正确的方向,充分利用Internet网上的宝贵资源是解决这一矛盾的关键。个性化服务理念的引入,为Internet信息服务的理论与技术提供了一种全新的思路,开拓了一种新的服务模式。①什么是个性化服务[1]个性化是使事物具有个性,或者使其个性凸显。这里包含了两层含义,其一,个性是需要经过培养而逐步形成的。这个过程我们可以称之为使个体个性化的一个过程;其二,个体总是具有一定的个性的,让这种个性得到别人的了解、认可,并在一定的空间得以体现、展示,是每个个体都拥有的潜在需求,这个过程我们也称之为个性化的过程。那么什么是个性化信息,这个概念可从两个角度来分析。其一,个性化信息是指反映人类个性特性的一切信息,这些信息包括了这个个体的各种属性的描述;其二,个性化信息是指由人类个体特性所决定的其对信息的需求的一种信息组合,也就是由人类个性对信息需求的决定关系而产生的一系列对个体有用的信息,个性化信息服务既是一种个性化服务,又是一种信息服务。因此,我们可根据前面阐述的两种个性化过程和两类个性化信息,找到个性化信息服务的定位。个性化信息服务首先应该是能够满足用户的个体信息需求的一种服务,即根据用户提出的明确要求提供信息服务,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的信息服务。其次,个性化信息服务应能够根据用户的知识结构、心理倾向、信息需求和行为方式等来充分激励用户需求、促进用户有效检索和获取信息,促进用户对信息的有效利用并在此基础上进行知识创新。②个性化服务的实现为了实现个性化服务,首先需要跟踪和学习用户的兴趣和行为,并设计一种合适的表达方式,然后把网上用户感兴趣的资源推荐给用户。为了更加有效准确的把这些信息推荐给用户,必须组织好资源,选取资源的特征,并采用合适的推荐方式,考虑系统的体系结构,在服务器端、客户端和代理服务器端实现的利弊,下文主要是从用户描述文件的表达与更新、资源描述文件的表达、个性化推荐及重庆大学硕士学位论文1绪论2体系结构等方面进行讨论。为了得到用户的兴趣与行为,有必要对每一个用户的兴趣和行为进行一定捕获,并为每一个用户建立一个用户描述文件(UserProfile)[2]、用户描述文件主要是用来刻画用户的特征与用户之间的关系;在目前的用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型[3],基于兴趣的用户描述文件有加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等;基于行为的用户描述文件可以表示为用户浏览模式或访问模式。资源描述与用户的描述密切相关,一般的做法是用同样的机制来表达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来表示。个性化推荐可经常采用的技术有基于规则的技术、基于内容过滤的技术、协作过滤技术。基于Web的个性化服务体系结构和用户描述文件分布的位置有很大的关系。用户描述文件可以存放在服务器或端客户端,大部分个性化服务系统的用户描述文件都存放在服务器端,比如SyskillWebert,L