基于用户访问模式的自适应站点的研究与设计【摘要】:在互联网日趋发展的今天,万维网已经成为人们信息传播、交流以及信息共享的主流媒体。随着Web站点数目的日益增长,其复杂度以及信息量也日趋上升,造成信息超载但知识贫乏的局面是无容置疑的。现有的网站大部分都是以“网页”为中心构架与组织的,用户首先必须经过一系列的导航页面才能到达其所想到达的页面,这样既浪费了用户的时间,也给服务器带来许多不必要的负担。如果网站能够自动的学习用户的访问模式,改进其自身的组织结构或表现形式,这将给用户带来很大的方便,这就是所谓的自适应站点。自适应站点的目的是根据用户的访问模式适时的改变推荐的页面或是站点的结构,快速的满足用户的需求。因此,基于数据挖掘技术的思想以及现有的对自适应站点研究的基础上,本文从理论和实践的角度出发,研究设计了一个基于用户访问模式的Web自适应站点。系统在PageGather算法思想的基础上,大胆地引进模糊聚类算法以及向前向后两种算法,力争将“质量最高”,“数量最少”,“准确率最高”的页面链接呈现给用户。为了验证算法的有效性,本文使用MikePerkowitz等人设计的MusicMachine系统中用户的访问日志作为测试的数据集,文中实验验证了该算法的有效性。并且在本文的最后,设计和实现了基于用户访问模式的自适应网站-“大学网”。根据“大学网”的开发过程,详细介绍了系统的需求分析,系统的设计,数据库设计,以及系统的具体实现。实验表明,该算法能够很好地应用于“大学网”,并对页面链接的推荐取得了理想的效果。【关键词】:数据挖掘自适应站点模糊聚类算法向前向后聚类算法【学位授予单位】:山西财经大学【学位级别】:硕士【学位授予年份】:2011【分类号】:TP393.09【目录】:摘要6-7ABSTRACT7-101绪论10-151.1研究背景及意义10-121.2国内外研究现状12-141.3本文完成的主要研究工作141.4本文的组织结构14-152数据挖掘和自适应站点技术15-242.1数据挖掘15-182.1.1数据挖掘的定义及任务15-162.1.2数据挖掘采用的方法和技术16-172.1.3数据挖掘的具体步骤17-182.2WEB数据挖掘18-212.2.1Web数据挖掘的定义及分类19-202.2.2Web访问模式挖掘的过程20-212.3自适应站点的结构设计21-242.3.1自适应站点的概述212.3.2自适应网站的设计原则21-222.3.3自适应站点的整体结构22-243自适应网站的算法描述与实现24-443.1数据预处理24-283.1.1数据清理243.1.2用户识别24-253.1.3会话识别及补全路径25-263.1.4事务识别26-283.2页面聚类算法28-323.2.1PageGather聚类算法28-293.2.2模糊聚类算法29-313.2.3算法的实现31-323.3页面推荐算法32-383.3.1马尔可夫链32-333.3.2隐马尔可夫模型(HMM)33-343.3.3算法的实现34-383.4候选页面集的生成383.5实验过程38-443.5.1实验数据集383.5.2实验步骤38-444基于用户访问模式的WEB自适应站点系统的实现44-534.1系统需求444.2系统设计44-504.2.1系统的构架44-454.2.2系统开发环境45-464.2.3系统的功能设计46-474.2.4系统后台数据库设计47-504.3系统的实现50-534.3.1后台管理模块的实现50-514.3.2信息查询模块的实现51-524.3.3链接推荐模块的实现52-53结论53-55参考文献55-60致谢60-62附录62-72攻读硕士学位期间发表的论文72本论文购买请联系页眉网站。