浅谈Web使用模式挖掘在优化网站设计中的应用摘要:在当今迅速发展的社会中,随着网络技术和计算机技术的迅猛发展,越来越多的人们把网络作为主要获取信息的平台,从众多实例分析,以档案馆为例,从他们的角度出发,能够建一个结构合理的档案网站并有效的提供档案的利用服务;从客户的角度来看,更加希望能方便和快捷的从档案网站中快速的获取有价值的档案和信息,如果档案的工作者能跟踪并分析用户在档案网站上的浏览行为,就有助于建立智能化的web站点并从而来优化站点结构,从而进行有针对性的开展网络档案的智能服务。关键词:Web使用模式挖掘在网络档案服务中的应用未来的发展方向随着网络技术的不断发展,通过网络获取档案信息已经成为大多数人们的首选方式。越来越多的档案馆已经注意到了网络在提供档案服务方面的重要性和快捷性,并投入物力、人力和财力加强其对网站的建设。尽管如此,网络档案服务的现状仍不容乐观,快捷的网络档案服务、对如何为人们提供方便值得进一步的研究和探讨。Web的使用模式挖掘技术是当今社会的一种新兴的技术,在网络档案服务中应用这一技术来帮助档案工作者了解用户的需求和特征,一方面优化站点结构,促进档案网站的建设,另一方面是可以根据用户的需求和特征,主动提供具有针对性的个性化网络档案服务,从而满足对人们的要求。一、web模式的挖掘使用Web模式来挖掘数据的起源,就是所谓挖掘的对象,包括:Web服务器日志(服务器日志、引用日志和代理日志)、Web站点的站点文件和拓扑结构、用户调查信息、用户注册信息、Cookies以及与网站服务相关的一切数据库的数据等等。这些数据可以来源于服务器端、代理服务器端、客户端或者其他的数据库。Web使用模式的挖掘是通过对用户浏览网站的使用数据进行分析、收集和处理,对其建立用户行为和兴趣模型,这些模型能够帮助和理解用户的行为,对其改进站点结构和为用户更好的提供个性化信息服务。(一)从数据处理上看数据预处理的质量与使用模式挖掘的效率和结果是紧密相关的。(1)数据清洗:主要以删除数据源和使用模式挖掘不相关的冗余数据,并判断是否还有重要的访问还没有被记录、对用户在访问页面时发生错误的记录进行处理等。同时也要对数据的属性进行必要的删除,只留下与挖掘相关的数据属性。对数据的清洗也可以通过对定义库进行定义的办法来实现,而这个规则库可以根据对网站的分析情况进行设定。(2)用户识别:主要借助用户的注册信息、用户端的浏览器软件或操作系统中的信息,并在大量的数据中找出属于同一用户的材料和记录,然后将其进行整理与归纳。(3)事务识别:用户的会话对数据的挖掘来讲,仍然是不够精确,还显得有点粗糙,那么事务的识别将是把用户的会话转变成更精确的,更小的,对于用户在访问事务方面有一定的语义性,它是用户为访问一定的信息所点击的页面序列。使其最终能达到为人们进行良好的服务为目的。(二)模式的识别通常用web模式来挖掘特有的路径分析技术,例如常用的关联规划、统计分析、序列模式等。通过路径的分析我们可以发现在web中最经常被访问的路径,从而对站点结构进行有效的调整,而统计分析则有助于增强系统的安全性能,更便于站点的修改和提供决策的支持,通过Web日志相关联的规则挖掘,可以发现站点各页面和访问用户之间的关系,并找出在某次服务器会话中经常出现的一些网页,即支持度超过预设阈值的一组网页。时序模式发现是根据一段时间的Web使用记录来分析是否存在一定趋势,从而预测未来的访问模式。进而来加强web页面对相应的问题来进行针对性的网络服务。二、在档案服务中的应用(一)档案网站结构的优化在档案网站建设的过程中,在开始时要了解用户的需求,构建科学合理的网站结构,从而方便用户的访问,更需要在网站运行的过程中,不断地分析和了解用户的访问偏好和模式,面向用户进行网站结构的优化,从而来实现网络档案服务的最优化。Web使用模式挖掘技术则是实现这一目标的重中之重。从而改善站点结构,提高站点的服务质量。还可以根据单位时间内访问量的时间分布、访问频度等,来改进系统的性能和结构。(二)促进对用户的分析和研究在当今网络时代里,要想充分的做好网络档案的服务工作,就必须加强对网络档案用户的研究与分析,把客户的资料进行收集、整理、分析和处理,要做到知己知彼,才能够做出让人们称好的服务,要了解用户的兴趣所在,才能抓住其思想,走在最前面,才能制定出特定的宣传策略或提供个性化定制服务。三、未来的发展(一)页面代码优化精简代码,从而减少页面的体积,使网页可以得到更快的下载,而且还影响到搜索引擎对该页面的收录及影响网站的排名。搜索引擎主要倾向于在页面文件开始的地方查找其本页相关联性的内容,而不是文件的正文。因此要做到代码和页面分离,把重要的页面内容放到页面顶部,以缩小文件体积,从而提高在有效的内容占页面体积的百分比,从而提高关键词在页面中的比重,以利于搜索引擎快速准确地抓取信息。(二)网站逻辑结构的优化网站的链接机构主要是以网页之间链接所形成的逻辑或链接的网状结构。其网站地图是所有页面快速入口,是搜索引擎更全面索引收录网站的重要因素。它可以方便搜索引擎蜘蛛快速遍历网站所有需要发布的内容。动态生成目录的网站尤其需要创建网站地图。网站地图的导航能力会使访问者更容易找到所需的东西,且有利于搜索引擎收录更多的页面以及在搜索引擎中得到更高的PR值。将有助于搜索引擎蜘蛛更快地便利网站。结束语:目前各大搜索引擎都采用了Web结构挖掘技术,是为了提升网站在各大搜索引擎中的排名,用户应使用Web结构挖掘技术来对自身网站进行评估,发现自身网站结构的不足,并对优化网站结构提供决策依据。发掘更多有效用户的目的。随着电子商务迅猛地发展,企业更应该重视并采用这种被挖掘的技术,以提高自身网站的价值。参考文献:[1]高岩,胡静涛.Web数据挖掘的原理、方法及用途[J].现代图书情报技术,2002(03)[2]赵江南.XML及其在Web数据挖掘技术中的应用[J].华南金融电脑,2004(03)[3]尤超常.浅谈WEB数据挖掘[J].中国科技信息,2005(04)