基于移动互联网日志的搜索引擎用户行为研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于移动互联网日志的搜索引擎用户行为研究摘要:随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验具有重要意义。该文选取某移动搜索引擎2011年6月第一周的日志,对移动互联网用户搜索行为进行分析和研究。我们从查询词分析、会话分析以及用户点击分析3个角度出发,对查询词长度和频度、问题式查询和网址查询比例、会话内查询个数、查询词修改方式以及用户点击位置进行研究,并与互联网搜索引擎相应指标进行对比。相关分析结论对于移动搜索引擎算法改进与系统优化具有一定参考意义。关键词:移动搜索引擎;搜索引擎日志;用户行为分析1引言随着通信技术的进步、终端设备硬件水平的提升以及三网融合政策的逐步推进,移动互联网得到迅速发展,网络应用内容进一步增加,用户应用体验不断提高,我国由此进入移动互联网的大时代。据CNNIC第29次中国互联网络发展状况统计报告n]显示,截至2011年12月底,中国手机网民规模达到3.56亿,占整体网民比例的69.3,用户规模增速已超过宽带用户。鉴于如此大规模的用户,互联网应用提供商纷纷布局移动互联网,主流应用提供商均推出了相应的WAP版本或客户端,为客户提供移动互联网服务,以移动搜索为代表的信息获取已发展为移动互联网的主流应用。当前,移动搜索引擎用户数量众多,应用门槛较低,适用范围较广。在未来竞争中,搜索结果的精确程度与个性化服务将会成为保持用户黏性的重要因素。为提高搜索准确性,移动搜索服务提供商需要挖掘用户特点和行为习惯,预测用户潜在需求,以应对市场竞争。移动互联网搜索服务提供商每天记录大量的用户搜索数据,比如访问者唯一标志符、检索词、点击页面、访问时间等,这些数据构成了搜索引擎日志。搜索引擎日志包含很多对服务商非常有用的信息,可以反映出用户的兴趣及其行为特点,是研究搜索引擎用户行为的重要载体。本文将通过对一周内中文移动搜索引擎日志的分析,研究真实环境下移动搜索引擎用户的行为特点。本文安排如下:第2节总结目前搜索引擎用户行为的研究现状;第3节介绍本文使用的移动互联网搜索引擎日志数据;第4节根据上述日志数据进行实证分析,分别研究移动互联网环境下用户查询行为与用户点击行为;最后进行总结和展望。2相关工作概述目前,对互联网的大规模搜索引擎日志的用户行为分析已有一些研究成果,主要集中在搜索引擎用户独立查询、查询会话分析以及用户点击行为等方面,但基于移动互联网的用户行为分析相对极少。Silverstein等(1998)对AltaVista用户检索行为进行分析,提出在一个查询会话中,用户只进行一次点击的大约占63.8,约有35.2的用户对于搜索词进行了完全的改变,12的用户增加或减少了搜索词的数目[123。SoyeonPark等(2005)选取韩国著名搜索引擎NAVER一周内的日志数据,经过会话识别、查询分类、数据预处理等操作后,对用户检索行为进行分析,结果显示同一会话中用户输入的查询倾向于彻底更换查询内容,而不是增删检索词项或修改检索词项。Liwei等(2011)统计了同一会话中检索词的个数,发现同一会话中只有一个检索词的会话占所有会话数的70.8669,6。王继民等(2004)选取北大天网的用户日志,对用户访问时间、用户查询类型、用户查询长度、用户点击次数进行了统计分析,结论表明用户访问时间分布并不均等,多数用户只输入一个词项查询。余慧佳等(2007)选取搜狗搜索引擎一个月内的查询日志,就用户查询长度、查询频度、查询会话内的查询数目、查询会话内的查询内容以及用户点击行为进行了分析,将相应特征同英文搜索引擎用户行为进行对比,发现中文搜索引擎用户使用高级检索的比例远远低于英文搜索引擎,查询重复率远高于英文搜索引擎。岑荣伟等(2OLO)在文献工作的基础上,对用户搜索需求进行区分,从查询集合中提取了导航集和色情集这两类特殊的查询集合,针对不同检索目的对上述统计特征进行分析。针对以上工作中用户查询会话分析的不足,王晓春等(2011)定义了8种查询修改,在查询会话基础上分析了查询修改动作、用户点击结果数同查询修改次数之间的关系,发现查询修改动作和查询修改次数有关,而点击结果数量保持稳定。张磊等(2009)对于现有的网页搜索引擎查询日志中查询会话的划分方法进行了分析和总结,提出了可以使用时间作为划分会话的一种标准。马少平等(2011)基于搜狗搜索引擎2006年至·2011年的搜索日志,对用户查询行为与用户点击行为进行分析,分析总结了中文搜索引擎用户行为的演化规律。而移动搜索引擎同桌面搜索引擎存在一定的差异,如用户可以不受固定终端限制,随时随地搜索信息,具有很强的时效性;移动搜索可以同定位服务相结合,为用户提供更具针对性以及精确的服务;移动搜索屏幕有限,每页显示结果数量有限。这些差异在搜索引擎的使用上造成了一些不同,因此有必要对移动搜索引擎的用户行为进行分析,帮助移动搜索算法的改进,更好地为用户服务。3实验数据本文实验数据取自于某无线搜索服务提供商2011年6月1日至2011年6月7日共一周的日志记录。其中日志中每条查询记录的格式如表1所示。为正确把握基于移动搜索引擎的用户行为特征,本文首先进行了数据处理,其中有以下几个问题需要说明。(1)cookie问题。由于该无线搜索服务提供商采用cookie技术标识用户,本文假定用户不主动删除cookie,则同一用户仅拥有一个cookie,不同用户拥有不同cookie,cookie作为用户唯一标志;(2)数据格式问题。考虑到用户的异常操作,日志文件中存在极少量异常数据,如用户cookie格式错误等,在数据处理时,本文将cookie格式有误,检索词长度大于100以及URL长度大于600的记录予以删除。4基于日志的用户行为研究经过数据处理之后,我们共得到4997416条查询记录,其中含用户1751612个,非重复查询971197个,非重复网页1613762个,查询会话2317215个。4.1查询词分析4.1.1查询词长度查询词长度在本文中定义为用户查询词中被空格所隔开的词语或字的个数。本文从两个层面分析查询词长度:一为分词之前,即用户自主输入的用空格分开的查询词长度;二为分词之后词语个数。本文在进行用户查询词分词操作时,充分考虑了用户查询需求以及这一时间段内的热点话题,将常用名词如人名、流行词、导航网址以及游戏名称等导入分词词典,提高分词准确率。分析结果表明,分词之前查询词平均长度为1.10个词,分词之后查询词长度为3.45个词,这与文献中关于互联网搜索引擎平均查询长度的分析相一致。图1显示了查询词长度和相应查询数量之间的变化情况。通过对图1进行分析,分词之前,用户查询词长度多为1个词,占总数的91.919,6;而分词之后查询词长度为2和3的检索数目相对较多,查询词长度为1和4的检索数目相对较少,但其差距不是很大。查询词长度在5以及5以上的检索数目在分词之前数量极少,但在分词之后占了总数的23。通过上述对比可以看到,用户往往习惯直接输入一个短语或短句进行搜索,没有自主分词行为,这一点与互联网搜索是一致的。但是,就查询词长度分布而言,查询词长度在分词之前集中在1个词,分词之后查询词长度分布比较均匀,这与互联网搜索中查询词长度同用户数目呈指数分布这一点是截然不同的。4.1.2查询词频度查询词频度指的是在这一段时间内,该查询词一共被提交的次数。本文对查询次数排名前200的查询词,将其检索次数与排名绘成图2。通过图2可以看到,查询频度排名与检索次数之间呈幂律分布分布关系,随着查询频度排名的增加,检索次数迅速下降,少数查询出现的次数很多。这说明在搜索引擎每天处理的大量查询中,存在大量重复查询。这与文献中互联网搜索引擎的查询频度分析是一致的。对相应用户查询词内容进行分析,发现用户需求集中在导航网址、生活信息、手机阅读以及应用程序下载这几个领域,且与每一时段热点密切相关。这说明移动搜索引擎服务与桌面搜索引擎相比更具有便利性,更贴近生活。4.1.3问题式查询用户使用搜索引擎时存在多种检索方式,问题式查询则是用户提出问题时最直接、最简单的方式,我们统计了这部分查询的比例。按照现代汉语语言习惯以及英语语言习惯,我们收集了44个疑问词,比如“哪”、“什么”、“怎么”、“如何”等,如果用户提交的查询中使用到了某个疑问词,就认为此查询为问题式查询。统计之后,我们共得到255375条问题式查询,占总查询数的5.110A,远远大于文献[7]中互联网搜索引擎问题式查询比例2.96,这说明了移动搜索引擎用户检索习惯落后,检索行为相对不成熟。4.1.4直接输入URL作为查询词的比例在使用移动搜索引擎时,存在一部分用户直接输入网址或网址的一部分进行检索的情况。我们综合考虑了各种手机网站域名情况,如手机域名“.mobi”,商业域名“.biz”、“.cc”等,同时考虑用户只输人URL一部分的情况,统计发现有50590条记录是以URL作为检索词的,占总检索数目的1.O1,远远低于文献[6]中相应比例。分析其原因,我们认为由于移动设备输入法限制,英文输入较困难,而由于URL往往字符较多,增加了用户输入的难度,所以用户更倾向于输入网站名称进行检索,输入URL的情况相对较少。4.2查询时间分析在分析用户检索与时间的分布关系时,考虑到工作日与节假日对用户搜索引擎使用次数存在影响,我们分别统计了每天每小时内用户检索次数,结果如图3所示。图3显示,不论工作日或节假日,每天21时、22时或23时是全天的最高峰,4时是全天的低谷。一天内,用户检索次数自4时开始增长,在上午10时达到第一个高峰,之后略有下降,后又缓慢增长,在12时或l3时达到第二个高峰,21时、22时或23时达到全天最高峰。这同人们的生活娱乐习惯是一致的,工作日内10时是进行工作、学习的时段,节假日内10时则是人们计划娱乐的时段,这段时间人们需要检索相关信息;12时或13时是午休时段,晚21时以后为睡前休闲娱乐时段,在娱乐时间往往会需要检索相关信息。与文献中互联网搜索引擎用户检索时间进行对比,发现移动搜索引擎用户访问时间集中在休闲娱乐时段。4.3查询会话分析查询会话(以下简称会话)可以理解为用户在较短时间段内,针对某一特定话题而进行的有目的的查询。会话能够更集中地反映出用户在有特定目标情况下的搜索、点击行为,为研究用户行为模式提供了更为准确集中的数据基础。我们参考文献关于会话划分方法的总结,结合对于数据的观察,将每一个用户30分钟内的查询定义为一个会话,认为在每一个会话中,用户围绕特定目标进行连续的操作。经过处理,除去日志中点击时间格式有错误的8593条数据,共区分出会话2317215个。4.3.1查询数目分析本文统计了一个会话中用户的查询次数,发现在每个会话中用户平均进行2.15次查询。图4显示,有58%的用户在一个会话中只进行过一次查询,这与文献中63.7的数字接近。这可能是用户通过一次查询就已经找到了令自己满意的结果,所以不再进行后续的查询。也有可能是由于用户发现使用手机的搜索并不能满足自己的需求而使用其他工具(如电脑)进行搜索。其中查询数目小于3个的占到869/6。由此可以看出,大部分用户在3次查询以内找到了自己需要的结果,搜索引擎提供的结果是比较令用户满意的。同时我们发现,有1的用户进行了10次以上的查询,说明用户对于找到自己需要的结果是比较有耐心的。4.3.2查询词修改方式分析如果用户对于现有的查询词查询结果不满意,就有可能修改查询词,从而找到最适合的结果。本文中我们对于一个查询会话中用户修改查询词的方式进行了统计,如表2所示。其中,Adding方式指后一个查询词在前一个查询词的基础上增加了新的词语;Deleting方式指后一个查询词在前一个查询词的基础上减少了搜索词;OrderChange方式是指后一个查询词只是改变了前一个查询词的词语排列顺序;PartlyChange方式指后一个查询词语对前一个查询词中的一部分进行了改动,其余部分不变;TotallyChange方式指后一个查询词较前一个查询词完全不同。我们可以看到,增加和

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功