1WebStats专业网站日志分析系统技术说明书(版本:6.95)北京海市经纬网络技术开发有限公司2010年3月2目录第1章系统简介及特点...........................................................................................................31.1系统特点...............................................................................................................................31.2与第三方统计对比...............................................................................................................4第2章功能说明.......................................................................................................................5第3章系统运行环境.............................................................................................................23第1章系统简介及特点WebStats系统是对网站服务器日志文件进行专业统计分析的软件系统,其输出的统计报告清晰美观、图文并茂,详尽地展现了用户访问数据各项统计报表,可以为网站管理人员提供可靠的决策依据,是大型政府门户网站、新闻类网站、商业网站理想的流量分析工具。1.1系统特点功能全面:针对网站服务器标准日志或扩展日志记录,本系统给出了最全面的统计分析,分析内容涵盖了目前可统计的全部分析项目,是同类软件中分析统计结果最全面的日志分析系统软件。适用范围广:WebStats网站访问统计分析系统可以分析Apache、IIS、Roxen、WebSphere、Dominonotes、WebLogic、IPlanetApplication、OracleIAS、Tomcat、Jboss、Resin等30多种常见的Web服务器的日志文件,也可以分析邮件服务器和FTP服务器产生的日志文件。适合大访问量网站:本系统计算速度快、占用硬件资源小,可以胜任大访问量网站的日志信息统计。针对服务器集群型网站,本系统专门提供了日志文件合并工具,可以对Cluster进行整体统计或分别统计。跨平台运行:本系统采用C语言开发底层模块,使用CGI展示统计结果。可以在Windows、Linux、Unix等流行的操作系统上运行。运行环境不需要任何第三方数据库支持。报告展现图文并茂:统计分析结果使用报表和饼图、棒图、地图等形象的方式呈现,并配有对各个指标的详细解释,易于管理人员理解分析。个性化统计:通过各种过滤配置,本系统可以实现个性化统计。如统计来自特定地址(IP)、特定频道、特定文件、特定用户等的访问量。为政府、商业等网站提供特定统计信息。安全稳定:经过5年的发展完善,本系统运行稳定、安全、可靠。使用简单、方便:WebStats系统使用方便,经过简单安装即可使用其提供的标准配置功能。如果要使用个性化统计,系统提供了在线配置工具,可以方便地配置。全自动化运行:本系统含有自动定时运行功能,可以按照设置每天定时运行一次或多次。可以随时在线查看运行结果。4数据及时更新:我们将及时更新IP数据库,保证统计结果准确可靠。1.2与第三方统计对比现在流行的第三方网站流量统计方法是在被统计网站的首页加入一段统计代码,网站访问数据通过代码发送到统计服务网站上,统计服务网站根据收集的信息进行统计。这种第三方统计有明显的缺陷:首先,会把自己网站的最重要的访问信息泄露给具有商业行为的第三方,不利于商业机密的维护;其次,加入第三方代码可能带来注入攻击的风险;最后,这种第三方统计一般只能统计站外信息和首页的访问信息,而不能对站内各频道、文章、文件、用户等进行统计分析。而站内统计往往是改进网站内容和服务最必不可少的信息依据。下表是本系统与第三方统计之间的功能对比:统计项目WebStats网站访问统计分析第三方流量统计按访问时间:按月统计√√按日统计√√按星期分布√√流量按小时分布√√按访问者:接入商√√国家或地区√√中国省区√√城市√√访客IP√√最近访问日期√√鉴别出的用户√无最近访问日期√√搜索引擎网站的机器人√√蠕虫/病毒攻击√√浏览器统计:每次访问所花时间√只对首页(或其它插入代码页)文件类别√无URL网址√无入站处√无5出站处√无操作系统√√版本√√浏览器√√版本√√屏幕分辨率√√来路链接:来源网址√√由哪些搜索引擎转介√只对首页(或其它插入代码页)由哪些其他网站转介√只对首页(或其它插入代码页)搜索√只对首页(或其它插入代码页)用以搜索的短语√只对首页(或其它插入代码页)用以搜索的关键词√只对首页(或其它插入代码页)其他:HTTP错误码√无找不到的网页√无特别定制统计:频道访问统计√无特定IP统计√无特定文件统计√无产品统计√无广告统计√无第2章功能说明本统计报告的数据由Web服务器自动产生的log文件统计得来,可以统计浏览者的各种真实的访问行为信息,向网站拥有单位提供丰富的网站基础用户访问数据,为网站优化和改进提供决策支持依据。系统每日定时收取Web服务的log文件,并将此累积为月度统计数据文件,用于生成网站统计报告。可选择报告日期列出的年和月,以查看当月的统计报告。61、报告摘要本表是所选择月的网站访问摘要数据。表内栏目的数据项含义如下:访问者(不计重复):本栏目下记录以不同来访者独立IP计算的来访人数。请注意,由于在局域网中可能有众多用户使用一个IP共享上网,这些人只记录了一个独立IP。因此,实际到访人数可能大于此栏目下的数据。访问人次:本栏目下记录访问网站的总人次。如果从相同IP地址来浏览本网站,每隔60分钟会增加一个访问人次数。网页数:访问者在统计时间间隔内点击网页的总数量。这里的“网页”定义为以html或(htm,asp,jsp等)结束的文件。文件数:访问者的浏览器在统计时间间隔内向网站服务器请求(下传)的文件数量。文件类型包括:图片、脚本、网页、视频、css等。因为一个网页内可能包含很多图片或其它文件,这个数量比“网页数”要大很多。所以评估网站的访问量时,“网页数”比较准确,“文件数”是一个参考。字节数:访问者在点击网页时,浏览器向网站服务器请求(下传)的文件内容的数据流量,包含网页文件,图片文件,影像文件等。如果此流量异常增加,你必须增加服务器带宽,以保证网站打开速度。浏览器流量、非浏览器流量:选择统计日期7“浏览器流量”为访问者点击网页产生的流量,是正常流量;“非浏览器流量”为索引擎机器人,蠕虫病毒产生的流量和非正常的HTTP回应产生的流量,这些流量不代表网站的访问量,所以本报告在统计时将去除非浏览器流量(专门统计索引擎机器人和蠕虫的表除外)。82、按月统计此表为所选择时间的年统计表,是对每月“摘要”表的汇总。没有统计数据的月份将显示为0,本月的数据以黑体字开始显示。报告中把两个重要的指标:访问者和访问人次按月显示在上部的棒图中,可以一目了然地比较出每月网站访问量的变化。93、按日统计此表为所选择统计月的每日访问统计表,没有统计数据的日期将显示为0,周末(六、10日)以灰底显示,以便观察工作日和周末的区别。本日的数据以黑体字开始显示。报告中把两个重要的指标:访问人次和网页数(点击次数)按日显示在上部的曲线图中,可以一目了然地比较出当月每日的网站访问量的变化。4、按星期分布此表显示统计月内各星期内每日的平均访问量(计算方式:如本月统计了四个星期一,将四个星期一的数据之和除以四就是周一的平均数),其目的是揭示网站访问量按星期内每天的分布情况,以便观察一周七天的到访量区别。115、流量按小时分布此表显示统计月每日24小时中,累积到每个小时的访问量。显示的时间为服务器所在地(中国为GMT+8)的时间,以24小时方式显示(0-23)。本统计表的目的是对比一日中访问量的分布情况。上图显示的网站在工作时间(8-18时)的访问量明显提高。126、国家或地区本表显示来自不同国家的访问者所产生的流量,揭示出网站访问量按国家分布情况,可以清楚地得知网站用户的全球地理分布。系统使用IP-Country数据库进行IP转换。上部的饼图只显示前10国或地区(及其它)所占份额的比重。由于IP地址变化较频繁,为了保证转换的准确性,请定期更新数据库版本。137、中国省区本表显示来自中国各省、自治区、直辖市的访问者所产生的访问量。地图以颜色区分各地区所占访问量份额的比重,清晰地标识出网站在中国各地区的访问分布,让网站管理人员清楚访问者的地理来源。地图的数据是标注的“网页数(点击数)”。由于IP地址变化比较频繁,请及时更新IP-China数据库,以便得到准确的统计数据。148、来访者城市此表显示来自不同国家不同城市的访问者所产生的访问量。使用IP-City数据库进行IP转换(城市的名称为英文)由于IP地址变化较频繁,为了保证转换的准确性,请定期更新数据库。159、接入商此表显示中国访问者使用不同互联网接入商(ISP)访问本网站所产生的访问量。右部饼图显示主要接入商所占访问量份额的比重。如果访问量集中在某个ISP(如图中的联通),网站应考虑加大连接此接入商的带宽,以获得更好的用户体验。10、访客IP本表显示访问者IP地址及其来源明细。对于当月超过1000位不同IP访问者的网站,考虑网页的显示长度,在“全部列出”页中只显示1000条数据,但统计中不会漏掉1000以后的数据。从列表中可以得知每位访问者的最近访问时间、点击的网页数、来自什么地方等详细信息。1611、鉴别出的用户此表显示使用“用户名”和“密码”登录网站的户名。对于当月超过1000位不同登录用户的网站,考虑网页的显示长度,在“全部列出”页中只显示1000条数据,但1000以后的数据已经进入各项统计。要取得此表的数据,必须建立一个用户名(登录名列表)。12、搜索引擎网站的机器人此表显示搜索引擎抓取机器人为了索引网站,到本网站抓取数据所产生的网站流量。由于抓取机器人产生的流量不是正常访问流量,本表列出的搜索引擎机器人产生的“非浏览器”流量并未包含在其他图表中。13、蠕虫此表显示蠕虫病毒攻击本网站产生的网站流量,0代表没有蠕虫病毒访问。由于蠕虫病毒产生的流量不是正常访问流量,本表列出的蠕虫病毒产生的“非浏览器”流量并未包含在其他图表中。所例网站没有受到蠕虫攻击。1714、每次访问所花时间此表显示访问者到访本网站所停留的不同时间段。s-秒、mn-分、h-小时,h+为一个小时以上。此表可以反映网站内容对读者的吸引力,访问者在本网站停留的时间愈长,说明本网站的内容愈有吸引力。15、文件类别此表显示访问者点击网页时产生的不同类型文件的请求。由于网站包含很多图像文件(gif、jpg等),其它文件数据量较小,所以下载量最大的文件往往是图像文件。1816、URL网址此表为访问者点击所有网页的地址(URL)明细,每个URL代表一个Html文件。由于URL是网站制作时使用的网页指向地址,表意性较差,不宜阅读,如要了解每个栏目(频道)的访问统计,请参考“频道访问统计表”。当URL大于1000条时,考虑网页的显示长度,在“全部列出”页中只显示1000条数据,但1000以后的数据已经进入各项统计。17、操作系统此表显示访问者的计算机所使用的操作系统。1918、浏览器此表显示访问者计算机所使用的浏览器。网站设计人员可以根据访问者使用浏览器的类型和版本来调整网站的兼容性。19、屏幕分辨率本表显示访问者使用计算机的屏幕分辨率。网站设计人