分析互联网用户行为_降低互联网应用成本

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

-70-运营与维护电信工程技术与标准化2009.1分析互联网用户行为,降低互联网应用成本郑迅雷 陈加芬 万涛(中国铁通江西分公司 南昌330002)摘 要 本文论述了通过多次统计分析,建立数学模型,利用特殊软件分析用户流量流向等手段,将用户进行分类。对不同类别的用户进行区别对待,差异化服务;兼之使用流量控制等手段引导用户访问网内资源,逐步改变用户的上网行为和习惯,以达到增加网内流量,降低网外结算流量的效果。关键词 互联网 用户流量 网间结算 用户分类1 互联网用户流量的构成1.1全网用户流量成份随着互联网在中国的快速发展,依托于互联网的应用也越来越丰富,从昀早时期的Web1.0网页服务和基于MUD的网络游戏,到现在的Web3.0、Java/PHP、P2P以及丰富多彩的流媒体视频服务,各种应用越来越多,占用的带宽也越来越大。为了更有效的分析用户流量成份,我们按流量使用的协议将流量分成以下几类:(1)网页浏览类:主要包括HTTPbrowse,HTTPTunnel,HTTPS,HTTPProxy协议。(2)P2P下载类:主要包括Bittorrent,eDonkey,Thunder,WebThu-nder,Emule等协议。(3)流媒体类:主要包括PPLive,PPStream,QQLive,YouTube,Yukoo等协议。(4)游戏类:主要包括Doom,Quake-server,Halflife,CounterStrike,Diablo等主流网络游戏。(5)基础应用类:主要包括EMail,Tftp,Ftp,Newsgroups,InstantMessage,QQ,Stock等常用协议。(6)未识别TCPUDP类:主要包括GenericTCP,GenericUDP,GenericIP等协议。经过我们的统计分析,全网用户网外流量(网内流量是不结算的,所以重点分析网外流量)中,网页浏览类流量占总流量的26.5%,P2P下载类流量占30.47%,流媒体类流量占21.54%,游戏类流量只占0.49%,基础应用类流量占3.4%,非识别TCPUDP类流量占17.6%。可以看出,P2P下载和流媒体占了很大比例,达到了52.01%,是网间结算成本的主要部分。1.2全网用户流量流向由于我方网络的特殊性,用户流量共分5个方向:本网内;对等互联方网内;电信方向;网通方向和国际出口。其中本网内和对等互联方网内属于不结算流量,而国际出口流量不大,唯有电信方向流量和网通方向流量结算费用较高。根据我方前期的统计分析结果表明:全网用户流量78.44%去往电信方向,16.85%去往网通方向,只有4.71%是在本网或对等互联方网内,结算流量比例高达95.29%,这一块是主要的运营成本,所以当务之急是要增加网内流量,丰富网内资源,减少网间结算成本。-71-电信工程技术与标准化2009.1运营与维护只列出三个具有代表性的账号数据。从以上三个账号流量流向曲线图来看,结合前面总体流量流向分析,基本上可以得出:(1)不结算流量所占比例很少。主要原因是网内内容服务资源少,不论是P2P下载,还是流媒体视频点播,网内都没有较大较出名的镜像站点,导致用户不得不访问电信站点。(2)大流量用户不一定就是大带宽占用的用户,用户抢占带宽是随机变化的,在网络拥塞时目前还是按照先进先出的原则来处理转发的。2 建立用户上网流量/带宽模型2.1对固定一批用户进行观察和分析我们从用户群中随机挑选出一批用户,从流量、流向、带宽等角度持续观察了两天。部分数据如表1和表2所示。为了便于直观分析,我们将以上两天抽样用户平均数据做成饼形图,如图1、图2所示。图1 抽样用户流量平均流向图3~5是11个抽样账号以每小时为抽样率得到的流量流向曲线图,流量单位为byte,限于篇幅,用户账号总流量(kB)不结算流量(kB)不结算流量占百分比电信流量(kB)电信流量占百分比网通流量(kB)网通流量占百分比A402055141563.52%35152787.43%363729.05%B73933600.00%739336100.00%00.00%C490013228474.66%46716595.34%00.00%D4490283360.07%44869299.93%00.00%E2212829990.45%19747689.24%2280710.31%F2605720299501.15%248861595.51%871553.34%G1033945405093.92%91161488.17%818227.91%H2984300.00%1594253.42%1390246.58%I13167000.00%4766936.20%8400163.80%J536081222222.80%3267060.94%871616.26%K557367247734.44%43088377.31%10171218.25%L21710416550.76%11805554.38%9739544.86%M820800.00%8208100.00%00.00%平均69391811474482.12%625785290.18%5338817.69%表1 7月24日抽样用户流量流向数据图2 抽样用户流量平均流向-72-运营与维护电信工程技术与标准化2009.1用户账号总流量(kB)不结算流量(kB)不结算流量占百分比电信流量(kB)电信流量占百分比网通流量(kB)网通流量占百分比A183630210160.06%179825997.93%370282.02%B76743500.00%75311598.13%143201.87%C9006300.00%90063100.00%00.00%D215605175068.12%17546481.38%2263410.50%E3482190415251.19%331817895.29%1224873.52%F1732157333661.93%131566875.96%38312322.12%G669352439266.56%46978770.19%15564023.25%H15345174670.03%149862897.66%354222.31%I176891534629219.58%119858067.76%22404312.67%J100407700.00%86928686.58%13479113.42%K82060114910.18%36239844.16%45671255.66%平均139212144855893.49%1184942585.12%158620111.39%表2 7月25日抽样用户流量流向数据(3)用户流量的产生也是分时段的,账号A产生的流量基本上集中在0~12h内,这段时间各出口都处于半空闲状态,应该鼓励用户上网。而账号B产生的流量集中在14~22h,这时段是上网高峰期,此类用户才是我们应该重点分析的。而账号C属于典型的挂机用户,24h在网下载资料,此类用户运营成本昀大。2.2宏观用户流量模型——“二八模型”所谓“二八模型”,是指在用户群中,一小部分用户由于其特殊的上网行为和习惯,占用了大部分的图3 账号A的流量流向图4 账号B的流量流向图图5 账号C的流量流向图-73-电信工程技术与标准化2009.1运营与维护网络带宽资源,而另外大部分用户,则只使用了相对较少的网络带宽。当然这种比例不一定是20%对80%,也可以是30%对70%或者40%对60%。我们称这一小部分用户为高带宽用户。高带宽用户的来源主要有三种,一种是私自共享接入的用户,也就是通常所说的拖带用户,其特点就是利用一台路由器共享接入多个用户,曾经有昀多的是一个普通ADSL账号拖带了20台电脑,几乎是开了一个小型网吧。另一种就是常使用BT等P2P软件下载的用户。这种用户通常24h挂机下载电影或软件,一天产生的流量可以达到几百吉字节。还有一种就是视频点播用户,自从流媒体协议诞生以来,在网上看电影或者电视的人已经越来越多,由于我们缺乏相应的网内资源,用户多是去电信的站点,由此产生的结算流量简直惊人的多。3 用户群的分类3.1数据采集软件介绍3.1.1RADIUSTrafficServer单用户流量统计软件这套软件是通过RADIUS协议中的流量字段来统计拨号用户的流量。RADIUS协议是RemoteAccessDail-InUserService,远程认证拨号用户服务协议的简称。由于其支持多种认证法方式、易于扩展、相对安全、易于实现等特点,已经成为网络环境中一个事实上的AAA协议标准。RADIUS主要提供三个基本功能:Authentication(认证)、Authorization(授权)、Accounting(计费),即AAA功能。该协议采用C/S结构,以UDP作为传输协议,具有强大的认证能力。同时RADIUS是一种可扩展的协议,它进行的全部工作都是基于Attribute-Length-Value的向量进行的,通过扩展可以实现对用户上下行带宽的控制、用户上网时限和流量限制等功能。普通拨号用户在正常上网时,每隔15min会向RADIUS发送同步更新报文,此报文中包含了用户在这15min之内产生的上行和下行流量。这套软件就是通过采集RADIUS服务器收到的这种同步更新报文,来提取每个用户每日每半小时出入流量,再通过数据库分析软件就可以获得用户出入流量分析的各项指标。3.1.2D2610网流分析系统这套系统是某公司出品的专业性的统计路由器端口流量的分析软件,可为用户提供丰富的网络流量、流向的数据信息,其使用了业内标准Netstream协议。网流(NetStream)是由若干关键字标识的一系列IP数据包组成的,这些关键字是从数据包中取得的信息,包括:源IP地址,目的IP地址,源端口号,目的端口号,协议类型,服务类型等。网流设备通过IP数据包中的七元组信息来识别网流,同时保存网流初步统计的流量数据。通过这套软件,我们可以获取“单个用户、一批用户”不同时段访问不同方向的网络流量。3.2用户分类方法第一步:利用RADIUSTrafficServer统计出所有在线用户一天中忙时段(指17~24h)下行流量总和。然后按照统计出流量的自大到小顺序排序,取前面占统计用户总数20%的用户,定义为A1用户集。第二步:连续20天统计第一步中的数据,获取用户集A1,A2,A3…A20。然后取A1~A20的交集用户,此交集用户定义为A。这批用户A就是连续20天中产生大流量的高带宽用户。第三步:由于用户的流动性和用户使用习惯的改变,这种用户分类办法必须至少三个月重复划分一次,以保证所筛选出的高带宽用户始终是真实的大流量用户。3.3用户分类结果根据3.2节的分类方法,我们对全网用户进行了筛选,在连续20天的流量数据中筛选出了10979个用户,占全网用户数的10%左右,但是这部分用户在20天中却产生了总流量的30%左右,这也反过来证明了前面分类方法的正确性。我们将这10979个用户定义为高带宽用户,其他用户定义为普通用户,在后面的规划中,我们根据这-74-运营与维护电信工程技术与标准化2009.1两种用户的特性分配不同的资源和出口,以求达到成本昀低化。4 差异化服务由于市场竞争的原因,各出口的成本和质量也不相同。所以在对用户进行分类之后,我们就规划普通用户使用特定出口,而高带宽用户使用另一种出口。在进行调整后,效果还是比较明显的,表3是某个地市用户分类后消耗资源的比较情况。从表3可以看出,普通用户户均带宽只有116kbit/s,但是高带宽用户却达到了228kbit/s;高带宽用户的在线率也比普通用户高的多,达到了58.5%。表4为两类用户的流量成份比例。从表4可以看出,高带宽用户的网页浏览类流量明显少于普通用户,而P2P流量和视频流量则远高于普通用户。也就是说虽然我们将不同类用户划分进了不同成本的出口,但是高带宽用户依然占用了较大的资源,那么如何才能更加有效的控制资源,降低成本呢?这还需要其他一些辅助控制手段。5 其他辅助手段5.1丰富网内资源在互联网用

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功