1网络侧估计终端用户视频体验建模摘要现代社会,使用手机APP观看视频已经成为当代社会的一种普遍形式,本文依据统计回归方法,对网络侧变量和用户体验变量之间的函数关系进行拟合,令其余无关变量均近似地服从正态分布。采用多重拟合方式拟合出不同的评价函数,并进行误差检验。选择误差最小的评价函数。并基于评价函数,两个用户体验变量进行预测。同时对用户观看视频体验进行综合评价,采用多级指标,运用AHP及模糊综合评价法评价用户观看视频的满意度。求出权重,建立评价矩阵。得到用户观看视频满意度处在较满意和一般满意之间。最后,由于多种原因,本文建立的用户体验变量评价函数具有一定程度的误差,因此基于原有数据,建立灰色系统模型,再次进行预测,比较结果。建立GM(1,1)模型对相关指标进行预测,取预测区间长度为100,得出预测值,并绘制残差图对预测值进行检验。并与评价函数预测结果进行对比。验证评价函数的正确性。同时得到结论,基于原始数据直接建立灰色系统,预测相对更加准确。关键词:统计回归;综合评价;灰色预测;残差检验2一.问题重述随着科技的日益进步,无线宽带网络也随之无限升级。智能终端在大众生活中普及,越来越多的用户选择在智能终端上(以手机为主)应用客户端APP来观看网络视频,这是一种基于TCP(是一种面向连接的、可靠的、基于字节流的传输层通信协议)的视频传输以及播放。在观看网络视频时,有很多因素指标会影响用户对于视频的观看体验,而其中两个关键指标是初始缓冲等待时间和卡顿缓冲时间,我们可以用初始缓冲时延和卡顿时长占比(卡顿时长占比=卡顿时长/视频播放时长)来定量评价用户体验。研究表明影响初始缓冲时延和卡顿时长占比的主要因素有初始缓冲峰值速率、播放阶段平均下载速率、端到端环回时间(E2ERTT)以及视频参数。然而这些因素和初始缓冲时延以及卡顿时长占比之间的关系并不明确。本文拟通过数学建模的方式对网络端视频用户体验做综合评价和预测,以采取针对性的措施提高网络端视频用户体验的满意程度。本文尝试解决以下问题:1、根据实验数据建立起用户体验评价变量和网络侧变量之间的函数关系。2、对网络侧终端用户体验进行定量的综合评价。3、针对网络侧用户体验进行预测。二.问题分析与思考本题目附件中提供试验数据共89266组,由于希望提高问题分析的准确性,首先要对数据进行考察,并将不合理数据予以剔除,因此,进行数据的信度与效度检验就必不可少。2.1数据信度检验信度检验为判断分析数据结果准确性,即数据结果的可靠性检验。常用的方法有:拉以达准则,Dixon准则以及Crubbs准则法等,然这三种方法都是基于样本大致服从正态分布而给出的,因此,我们采取最常见也是最可信的拉以达准则进行数据的信度检验。拉以达准则又称3σ原则,是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的,由于本模型中测量次数较多,因此拉以达原则在合理范围之内。3图1:统计数据分析结构图本文利用Matlab软件,将附件中的各指标数据利用程序进行分析以及剔除(详见附录1)。共剔除数据7713组,剩余81553组数据。剔除数据总数小于10%,在合理范围之内。图2:剔除异常数据后的数据分布结构图在此后的建模过程中,只针对这81553组数据进行分析。拉依达准则判断粗大误差的基本思想是以给定的置信概率99.73%为标准,以三倍测量列的标准偏差限为依据,凡超过此界限的误差,就认为它不属于随机误差的范畴,而是粗大误差。含有粗大误差的测量值称为异常值,异常值是不可取的,应该从测量数据中剔除。用拉依达准则判断和剔除含有粗大误差的异常值时,应先算出等精度独立测量列Xi(i=1,2,…,n)的平均值𝑋𝜃,残余误差𝑇𝑖=𝑋𝑖−𝑋𝜃,并按贝塞尔公式算出4该测量列的标准偏差S,如果某测量值𝑋𝑑的残余误差𝑇𝑑=𝑋𝑑−𝑋𝜃(1≤d≤n),满足下式𝑇𝑑|3𝜎|,则认为𝑋𝑑是含有误差的异常值,须剔除不要。该判别式即为拉依达准则2.2相关方法评价是基于研究对象的某些属性(指标),将之变为客观客观定量计值或者主观效度的行为。本文介绍几种本文涉及的方法:(1)统计回归分析法由于客观事物内部规律的复杂性以及人们认识程度的限制,无法准确的分析实际对象内在的因果关系,因此需要建立合乎机理规律的数学模型。动态测量数据的数学处理问题大多可以转化为回归分析问题。确定变量之间的数学关系式并对其进行可信度检验。根据所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值。并给出这种预测却控制的精确程度。(2)层次分析法(AHP)层次分析法指的是将决策问题的有关元素分解成目标、准则、方案等层次,在此基础上进行定性分析和定量分析的一种决策方法。它的特点是对复杂决策问题的本质、影响因素及内在关系等进行深入分析后,构建层次结构模型,把决策的思维过程数学化,进而提供一种简单的决策方法。层次分析法的结果合理性较大,在本文中也会有涉及,用以权重的求解。(3)模糊综合评价法客观世界中,存在着许多不确定的现象,这种不确定性主要表现在两个方面:一是随机性,二是模糊性。在概率论研究中,通常以在[0,1]上的取值的分布函数来描述这种随机性。同样,在[0,1]上取值的隶属函数就描述了事件的模糊性。模糊数学是描述模糊问题的不可或缺的工具。模糊综合评价同时可以实现模糊识别,模糊分析,模糊聚类以及预测的功能,是一种非常优越的分析方式。由于本题中各指标之间的关系并不明确,其具有模糊性,因此本文主要采用模糊分析来对该问题进行综合评价。(4)灰色预测法灰色预测是通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型从而预测事物未来发展趋势的状况。预测某一特征量或达到此特征量的经历时间。三.模型基本假设1,假设用户观看视频时,在网络传输速率基本一致的情况下,视频卡顿的出现是随机的;2,假设卡顿时长与在同一网络环境下,使用客户端观看视频的人数基本成线性的正比关系;3,经过剔除后的统计数据真实可信且抽样样本能够完全反应总体的特征;4,假设除网络侧变量和用户体验变量外的其余变量均近似地服从正态分布。四.基本符号说明5𝑝𝑖:自变量与因变量间的回归模型系数,i=1,2,3,⋯n;βi:子变量与子变量间的回归模型系数,i=1,2,3,⋯n;U=(𝑢1,𝑢2,⋯,𝑢𝑝)模糊综合评价因素集,𝑢𝑖,各因素,i=1,2,3,⋯n;V=(𝑣1,𝑣2,⋯,𝑣𝑛)模糊综合评价评语论域(评价集),i=1,2,3,⋯n;S判断矩阵;R=(𝑟𝑖𝑗)𝑚×𝑛模糊关系矩阵;W权重向量;M综合评价矩阵。五.模型的建立与求解5.1统计回归模型统计回归是基于数据的统计分析,对于内部规律具有复杂性的客观事物,建立合乎机理的数学模型,其基本思路结构如下:图3:统计回归模型结构流程图由于采样数据的随机性,在上步利用拉以达原则剔除后,以现有的数据进行分析。首先进行标准化处理。5.1.1数据的标准化数据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z统计检验NY修改应用分类研究结构简化相关分析预测决策现实问题提炼问题确根据定性理论设置指定变量收集整理数根据目标和数据进行统计计算估计6标准化,当然,也有一些其他的标准化方法,用在不同场景。本文采用Z-score标准化(标准差标准化)。转化函数为:𝑦𝑖=𝑥𝑖−𝑥̅𝑠(0≤𝑖≤𝑛)。其中x̅为所有样本数据的均值,s为样本数据的标准差。经过Z-score标准化后,变量的平均值为0,标准差为1。为了数据处理的简便性,将均值迁移到1。5.1.2模型建立与求解1、针对初始缓冲时延的回归模型(1)模型的建立记用户体验变量分别为𝑦1(初始缓冲时延),𝑦2(卡顿时长占比);网络侧变量分别为𝑥1(初始缓冲峰值速率),𝑥2(播放阶段平均下载速率),𝑥3(E2ERTT)。首先,为了能大致的分析𝑦1与𝑥1,𝑥2,𝑥3之间的关系,利用剔除后的数据分别作出𝑦1对𝑥1,𝑥2,𝑥3的散点图。图4:𝑦1对𝑥1的散点图7图5:𝑦1对𝑥2的散点图图6:𝑦1对𝑥3的散点图从图4中可以发现,𝑦1对𝑥1有比较明显的反比关系,𝑦1对𝑥2虽然较为模糊,但大体上则类似于一次或二次函数关系,𝑦1对𝑥3关系比较模糊,但大体上呈现一种线性关系。综合以上分析,建立如下的回归模型:y=𝑝1𝑥1−1+𝑝2𝑥2𝑛+𝑝3𝑥3𝑚+𝑝4经过多次利用MATLAB软件多次拟合实验,最终选择如下的回归模型:y=𝑝1𝑥1−1+𝑝2𝑥2+𝑝3𝑥3−1+𝑝4其中,𝑥1,𝑥2,𝑥3即为回归变量,而影响y的其他因素均包含在随机误差𝑝4中,𝑝4应大致的服从均值为零的正态分布。(2)模型的求解直接利用MATLAB统计工具箱中的命令regress求解:[b,bint,rint,stats]=regress(y,x,alpha)8输入回归模型中y的数据(n维向量形式),x为对应于回归系数p=(𝑝1,𝑝2,𝑝3,𝑝4)的数据矩阵,alpha为置信水平α(缺省时α=0.05),输出b是p的估计值,常记作p̂,bint是b的置信区间,r为残差向量y−x𝑝̂,rint为r的置信区间,stats为回归模型的检验统计量,有三个值,第一个是回归方程的决定系数𝑅2(R是相关系数),第二个是F的统计量值,第三个是与F统计量对应的概率值p。针对以上回归模型的回归系数估计值及其置信区间(取置信水平α=0.05),检验统计量𝑅2,F,p的结果如下:表1:统计模型(1)的求解结果参数参数估计值参数置信区间𝑝1-596.7539[-601.1,-592.25]𝑝2718.6450[712.9,724.3]𝑝3-115.8773[-139.2,-92.6]𝑝41215.3[119.16,123.9]𝑅2=0.8641F=54467p0.0000001(3)结果分析与预测表1显示,𝑅2=0.8641指的是因变量y的86.41%可由模型确定,F值远远超过F检验的临界值,p远小于α,因此以上模型整体来看是可用的。表1中的回归系数给出了以上模型𝑝1,𝑝2,𝑝3,𝑝4的估计值,即𝑝1̂=-596.7539,𝑝2̂=718.6450,𝑝3̂=-115.8773,𝑝4̂=1215.3,检查置信区间后发现,没有参数的置信区间内包含零点,表明回归变量对估计值都是显著的。将回归系数的估计值代入上述模型,即可预测用户体验变量𝑦1(初始缓冲时延)的预测值ŷ1,得到预测方程:ŷ=p̂1𝑥1−1+𝑝̂2𝑥2+𝑝̂3𝑥3−1+𝑝̂4因此,依据以上方程,就可以预测用户体验变量𝑦1(初始缓冲时延)的预测值ŷ1,使用MATLAB软件,预测出100组数据,由于数据过于庞大,只节选几组放在这里。表2:统计模型的预测结果(节选)9初始缓冲峰值速率(kbps)E2ERTT(ms)播放阶段平均速率(kbps)初始缓冲时延(ms)预测4945054371911081085.9363685051752590210951029.70971479884758061051948.43340835645755597810991111.9628525669054593111331101.8521937400058621211321280.1159245817854614610201109.3959136676258615410291225.807954484