1实验四异方差性的检验及处理(2学时)一、实验目的(1)、掌握异方差检验的基本方法;(2)、掌握异方差的处理方法。二、实验学时:2学时三、实验要求(1)掌握用MATLAB软件实现异方差的检验和处理;(2)掌握异方差的检验和处理的基本步骤。四、实验原理1、异方差检验的常用方法(1)用X-Y的散点图进行判断(2).22ˆ(,)(,)exey或的图形,),x)iiyii((e或(e的图形)2(3)等级相关系数法(又称Spearman检验)是一种应用较广的方法,既可以用于大样本,也可与小样本。:iu0原假设H是等方差的;:iu0备择假设H是异方差;检验的三个步骤①ˆttyyie②|ixii将e取绝对值,并把|e和按递增或递减次序排序,计算Spearman系数rs,其中:21niids26r=1-n(n-1)|ixii其中,n为样本容量d为|e和的等级的差数。③做等级相关系数的显著性检验。n8时,22~(2)1ssnrttnr0当H成立时,/2(2),ttn若认为异方差性问题不存在;/2(2),ttn反之,若||iiex说明与之间存在系统关系,异方差问题存在。(4)帕克(Park)检验帕克检验常用的函数形式:3若在统计上是显著的,表明存在异方差性。2、异方差性的处理方法:加权最小二乘法如果在检验过程中已经知道:222()()()iiijiuVaruEufx则将原模型变形为:12111111()()()()()iippiijijijijijiyxxufxfxfxfxfx在该模型中:22111()()()()()()iijiuujijijiVaruVarufxfxfxfx即满足同方差性。于是可以用OLS估计其参数,得到关于参数12,,,p的无偏、有效估计量。五、实验举例例1、某地区居民的可支配收入x(千元)与居民消费支出y(千元)的数据如下:Noxynoxy1108162519.12108.2172523.53108.3182522.44108.1192523.15108.7202515.161512.3213024.27159.4223016.781511.62330279151224302610158.9253022.1112015263530.5122016273528.7132012283531.1142013293520152019.1303529.901iiiyxu若用线性模型,研究不同收入家庭的消费情况,试问原数据有无异方差性?如果存在异方差性,应如何处理?4解:(一)编写程序如下:(1)等级相关系数法(详见test4_1.m文件)%%%%%%%%%%%%%%%用等级相关系数法来检验异方差性%%%%%%%%[data,head]=xlsread('test4.xlsx');x=data(:,1);%提取第一列数据,即可支配收入xy=data(:,2);%提取第二列数据,即居民消费支出yplot(x,y,'k.');%画x和y的散点图xlabel('可支配收入x(千元)')%对x轴加标签ylabel('居民消费支出y(千元)')%对y轴加标签%%%%%%%%调用regres函数进行一元线性回归%%%%%%%%%%%%xdata=[ones(size(x,1),1),x];%在x矩阵最左边加一列1,为线性回归做准备[b,bint,r,rint,s]=regress(y,xdata);yhat=xdata*b;%计算估计值y%定义元胞数组,以元胞数组形式显示系数的估计值和估计值的95%置信区间head1={'系数的估计值','估计值的95%置信下限','估计值的95%置信上限'};[head1;num2cell([b,bint])]%定义元胞数组,以元胞数组形式显示y的真实值,y的估计值,残差和残差的95%置信区间head2={'y的真实值','y的估计值','残差','残差的95%置信下限','残差的95%置信上限'};[head2;num2cell([y,yhat,r,rint])]%定义元胞数组,以元胞数组形式显示判定系数,F统计量的观测值,检验的P值和误差方差的估计值head3={'判定系数','F统计量的观测值','检验的P值','误差方差的估计值'};[head3;num2cell(s)]%%%%%%%%%%%%%残差分析%%%%%%%%%%%%%%%%%%figure;rcoplot(r,rint)%按顺序画出各组观测值对应的残差和残差的置信区间%%%画估计值yhat与残差r的散点图figure;plot(yhat,r,'k.')%画散点图xlabel('估计值yhat')%对x轴加标签ylabel('残差r')%对y轴加标签%%%%%%%%%%%%调用corr函数计算皮尔曼等级相关系数res=abs(r);%对残差r取绝对值[rs,p]=corr(x,res,'type','spearman')disp('其中rs为皮尔曼等级相关系数,p为p值');(2)帕克(park)检验法(详见test4_2.m文件)%%%%%%%%%%%%%%%用帕克(park)检验法来检验异方差性%%%%%%%5[data,head]=xlsread('test4.xlsx');%导入数据x=data(:,1);y=data(:,2);%%%%%%调用regstats函数进行一元线性回归,linear表带有常数项的线性模型,r表残差ST=regstats(y,x,'linear',{'yhat','r','standres'});scatter(x,(ST.r).^2)%画x与残差平方的散点图xlabel('可支配收入(x)')%对x轴加标签ylabel('残差的平方')%对y轴加标签%%%%%%%对原数据x和残差平方r^2取对数,并对log(x)和log(r^2)进行一元线性回归ST1=regstats(log((ST.r).^2),log(x),'linear',{'r','beta','tstat','fstat'})ST1.tstat.beta%输出参数的估计值ST1.tstat.pval%输出回归系数t检验的P值ST1.fstat.pval%输出回归模型显著性检验的P值(3)加权最小二乘法(详见test4_3.m文件)%%%%%%%%%%%调用robustfit函数作稳健回归%%%%%%%%%%%%[data,head]=xlsread('test4.xlsx');%导入数据x=data(:,1);y=data(:,2);%调用robustfit函数作稳健回归,返回系数的估计值b和相关统计量stats[b,stats]=robustfit(x,y)%调用函数作稳健回归stats.p%输出模型检验的P值%%%绘制残差和权重的散点图%%%%%%%plot(stats.resid,stats.w,'o')%绘制残差和权重的散点图xlabel('残差')ylabel('权重'(二)实验结果与分析:第一步::用OLS方法估计参数,并保留残差(1)散点图1015202530355101520253035可支配收入x(千元)居民消费支出y(千元)6图4.1可支配收入(x)居民消费支出(y)散点图因每个可支配收入x的值,都有5个居民消费收入y与之对应,所以上述散点图呈现此形状。(2)回归模型参数估计值与显著性检验表1'系数的估计值''估计值的95%置信下限''估计值的95%置信上限'[-0.5390][-3.7241][2.6460][0.8091][0.6768][0.9415]'判定系数''F统计量的观测值''检验的P值''误差方差的估计值'[0.8485][156.8387][5.4040e-13][9.1316]由输出结果看,常数项和回归系数的估计值分别为-0.539和0.8091,从而可以写出线性回归方程为𝑦^=−0.539+0.8091∗x回归系数的估计值的95%置信区间为[0.6768,0.9415]。对回归直线进行显著性检验,原假设和对立假设分别为𝐻0:𝛽1=0𝐻1:𝛽1≠0检验的P值为5.4040×10−130.01,可知在显著性水平α=0.01下应拒绝原假设𝐻0,可认为y(居民消费收入)与x(可支配收入)的线性关系是显著的。(3)方差分析图4.2原始数据对应残差图从残差图可以看到有2条线段(红色虚线)与水平线y=0没有交点,它对应的观测号为22和29,也就是说这两组观测对应的残差的置信区间不包含0点,51015202530-10-50510ResidualCaseOrderPlotResidualsCaseNumber7可认为这两组观测数据为异常数据。它们分别是(30,16.7),(35,20)。第二步:异方差性检验(1)图示法图4.3(2)等级相关系数法在y与x的OLS回归的基础上计算出残差的绝对值,并记为res,并计算出皮尔曼等级相关系数rs=0.4860与对应的p值为0.00650.05(*),说明残差r与x存在系统关系,即存在异方差问题。(3)帕克(Park)检验法1)散点图51015202530-8-6-4-2024估计值yhat残差r8图4.4可支配收入与残差平方的散点图从图4.4可知,可考虑拟合指数曲线。现将其取对数,即可进行一元线性拟合。2)回归系数与模型检验做ln(r^2)对ln(x)回归,得到表2‘回归系数’回归系数t检验的P值显著性检验P值𝛽0=-8.49730.02950.0207𝛽1=2.96790.0207从上表可以看出,得到的回归模型为ln(𝑟2)=−8.4973+2.9679∗ln(𝑥),常数项和线性项的t检验的P值均小于0.05,说明回归方程中常数项和线性项均是显著的。并且,检验的P值为0.0207小于0.05,说明整个回归方程是显著的,表明存在异方差性。综上所述,通过以上3种方法的检验,我们得到原数据存在异方差性。第三步:用加权最小二乘法处理异方差性表3‘回归系数’回归系数t检验的P值𝛽0=-1.60910.2375𝛽1=0.88700.0000由表3得:回归方程为𝑦^=−1.6091+0.887𝑥,由p值可知x的回归系数是显著的,常数项未显著,说明其无实际意义。101520253035010203040506070可支配收入(x)残差的平方9图4.5残差和权重的散点图由图4.5知:权重集中在最上方的1附近的点比较多,说明稳健性比较好。六、实验内容下表是我国各地区2003年FDI和GDP的数据,项目2003年FDI(万美元)2003GDP(亿元)项目2003年FDI(万美元)2003GDP(亿元)北京2191263663.10河南539037048.59天津1534732447.66湖北1568865401.71河北964057098.56湖南1018354638.73山西213612456.59广东78229413625.87内蒙88542150.41广西418562735.13辽宁2824106002.54海南42125670.93吉林190592522.62重庆260832250.56黑龙江321804430.00四川412315456.32上海5468496250.81贵州45211356.11江苏105636512460.83云南83842465.29浙江4980559395.00陕西331902398.58安徽367203972.38甘肃23421304.60福建2599035232.17青海2522390.21-10-8-6-4-202400.10.20.30.40.50.60.70.80.91残差权重10江西1612022830.46宁夏1743385.34山东60161712435.93新疆15341877.6101iiiFDIu若用线性模型GDP,研究不同地区FDI和GDP的关系,试问原数据有无异方差性?如果存在异方