一元,多元线形回归分析:一.请分别叙述变量间统计关系与函数关系的区别,以及相关分析与回归分析的联系与区别。答:各自然现象或社会现象之间普遍存在着各种联系,根据这些联系的紧密程度不同,可将之分为函数关系与统计关系。一种情况下某变量Y能被其余的一类变量1,,nXX完全决定,这时两者之间存在着完全的确定性关系,这种关系可以通过一个函数1(,,)nYfXX表示。这样的确定性关系被称为函数关系。另一种情况下变量之间虽然存在紧密的联系,但并不能互相唯一确定,这种非确定性的紧密联系被称为统计关系。相关分析与回归分析都是研究两边统计关系的方法,在实际问题的处理中往往结合使用两者。两者的区别主要在于:1.目标不同:相关分析主要用于刻画X,Y两变量间的联系的密切程度,而回归分析除此之外,还关心对未观察Y值的预测与控制。2.角度不同:相关分析中X,Y两变量地位相同,因此假设两者都是随机变量;而回归分析中只将变量Y作为主要研究对象,因而往往假设Y是随机变量,而X是非随机变量。二.请叙述(一元)多元线性回归模型及其基本假设答:1.一元线性模型的基本形式是:i01iiy=+x+,其中01,称为回归系数,i称为随机误差。其基本假设为:G-M假设:iij2E=00Cov=,ijij,(,)或者更强的正态性假设:i独立同分布,21N(0,)。2.多元线性模型的基本假设是:0py=X+=,,T,其中()称为回归系数阵,1=,,Tn()称为随机误差.其基本假设为:a.G-M假设:iij2E=00Cov=,ijij,(,)或者更强的正态性假设:i独立同分布,21N(0,)。b.rank(X)=p+1n三.请叙述最小二乘法(最大似然法)的基本思路、理论基础与性质,并对两者作比较。答:1.最小二乘法的基本思路是通过最小化残差平方和20p011p1Q(,,)=(y)=(yx)'(yx)niiipi--x-...-x求得回归系数i的估计值。其理论基础是函数极值理论。2.最大似然法的基本思路是最大化似然函数/22/221(2)()exp{(yx)'(yx)}2nnL求得回归系数i的估计值。其理论基础是函数极值理论。3.两者对的估计结论是一致的,且结果均具有线性,无偏性,稳定性(在G-M假设下是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计,具体参见问题四)。4.相对来说,使用最大似然法需要的假设较强,需要正态性假设,而最小二乘法本身不需要任何假设。但是,最大似然法可以得到2的估计,而最小二乘法不行。四.假设通过最小二乘估计得到回归方程01122y...+iiippixxx的估计,请叙述估计量1ˆˆˆ=,,p()以及残差1ne=e,,e()的定义及其性质。答:1.估计量具有线性,无偏性,稳定性,即:a.ˆ是y的线性变换1ˆ=x'xxy()b.ˆ是无偏的。ˆEc.在G-M假设下ˆ是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计。21ˆD()=x'x()。2.残差ˆiiieyy,它具有以下性质a.iiEe=E=0b.21De=I-H),H=xx'xx',I()(其中()是单位阵,即2,hHiiiiiD(e)=(1-h)是的主对角线元素。c.x'e=0d.ˆ(,)0Cove,且正态性假设下两者独立e.212niie服从自由度为n-p-1的开方分布,即2212(np1)niie五、叙述多元线性回归中常见的显著性检验方法及其关系。答:常见的显著性检验方法有t检验,F检验,偏F检验三种。假设检验水平为。1.F检验012iH==...00p原假设:备择假设:存在检验统计量:/F=(p,np1)/1SSRpFSSEnp判断法则:(p,np1)FF时拒绝原假设。2.t检验0H00jjj原假设:备择假设:检验统计量:12ˆt=(np1),cx'x)ˆjjjjjtc其中是矩阵(的主对角元素判断法则:/2|t|t(np1)时拒绝原假设。3.偏F检验0H00jjj原假设:备择假设:检验统计量:(j)(j)SSRF=(1,np1),SSRx/1jjSSRFSSEnp其中是剔除后的回归平方和。判断法则:j(1,np1)FF时拒绝原假设。4.三者的关系。t检验与偏F检验等价,F检验与另两者不同(实质上是另两者的前提),通常先做F检验,再做t检验或偏F检验。六、给出一元回归模型估计值的点估计与区间估计(置信度1-)答:1.在未观测点0x处,y的点估计为0010ˆˆˆ=+xy。2.在未观测点0x处,0y的区间估计为(预测区间)200/20000(x)1ˆˆt(n2)1,xyhhnLxx其中n相当大时(n15),可以简化为0ˆˆ2y。3.在未观测点0x处,0Ey的区间估计为(置信区间)200/20000(x)1ˆˆt(n2),xyhhnLxx其中。3.给定置信上界2T与置信下界1T时,0x的取值范围为1020101110201011ˆˆˆˆ22ˆ0ˆˆˆˆˆˆ22ˆ0ˆˆTTxTTx时,时,七.叙述样本数据与回归系数标准化的意义与方法答:多元线性回归模型中,由于自变量的数量级差异较大,因而舍入误差将对估计的精度造成较大的影响;同时自变量的单位不同也会造成回归方程的解释比较困难,因而通常需要对样本数据进行预处理,即数据的标准化。数据的标准化通常这样进行:*2ij11*2i11x1x=,,(x)1=,,(y)nnijjjijjjijjiijjnniiyyiiiyyxxxLxnLyyyyyLynL其中其中利用标准化样本数据的得到的回归方程系数*ˆi称为标准化回归系数,其满足:**0ˆˆˆ(1,2...,),0iiiiyyLipL.八.给出偏决定系数、偏相关系数的定义答:1.当其余自变量固定时,ix对y的影响程度称为ix的偏决定系数,定义为11112;1,2,...i1,1,...111(x,...x,x,...x)(x,...,x)r(x,...x,x,...x)iippyiipiipSSESSESSE2.当其余自变量固定时,ix与jx的相关程度称为两者的偏相关系数,定义为ˆˆij;1,2...,...pr,iijijijiijj其中是样本相关阵的行j列的代数余子式。计算:1.(20分)近来某时尚杂志进行了一项关于高清数字电视的调查。对于各不同品牌不同型号的数字电视,该杂志基于画面质量给出了一个测试总分ix(i=1,2,…24),同时,该杂志也收集了这些数字电视的平均市场售价iy。数据显示2424111090,143101iiiixy2424242211150528,877429461,6562786iiiiiiixyxy假设样本数据符合正态性假设,随机项的方差为2。根据以上条件,请(1)(5分)建立y关于x的一元线性回归方程(2)(5分)给出作2的无偏估计。(3)(5分)在=0.05的显著性水平下,检验变量之间的显著性。(已知:0.05F22=4.30(1,))(4)(5分)假设某种新上市的数字电视的评分为45分,请给出其市场建议价0y,并作该价格的置信水平为95%的区间估计。解:(1)根据题意,有:x=45.42y=5962.54,-----------1分22xx1L=-n()1023.83niiXX----------1分xy1L=-n63615.58niiiXYXY------------1分从而101Lˆˆˆ=62.13,3140.59xyxxyxL所以回归方程为y=62.133140.59x---------2分(2)22121SST=L-n(y)24183785.96,ˆSSR3952123.96,SSE=20231662nyyiixxyLSSTSSR------3分所以21ˆ=919621n-2SSE-------2分(3)建立假设为:011H00原假设:备择假设:------1分构造检验统计量:/1F=4.30(1,22)/22SSRFSSE------3分由于0.05F=4.304.30F22(1,),所以拒绝原假设------1分即认为变量之间存在显著的线性关系。(4)0y的估计值为0010ˆˆˆx=5936.44y------1分由于样本量较大,所以可以用近似公式计算预测区间------1分即价格0y的预测区间为0ˆˆ2=5936.442958.97=4018.507854.38y(,)------3分2.(15分)某市最近进行的一项有关公共交通的调查发现,公交车的维护费用iy与其已使用月数ix之间的关系可以用一元线性回归模型i01iiyx描述,其误差项满足1iii,其中随机项i满足G-M假设。实验的实际观测数据(10组)由下表给出,请根据数据给出该回归模型的估计,并预测某辆已使用了4年的公交车的维护费用。已使用月数61454855294360维护费用4968631751985048918256964858652931831945716887解:由于误差项满足1iii,而i满足G-M假设,所以可以通过差分法来消除自相关性。------1分对原样本数据做一阶差分11y,iiiiiiyyxxx,得到差分数据样本自变量差分-1637-2614175因变量差分1349-1119-1504134-3486-8383461-362-37482316------4分由于差分数据必然已中心化,所以差分回归模型为iiˆy=x,其中222ˆ=14.16niiiniiyxx------4分从而回归方程为1111=-14.16(),=-14.16()iiiiiiiiyyxxyyxx即------4分将11x48带入上述方程,得:11ˆ6646.28y------2分3.非参数检验(异方差)证明:1.对一元线性模型证明三种检验统计量等价证:对于一元线性回归模型来说,F检验、t检验、相关性检验的原假设与备择假设相同,均为011H00原假设:备择假设:------2分而三者的检验统计量分别为:/1F=/n-2SSRSSE,1xx1ˆLt=ˆ,222t1nrr。------1分由各参数的定义2211222211ˆˆ,()ˆ,nyyiixxinxyxxiixxyyyySSTLSSRyyLLLSSEerLLL------3分所以2222111ˆˆ1/2ˆ2xxxxLLSSRFtSSEnSSEn------2分21222221ˆ(n2)rˆ1SSE/n-212xxyyyyxxyyLLSSRtFrLLnL------2分所以2212Ftt,即三种检验完全等价。2.在正态性假设下,求证2211ˆˆ=()n-2niiiyy(一元)/2211ˆˆ=()n-p-1niiiyy(多元)是2的无偏估计a.记1H=x'x'xx(),则ˆyHy。再记ˆˆ,iiieyyeyy。则1ˆ(e)E(Y)[(IH)Y](I)E(Y)(IH)E(X)(IH)X-X'XX'X0EYEHXHXXX()()------4分22(e)CoV[(IH)Y,(IH)Y](IH)CoV(Y,Y)(IH)'(IH)(IH)'(IH)D------4分所以2Ee0,(e)iii