第九章回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

现实世界中普遍地存在着的变量之间的关系。一般来说,变量之间的关系可分为两类:1.确定性的函数关系:已知一个(或几个)变量的值,就可以精确地求出另一个变量的值。如V=4/3R3,S=Vt2.非确定性的相关关系:几个变量之间存在着密切的关系,但不能由一个(或几个)变量的值精确地求出另一个变量的值。在相关关系中至少有一个变量是随机变量。如人的血压与年龄,环境因子与农作物的产量,树木的直径与高度,人均收入与商品的销量,商品的价格与消费者的需求量。回归分析是研究变量之间的相关关系的一种统计方法。回归(regression)这一术语是1886年高尔顿(Galton)研究遗传现象时引进的。这里仅介绍一元线性回归分析。第九章回归分析Yxx设随机变量与之间存在某种相关关系。这里,是可以控制或精确观测的变量(不是随机变量),如年龄、试验时的温度、施加的压力、电压与时间等。()()YxYFyxFyxxYx由于是随机变量,对于的每个确定值,有相应的分布,记其分布函数为。因此如果掌握了随着的取值而变化的规律,也就完全掌握了与之间的关系了。()()()()YEYxxxYxYxEYxx然而这样做,实际中往往很难实现。作为一种近似,考察的数学期望(假设存在),其值随的取值而定,它是的函数,将其记为,称为关于的。于是将讨论与相关关系问题转换为讨论与的关系回归函数问题了。在实际问题中,回归函数μ(x)一般是未知的,需要根据试验数据去估计。(,)()iixyx将每对观察值在直角坐标系中描出它相应的点(称为散点图),可以粗略看出的形式。121122,,...,,(,)1,2,...,,(,),(,),...,(,).niiinnxxxxxYxYinxyxyxy对于取定一组不完全相同的值设分别在处对作独立观察得到样本,对应的样本观察值例1以家庭为单位,某商品年需求量与其价格之间的调查数据如下:价格x(元)1222.32.52.62.833.33.5需求量y(500g)53.532.72.42.521.51.21.21.x与y之间是相关关系,不能用解析表达式y=f(x)表示。2.作散点图。发现这些点分布在一条直线附近。一元线性回归()(),()xxabxx故假设为线性函数:此时估计的问题称为求一元线性回归问题。2~0.N正态假设:,22()0,(),,(,YabxEDab是随机误差,不可控制,基本假设:回归系数)未知.1122,(,),(,),...,(,)nnxxYxYxY对的一组不全相同的值得到样本22,1,2,...,,()0,(),,(,iiiiiiYabxinEDab相互独立,一元线性回归模型:回归系数)未知.2~0,1,2,...,.iNin正态假设:,相互独立,一元线性回归要解决的问题:(1),ab的估计;2(2)的估计;(3)线性假设的显著性检验;(4)b回归系数的置信区间;(5)()xabx回归函数的点估计和置信区间;(6)Y的观察值的点预测和区间预测。(二)a,b的估计——最小二乘估计21,niiiQabyabx,ˆˆ,ˆˆ,min,ababQabQab求估计,使。12()0,niiiQyabxa11(),nniiiinaxby整理得12()0.niiiiQyabxxb2111()().nnniiiiiiixaxbxy——正规方程组1x2x3xixnxˆˆyabxˆˆˆ,,/.xyxxabayxbbSS的最小二乘估计:2211,,,,.iixxiiiixyiiyyiiiyyxxSxxnnSxxyySyy记号:ˆˆˆ,.xxxyaxbySbS将正规方程整理得:112111(),()().nniiiinnniiiiiiinaxbyxaxbxy在误差为正态分布假定下,最小二乘估计等价于极大似然估计。2221211,exp22niiniLabyabx事实上,似然函数21,niiiLabyabx对最大化等价于对最小化,即最小二乘估计。ˆˆˆ,,/.xyxxabayxbbSS的最小二乘估计:()ˆˆˆ()xxabxxabx给定,的估计为:——经验回归函数。ˆˆˆyabxYx方程:——关于的(经验)回归方程,其图形称为回归直线。1ˆ,xyxxxxiiibSSSxxY证明:因为/ˆˆˆ,,()ababEYabx性质:分别是的无偏估计,从而。11ˆ()()()xxiixxiiiiEbSxxEYSxxabx211xxiixxiiibSxxxbSxxbˆˆaYxb因为,所以ˆˆ()()()EaEYxEb()abxxba例1中需求量与价格的关系:21222.32.52.62.833.33.52553.532.72.42.521.51.21.2255766.2166.55.64.53.964.254.971445.296.256.767.84910.8912.2567.28iiiiixyx价格x需求yxyxxSbS1.575aybx2.5(1.575)2.56.44故回归方程应为=6.44-1.575xY221nxxiiSxnx267.28102.5=4.781nxyiiiSxynxy54.97102.52.5=-7.532.5,2.5xy误差方差2估计的意义:(a)误差方差2的大小对模型的好坏有很大的影响。(b)自变量对因变量影响的大小是同误差对因变量的影响相比较的。(c)如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。(三)误差方差的估计22ˆ(1),(2)2eyyxyeQSbSQn则是的无偏估计(证略).2211ˆ1,2,,,ˆ()iiinneiiiiieyyinQeyy定义:残差,残差平方和i误差的估计ˆˆˆˆiiiiiiieyyyabxyybxx证明:(1)222111ˆˆ()[]nnneiiiiiiiiQeyyyybxx222111ˆˆ2nnniiiiiiiyybyyxxbxx2ˆˆˆ2.yyxyxxyyxySbSbSSbSˆ/xyxxbSS221222.32.52.62.833.33.52553.532.72.42.521.51.21.2255766.2166.55.64.53.964.254.971445.296.256.767.84910.8912.2567.282512.2597.295.766.2542.251.441.4474.68iiiiiixyxyxy221nyyiiSyny274.68102.5=12.187.53xyS求例1中误差方差的无偏估计。1.575bˆ0.32eyyxyQSbS20.320.0428eQn(1)影响Y取值的,除了x,还有其他不可忽略的因素;(2)E(Y)与x的关系不是线性关系,而是其他关系;(3)Y与x不存在关系。(四)线性假设的显著性检验01:0,:0,HbHb即要检验假设采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此μ(x)是否为x的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:122222ˆ(1)~,;(2)(2)~(2);ˆ(3),,xxeebNbSQnnybQ则可以证明相互独立。20,1,2,,iNin假定:独立同服从分布。01:0,:0,HbHb检验假设ˆbc拒绝域形式:。222ˆ(2)(2)~2xxnbbntnS故,0ˆ0~2ˆxxbHbtStn当为真即时,,21ˆ2.ˆxxtbStn水平为的检验拒绝域:2ˆ1.5754.780.04.xxbS由例1,例2知:,,例3检验例1中回归效果是否显著,取α=0.05。0:0ˆ2.306.ˆxxHbbtS因此假设的检验拒绝域为:20.025282.306.tnt查表得:01.5754.78172.306.0.04:0tHb计算得,故拒绝,认为回归效果是显著的。21ˆˆ2xxbbtnS即的置信水平的置信区间:.(五)回归系数b的置信区间当回归效果显著时,常需要对回归系数b作区间估计。ˆ~2ˆxxbbStn由于,2ˆ2ˆxxbbStn所以P=1-0.950.041.5752.3061.786,1.364.4.78b例如例1中的置信水平为的置信区间为:(六)回归函数函数值的点估计和置信区间000000ˆˆˆˆ()().xxabxyxabx对给定的,的点估计为0000002002ˆˆˆ()2()1()1ˆˆ2xxYabxxabxxabxxxYtnnS则有(1)相应的估计量是无偏估计,()的置信水平为的置信区间为:000ˆˆ(1)(),(),ˆˆˆ()().EbbEaaEYEabxabx证明:因为所以即为无偏估计()xabx2120001ˆ2~(,).xxYNabxxxSn()可以证明:22022ˆ(2)ˆ~(2);eeQnnYQ又有,且与独立。2002210ˆ()(2)(2)~21xxYabxnntnxxSn于是,00210ˆ()~21ˆxxYabxtnxxSn即,002002()1()1ˆˆ2xxxabxxxYtnnS所以,的置信水平为的置信区间为:(七)Y的观察值的点预测和预测区间0000xxYYxxYY考虑对指定点处因变量的观察值的预测问题。由于在处并未进行观察,或暂时无法观察。经验回归函数的重要应用是,可利用它对因变量的新观察值进行点预测和区间预测。0020000,~(0,).YxxYYabxN设是在处对的观察结果。则000ˆˆˆ(1).YYabx的点预测为:020021()1ˆˆ21.xxYxxYtnnS(2)的置信水平为的预测区间为:012,,...,nYYYY证明:因是将要做的独立试验结果,因此,它与已得到的试验结果相互独立。001200ˆˆ,,...,ˆnYYbxxYYYYY又是的线性组合,故与相互独立。202200001ˆ~(,),~(,).xxxxYNabxYNabxnS202001ˆ~(0,1),xxxxYYNnS所以,220022ˆ(2)ˆ~(2);eeQnnYYQ又且,,相互独立。2020021ˆˆ(2)(2)~21xxxxnSYYnntn于是,00xxxx注1,这一预测区间的长度随的增加而增加,当时最短。0020ˆ~21ˆ1xxYYtnxxnS即,020021()1ˆˆ21

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功