「兔子们,虾米们,猪尾巴!不要酱瓜,咸菜太贵啦!!」(翻译:同志们,乡民们,注意吧!不要讲话,现在开会啦!!)县长讲完以后,主持人说:「咸菜请香肠酱瓜!」(翻译:现在请乡长讲话!)乡长说:「兔子们,今天的饭狗吃了,大家都是大王八!」(翻译:同志们,今天的饭够吃了,大家都使大碗吧!)不要酱瓜,我捡个狗屎给你们舔舔...(翻译:不要讲话,我讲个故事给你们听听..)小孩问妈:“用ABCDEFG怎么造句?”妈:“A呀!这B孩子C家的呀?光着个脚站在D上,EF也不穿,还露着小GG与线性相关一样,线性回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用β表示。检验:拟合程度的检验回归方程是否显著回归系数是否显著二、回归方程和回归系数的检验拟合程度的检验平方和的分解判定系数----测定拟合程度图示xyyxy10ˆˆˆyy{}}yyˆyyˆ),(iiyx离差分解图2222ynynyyy记总离差:SST=yyyyyyˆˆyyyyyyyyyyˆˆ2ˆˆ222222ˆˆyyyyyyyyyyˆˆ=0记回归平方和残差平方和222ˆˆteyySSEyySSR平方和的分解总变差平方和可以分解为:回归平方和与残差平方和,即:SST=SSR+SSE三个平方和的意义总平方和(SST)–反映因变量的n个观察值与其均值的总离差回归平方和(SSR)–反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)–反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和分析:若各个样本观察点与样本回归直线靠得越紧,则SSR在SST终所占的比例越大,因此可定义这一比例为可决系数,记为显然,可决系数越高,回归模型拟合程度越高,表明回归方程中的自变量可以解释因变量的大部分波动.反之,拟合程度越差,自变量不能解释因变量的波动.2RSSRSSRTSSRSSESS回归平方和总变差平方和22211yyeSSTSSESSTSSRrt相关系数与可决系数的关系可决系数是一个介于0-1之间的相对数,并且刚好是相关系数的平方(证明略),由此结论,可以直接由相关系数计算可决系数。此外,相关系数符号与回归系数符号一致。二者充分说明回归分析与相关分析的关系1.方差分析F=MS组间/MS组内2.t检验回归系数的假设检验H0:β=0H1:β≠0α=0.05选择合适的假设检验方法,计算统计量计算概率值P做出推论:统计学结论和专业结论采用t检验方法bbstb2)(XXbyss其中Sy为各观察值Y到回归直线的距离的标准差,表示去除X影响后Y的变异程度,回归系数的显著性检验1.提出假设–H0:=0(没有线性关系)–H1:0(有线性关系)2.计算检验的统计量3.确定显著性水平,并进行决策tt,拒绝H0;tt,接受H01.提出假设–H0:1=0人均收入与人均消费之间无线性关系–H1:10人均收入与人均消费之间有线性关系2.计算检验的统计量3.t=65.0758t=2.201,拒绝H0,表明人均收入与人均消费之间有线性关系对前例的回归系数进行显著性检验(=0.05)注:一元回归分析中的回归系数检验和回归方程的检验实际是一回事,这只是巧合。在多元回归时,回归方程的检验和回归系数的检验是不相同的。回归系数的检验是用来检验自变量x是否对因变量y有显著影响。预测及应用利用回归方程进行估计和预测1、根据自变量x的取值估计或预测因变量y的取值2、估计或预测的类型–点估计–区间估计y的平均值的置信区间估计回归关系的作用:1、预测在x=x0处,用y=a+bx进行预测。预测包括平均值的预测和个别值的预测。yyyyStyLCLStyUCLxxxxnSSˆˆ22ˆˆˆ)(1yyyyStyLCLStyUCLxxnSSˆˆ)xx()(1122平均值预测个别值预测(置信区间估计)y0在1-置信水平下的置信区间为【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间解:根据前面的计算结果有=712.57,Sy=14.95,t(13-2)=2.201,n=13置信区间为712.5734.469人均消费金额95%的预测区间为678.101元~747.039元之间0ˆy习题2:家庭储蓄与家庭收入之间有一定关系。现从某城市家庭中抽取12个家庭,所得月收入与月储蓄的样本数据如下表:家庭编号月收入(百元)月储蓄(百元)193213531544176518762697228820792310102811113010123312要求:(1)计算相关系数;解释变量之间的关系;(2)拟一条回归模型并解释经济含义;(3)计算可决系数;说明系数含义;(4)计算回归估计标准差;(5)对回归系数进行显著性检验(显著水平5%);(6)若x0=40(百元),置信度为95%时,其置信区间是多少?ΣX=254,ΣY=92,ΣX2=5950,ΣY2=794,ΣXY=2164。解:1)r=0.9607;2)Yt=-0.328+0.3777x;3)r2=0.9234)S=0.8266(百元)5)t=10.9478>tα/2=2.2281,拒绝H0,回归系数显著;6)当x0=40时:Yt=-0.328+0.3777×40=14.78(百元);置信区间为:(百元)21.1735.126667.5736944.35412118266.02281.278.14ty习题3、现有8个企业的月产量和生产费用资料如下表:月产量(吨)1.223.13.856.17.28生产费用(万元)628680110115132135160(1)计算相关系数,指出两者之间的相关程度;(2)计算判定系数,并解释;(3)用最小平方法配合生产费用对月产量的回归直线模型;指出回归系数的经济含义;(4)估计回归的标准误差;(5)当月产量为7吨时,估计生产费用95%的置信区间。19697.0288010421484.3654.20788804.366.454482)1(:222222yynxxnyxxynr解1305.5184.369.128880ˆ29.124.3654.20788804.366.45448ˆ3ˆˆˆ)2(222xxnyxxynxy(3)回归系数的经济含义为当月产量每变动1吨时,生产费用同方向平均变动12.9万元。(2分)