第三节线性回归的显著性检验及回归预测在回归分析中,要检验因变量Y与自变量X之间到底有无真正的线性关系,可以通过回归系数的显著性检验(t检验)或回归方程的显著性检验(F检验)来判断.1一、回归系数的显著性检验回归系数显著性检验的目的是通过检验回归系数β的值与0是否有显著性差异,来判断Y与X之间是否有显著的线性关系.若β=0,则总体回归方程中不含X项(即Y不随X变动而变动),因此,变量Y与X之间并不存在线性关系;若β≠0,说明变量Y与X之间存在显著的线性关系.①提出原假设与备择假设:01:0;:0HH3②构造检验统计量③根据已知条件实际计算统计量t的值;~(2)()bttnSb④比较②与③中的计算结果,得到结论.21()()eiSbSbxx其中,为的样本方差,2222()()iixixxxnSxn2(2)tn给定显著性水平α,这是t分布的双侧检验,查表计算出临界值,得出拒绝域;回归系数的检验(例题分析)•对例题的回归系数进行显著性检验(=0.05)1.提出假设2.计算检验的统计量01:0;:0HH20.7961112.4572645()eibtSxx0.796116.65480.047820.0253.(2)(14)2.144816.6548,tntYX所以拒绝原假设,表示与之间存在显著的线性关系,即能源消耗量与工业总产值之间存在显著的线性相关关系.5二.回归方程的显著性检验(方差分析(F检验))检验两变量是否线性相关的另一种方法是方差分析,它是建立在对总离差平方和如下分解的基础上:22222222,()[]0,,iiciciiyiiiiExyiiRExyiiiiERyyyyyySSyynSyynxySSSSbnSSSbxynSSSSSSbnSbxxyaxSSSSSSaybx即:依赖:,,,,,n-1,2,1.ERERERERESSSSSSffffffffnfff三个平方和的自由度分别记为则它们之间也有等式成立:且:则注意:①提出原假设与备择假设:01:0;:0HH②构造检验统计量22222~(1),(2.~),REiSSSSn构造分布统计量:7221~(1,2)(2)(2).RREESSSSFFnSSSSnini构造统F分布计量:给定显著性水平α,查表计算出临界值,得出拒绝域(1,2)Fn((1,2),).Fn③根据已知条件实际计算统计量F的值;④比较②与③中的计算结果,得到结论.8方差分析——把总离差平方和及其自由度进行分解,利用F统计量检验两变量间线性相关显著性的方法称为方差分析.方差分析的结果归纳如下:离差来源平方和自由度F值回归剩余1n-2总计n-1一元线性回归的方差分析表2RciSSyy2EiciSSyy2iSSyy(2)RESSFSSn线性关系的检验(例题分析)1.提出假设2.计算检验统计量F01:0;:0HH222()26175(625)161760.9375()37887(916625)162105.750.79612105.751676.387684.54991676.3876277.5808(2)84.549914iixyiiiiRxyERRESSyynnSxyxynSSbnSSSSSSSSSFSSn103.确定显著性水平=0.05,并根据分子自由度1和分母自由度14找出临界值F=4.604.作出决策:若FF,拒绝H0,认为能源消耗量与工业总产值两变量间的线性相关关系是显著的.离差来源平方和自由度F值回归剩余114总计151676.3876RSS84.5499ESS2105.75SS277.5808F三、利用回归方程进行估计和预测点估计1.对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值cy2.点估计值有y的平均值的点估计y的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同y的平均值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计–在能源消耗量与工业总产值的例子中,假如我们要估计能源消耗量为78十万吨的平均工业总产值,那么将78十万吨代入估计的回归方程,就得到了工业总产值的点估计:0()6.51420.79617855.5816()Ey亿元y的个别值的点估计•利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计.–例如,如果我们只是想知道能源消耗量为80万吨的工业总产值是多少,则属于个别值的点估计。根据估计的回归方程得cy6.51420.79618057.1738()cy亿元区间估计区间估计1.点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计2.对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间3.区间估计有两种类型–置信区间估计(confidenceintervalestimate)–预测区间估计(predictionintervalestimate)置信区间估计1.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间,这一估计区间称为置信区间(confidenceinterval)2.E(y0)在1-置信水平下的置信区间为式中:se为回归估计标准差202211(2)ceniixxytnsnxx置信区间估计(例题分析)【例】求出工业总产值的点估计为100亿元时,工业总产值95%置信水平下的置信区间.解:根据前面的计算结果,已知n=16,•se=2.457,t(16-2)=2.1448•置信区间为当工业总产值的点估计为100亿元时,工业总产值的平均值在97.9167亿元到102.0833亿元之间.100cy21(7357.25)1002.14482.457162645097.9167()102.0833Ey预测区间估计1.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间(predictioninterval)2.y0在1-置信水平下的预测区间为注意!202211(2)1ceniixxytnSnxx置信区间、预测区间、回归方程yxcyabx0bx0x影响区间宽度的因素1.置信水平(1-)–区间宽度随置信水平的增大而增大2.数据的离散程度Se–区间宽度随离程度的增大而增大•3.样本容量–区间宽度随样本容量的增大而减小•4.用于预测的x0与x的差异程度–区间宽度随x0与x的差异程度的增大而增大预测区间估计(例题分析)【例】求出能源消耗量为73十万吨时,工业总产值95%置信水平下的置信区间解:根据前面的计算结果,已知n=16,se=2.457,t(14)=2.1448•置信区间为能源消耗量为73十万吨时,其工业总产值的预测区间在45.9345亿元与57.2677亿元之间.6.51420.79617351.6011()cy亿元21(7357.25)51.60112.14481.4571162645045.934557.2677y预测区间估计(大样本)1.y0在1-置信水平下的预测区间为2ceyZS000{1}68.27%{2}95.45%{3}99.73%cececeyyPSyyPSyyPS特别:23cyabx0b24作业:P2231、4、6、7