计量经济学复习课3相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时,变量y的取值可能有几个4.如果是线性的,则各观测点分布在直线周围xy4散点图(scatterdiagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关5相关系数(计算公式)样本相关系数的计算公式22)()())((yyxxyyxxr或化简为2222yynxxnyxxynr6相关系数(取值及其意义)1.r的取值范围是[-1,1]2.r=1,为完全正相关r=-1,为完全负相关r=0,不存在线性相关关系3.|r|越趋于1表示线性关系越密切;|r|越趋于0表示线性关系越不密切完全负相关-1.0+1.00-0.5+0.5无线性相关完全正相关负相关程度增加r正相关程度增加7回归的现代释义•回归分析是关于研究一个因变量对另一个或多个解释变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计或预测前者的(总体)均值。8“回归分析”的相关知识点•总体回归函数、总体回归线、总体回归模型•随机误差项•样本回归函数、样本回归直线•回归模型中的参数估计(假设条件与最小二乘法)•参数估计量的概率分布•回归模型中参数的置信区间估计•回归模型中对参数的显著性检验(假设检验)•样本回归线对样本点的拟合情况(拟合优度)•利用样本回归模型进行预测10回归分析的主要目的iiieYˆY即,根据iiiiieXeYY10ˆˆˆ估计iiiiiXXYEY10)|(根据样本回归函数SRF,估计总体回归函数PRF。iii)X|Y(EY11利用最小二乘法得到的参数估计量22122220)(ˆ)(ˆiiiiiiiiiiiiiXXnXYXYnXXnXYXYXXYxyxiii1021ˆˆˆ称为OLS估计量的离差形式。由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量。12当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,是否是参数真实值的良好近似。最小二乘估计量的性质可从如下几个方面考察总体的估计量优劣性:1、线性性2、无偏性3、有效性这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。•β0、β1的方差与概率分布•总体方差估计值14TSSRSSTSSESSR1记2可决系数R2统计量称R2为(样本)可决系数/判定系数。可决系数的取值范围:[0,1]R2越接近1,说明实际观测点离样本线越近,拟合优度越高。方差分析表方差来源自由度平方和均方F值P值回归平方和k-1ESSP(FF临界值)=P残差平方和n-kRSS总平方和n-1TSS注:为此处的k为自变量个数+常数项个数。1kESSknRSSknRSSkESS116参数估计量只是参数真实值的近似,不仅与参数真实值有偏差,而且本身不能说明偏差的大小。置信区间则限定了其偏差程度。参数的置信区间iˆiˆ1–aa/2a/2xa1)ˆˆ(P一元线性模型中,i(i=0,1)的置信区间在μi的正态性假定下,OLS估计量和本身就是正态分布的。),(~ˆ2211ixN)1,0(~/ˆˆ2211ˆ111NxZi)2(~ˆˆˆ2211ˆ111ntxSti2neˆ2i2意味着,如果给定置信度(1-a),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-ta/2,ta/2)的概率是(1-a)。表示为:Pttt()aaa221即Ptstiii()aaa221Ptstsiiiii()aaa221显著性水平和拒绝域0临界值临界值a/2a/2样本统计量拒绝H0拒绝H01-a置信水平(1)对总体参数提出假设H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值10ˆH1ˆSt(3)给定显著性水平a,查t分布表得临界值ta/2(n-2)假设检验步骤(4)比较,判断若|t|ta/2(n-2),则拒绝H0,接受H1;若|t|ta/2(n-2),则拒绝H1,接受H0;对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:)2(~ˆˆˆ0ˆ022200ntSxnXtii•置信区间估计(1-α)•对条件均值:0202ˆ00ˆ0ˆ)|(ˆYYStYXYEStYaa23对个别值00202ˆ000ˆ0ˆˆYYYYStYYStYaa下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:地区人均GDP(元)人均消费水平(元)北京辽宁上海江西河南贵州陕西224601122634547485154442662454973264490115462396220816082035(1)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。(2)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(3)计算判定系数,并解释其意义。(4)检验回归方程线性关系的显著性(a=0.05)。(5)如果某地区的人均GDP为5000元,预测其人均消费水平。(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:地区人均GDP(元)人均消费水平(元)北京辽宁上海江西河南贵州陕西224601122634547485154442662454973264490115462396220816082035(1)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。(2)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。(3)计算判定系数,并解释其意义。(4)检验回归方程线性关系的显著性(a=0.05)。(5)如果某地区的人均GDP为5000元,预测其人均消费水平。(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。(1)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。2222yynxxnyxxynr227*65100742127101240510.9981237*1904918867857397*134690076631609说明两个变量之间高度相关(2)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。0ˆ4515.5714290.308683*12248.428127*6510074212710124051ˆ=0.30877*190491886785739=734.6928回归系数的含义:人均GDP每增加1元,人均消费增加0.309元。(3)计算判定系数,并解释其意义。人均GDP对人均消费的影响达到99.6%。81444968.68==0.996381750763.71(4)检验回归方程线性关系的显著性(a=0.05)。112222122ˆ21ˆˆˆ467050.922ˆ0.025ˆ00.308712.3480.025iiiieyxnnSxTS提出假设H0:1=0人均消费水平与人均GDP之间的线性关系不显著计算检验统计量T确定显著性水平a=0.05,ta(7-2)=2.5706作出决策:若Tta(7-2),拒绝H0,线性关系显著ˆy=734.6928+0.3087xˆy=734.6928+0.308683*5000=2278.1078(5)如果某地区的人均GDP为5000元,预测其人均消费水平。某地区的人均GDP为5000元,预测其人均消费水平为2278.1078元。(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。解:已知n=7,ta(7-2)=2.5706置信区间为21ˆ305795.034361159.007225niiieyySSEsnnniiexxxxnsnty1220201)2(ˆa250004515.571412278.10782.5706*61159.007713625127.29人均GDP为5000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399]1990.74915E(y)2565.46399解:根据前面的计算结果,已知n=7,ta(7-2)=2.5706预测区间为21ˆ305795.034361159.007225niiieyySSEsnn250004515.571412278.10782.5706*61159.0071+713625127.29人均GDP为5000元时,人均消费水平95%的预测区间为[1580.46315,2975.74999]。01580.46315()2975.74999Ey作业参考答案证: