2020/1/21项目管理硕士研究生基础学位课——《统计学》课件第六章相关与回归分析2020/1/21第六章相关与回归分析本章教学目的:相关分析是研究变量之间相互关系的一种重要的统计方法,通过本章的学习,使学生:了解相关分析的意义,相关的种类、回归分析的概念,掌握相关系数的计算和简单线性回归分析。本章教学重点:相关分析、回归分析本章教学难点:回归分析本章教学学时:4学时2020/1/21第一节相关分析的意义和内容一、相关分析的涵义(一)变量间依存关系1.函数关系存在严格的数量依存关系。2.相关关系存在不确定性的依存关系。(二)相关分析研究两个或两个以上变量之间的相关方向和相关程度的统计分析方法。2020/1/21二、相关关系的种类(一)按变量之间相关的程度1、完全相关如销售额与销售量之间的关系(价格不变)2、完全不相关注意:虚假相关。如天气与股票价格的关系3、不完全相关如居民的收入与支出水平2020/1/21(二)按相关关系涉及变量的多少1、单相关:一个变量对另一个变量的相关关系。如只研究农物产量与施肥量间的关系。2、复相关:一个变量对两个或多个变量的相关关系,称复相关。如研究农物产量与施肥量、降雨量间的关系。3、偏相关:一个变量与多个变量相关时,假定其他变量不变,只研究其中两个变量之间的相关关系,称偏相关。2020/1/21(三)按变量之间相关关系的表现形态1、线性相关:两种变量之间大致呈线性关系。2、非线性相关(或曲线相关):两种变量之间不呈线性关系,近似某种曲线方程的关系。Y轴X轴强正相关Y轴X轴曲线相关2020/1/21(四)对线性相关,按相关变量变化的方向1、正相关如工人工资与劳动生产率;人均消费水平与人均收入水平等。2、负相关如商品流转额与流通费用。Y轴X轴强正相关Y轴X轴强负相关2020/1/21第二节线性相关的测定一、相关表(一)简单相关表机床1234567891011使用年限22344556668年维修费用(元)4005405206407406008007007609008402020/1/21(二)单变量分组相关表使用年限机床数(台)平均维修费用224703152042690527006378781840911080合计12--2020/1/21(三)双变量分组相关表年维修费用(元)机床使用年限(年)合计23456891000—110000000011900—100000001001800—90000010102700—80000102003600—70000110002500—60011000002400—50010000001合计2122311122020/1/21二、相关图0200400600800100012000246810年维修费使用年限2020/1/21三、相关系数(一)基本公式:最先由卡尔.皮尔逊提出衡量一元线性相关的密切程度。22222221()()11()()()()xyxyxxyynrxxyynnnxyxynxxnyy2020/1/212(),()ExDxyabx令22(),()EyabDyb则:222()()()ExyEaxbxab222(,)()()()()()CovxyExyExEyababb2(,)()()CovxybrbDxDy2020/1/21(二)性质:(1)相关系数r的取值范围:-1≤r≤1(2)方向、类别r0为正相关,r0为负相关;r=0表示不存在线性关系;|r|=1表示完全线性相关;(3)程度0|r|1表示存在不同程度线性相关:|r|≤0.3为不存在线性相关0.3|r|≤0.5为低度线性相关;0.5<|r|≤0.8为显著线性相关;|r|>0.8为高度线性相关。2020/1/21例:P254某地区居民货币收入和社会商品零售额资料如下,试计算其相关系数,并作相关判别?单位:亿元年份12345678居民货币收入1213141514161820社会商品零售额10121213131415172020/1/212(1)122,1910xxx存储:2(2)y106,1436yy存储:(3)1655xyxy存储:222222(4)()()81655-122106308=0.975315.899(81910-122)(81436-106)rnxyxyrnxxnyy求:2020/1/212020/1/212020/1/21第三节回归分析一、回归分析的概念指在相关分析的基础上,根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化,并据以进行因变量的估计或预测的统计分析方法。二、相关分析与回归分析的关系区别:1、相关分析中x与y对等,回归分析中x与y要确定自变量和因变量(随机变量);2020/1/212、相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制;3、相关分析只有一个结果;而在回归分析中,自变量与因变量互换可以拟合两个独立的回归方程。联系:1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的继续和深化。xyyxrr2020/1/21三、简单线性回归1.回归分析的种类按自变量的个数分(1)一元回归(简单回归)多元回归(复回归)按回归曲线的形态分(2)线性回归非线性回归一元线性回归2020/1/212.一元线性回归模型ˆ()YEYX假定E()=0则总体一元线性回归方程为:YX对于经判断具有线性关系的两个变量与,构造一元线性回归模型为:YX式中:与为模型参数,为随机误差项2020/1/213.一元线性回归方程的几何意义)(YEXXYˆ一元线性回归方程的可能形态为正为负为0截距斜率2020/1/21XYEYˆ总体一元线性回归方程:样本一元线性回归方程:bxayˆ斜率(回归系数)截距截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。2020/1/214.一元线性回归方程中参数a、b的确定:bxayˆ基本数学要求:min)ˆ(0ˆ2yyyy最小平方法xbynxbnyaxxnyxxynb22)(2020/1/21例:某地区居民货币收入和社会商品零售额资料如下,试拟合社会商品零售额依居民货币收入变动的线性方程?(单位:亿元)年份收入x零售额y11210213123141241513514136161471815820172020/1/21当居民货币收入每增加1亿元时,社会商品零售额平均增加0.7778亿元。222816551221060.777881910122nxyxybnxx1061220.77781.388588aybxˆ1.38850.7778yabxx2020/1/212020/1/215.回归系数b与相关系数r的关系:四、一元线性回归方程检验(一)离差平方和的分解1.总平方和(SST)2.回归平方和(SSR)反映由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和。3.残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。0,0rb0,0rb0,0rb10名学生的身高与体重散点图4045505560657075158160162164166168170172174176178身高(X)体重(Y)yyˆyyyyˆyyˆ2)yy(SST2)yˆy(SSE2)yyˆ(SSR剩余平方和回归平方和总离差平方和2020/1/21(二)可决系数(r2)回归平方和占总离差平方和的比例。1.取值范围在[0,1]之间;r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差;2.判定系数等于相关系数的平方,即r2=(r)22020/1/21实际分析中,只有相关系数大到一定程度时,才认为两变量的线性相关关系显著,回归方程才有意义,因此有必要进行相关系数检验。r检验步骤:①据公式计算相关系数r;②根据给定的显著水平查相关系数表(见p316),得临界值③判别:若表明x与y线性关系显著,检验通过;反之表明x与y线性相关关系不显著。r)2n(rr(2)nr2020/1/21(三)估计标准误差是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强。其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。可从一方面反映回归模型拟合的优劣状况。22)ˆ(22nxybyaynyySe2020/1/21(四)回归方程的显著性检验——F检验(线性关系的检验)检验自变量和因变量之间的线性关系是否显著。具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著:如果是显著的,两个变量之间存在线性关系;如果不显著,两个变量之间不存在线性关系。2020/1/211.提出假设H0:线性关系不显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F4.作出决策:若FF,拒绝H0;若FF,接受H0回归方程的显著性检验:p311:表F分布临界值2020/1/21例题:检验上面例题回归方程是否具有显著性?000H假设:,22ˆ()ˆ()229.943115.391.5556/6yyFyyn0.05,5.99115.395.99F0.05(1,8-2)查F分布表得临界值F,拒绝原假设。2020/1/21五、应用相关与回归分析注意的问题1.在定性分析的基础上进行定量分析;2.要注意现象质的界限及相关关系作用的范围;3.要将各种分析指标结合应用;4.要尽可能使用大样本。2020/1/21统计案例分析与讨论