第11章 回归及相关分析概要

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十一章相关及回归分析§1相关与回归的意义一、相关(correlationanalysis)1.定义:研究两种或两种以上变数(事物)的相关变异的程度叫相关。2.意义:相关分析只能研究两事物或两个以上事物之间相互关系及其相互影响的程度。而不能说明它们之间具有因果或依存关系。3.相关分析的种类直线相关;曲线相关。(简单相关);(复相关)二、回归分析(regressionanalysis)1.定义:研究一种变数受一种或一种以上变数的影响程度的统计分析方法。2.意义:回归分析不仅研究事物间的关系,而且研究事物之间的依存关系。因而可用一种事物(自变量x)去推测另一种事物(因变量)的变异规律。3.回归分析的种类直线回归;曲线回归。(一元回归);(多元回归)四、回归和相关分析中要注意的问题1.变数间是否存在相关,及在什么条件下发生什么样的相关,必须由各具体学科本身来决定。2.研究一个事物(y)和另一个事物(x)的相关或回归关系,要求其余事物的均匀性必须得到尽可能的严格控制3.两个变数的成对观察值尽可能多一些,并且x取值范围尽可能大一些,一般应在10对以上观察值。22/nyySxy212nrSrSr:相关系数标准误Sy/x:回归标准误§2直线回归一、直线回归方程的建立对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值(x1,y1),(x2,y2),……,(xn,yn)02468101201234567891011xyx变量和y变量散点图从上图中可以看出:散点图直观、定性地表示了两个变量之间的关系。①、两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;②、两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切)。1、直线回归方程:在x、y直角坐标平面上可以作出无数条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。用一个数学表达式来描述这条回归直线,这个数学表达式叫做回归方程。bxayˆ其中:a、b为两个参数;yˆ为依变量估计值。2、回归方程的性质:①、离回归和等于0。即:0)ˆ(yyyˆ其中:y为观察值;为拟合方程的理论值②、离回归平方和最小。=最小=22)ˆ(bxayyyQxy③、回归直线必须通过P()坐标点,3、最小二乘法求参数a,b根据第二个性质,用微积分学中的求极值的方法,令Q对a、b的一阶偏导数等于00)(2bxayaQ00bQaQ即:0)(2xbxaybQ整理得正规方程:XxySSSPxxyyxxnxxnyxxyb222)())(()())((yxbnaiyxxbxai2这种求正规方程的方法叫最小二乘法。解方程组得:xbya))((yyxxxySP2)(xx式中的分子是自变量x的离均差与依变量y的离均差的乘积和,分母是自变量x的离均差平方和,,记作SSX。简称乘积和,记作;yˆa叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;b叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度;yˆ叫做回归估计值,是当x在其研究范围内取某一个值时,y值的平均数。①②③①、a﹥0,b﹤0②、a﹥0,b﹥0③、a﹤0,b﹥0直线回归方程bxayˆ的图像xy从上图可以看出,由于两个参数(a,b)不同,回归直线在坐标中的位置不同。二、回归方程的拟合步骤:例:P160例9.11、将原始观察值在直角坐标上描散点,看该散点是否大致在一条直线上,若在,可拟合成直线。累积温和一代三化螟盛发期的关系注:y以5月10日为0x(积温)35.534.131.740.336.840.231.739.244.2333.7y(盛发期)12169273139-170-505101520303234363840424446xyxyxyP(,)xy1.155.48ˆ累积温和一代三化螟盛发期的关系的散点图及回归直线2、计算回归系数bxxySSSPnxxnyxxyxxyyxxb222)())(()())((=0444.159nyxxySPxy=6356.14422nxxSSx=1.16356.144044.159==b)(5486.45天xbya7778.70778.37xy3、将计算的参数b,a代入方程中得到拟合的方程。xy1.155.48ˆ4、绘制直线回归方程yx,1ˆy2ˆy11ˆ,yx22ˆ,yx①、在直角坐标中找到P(②、用原始资料中x的最大或最小值,求算相对应的和,用点P()或P()这个坐标点)在坐标上标点,通过两点,则可得到回归直线。三、回归关系的显著性测定实际观察值y与估计值的差异,就是回归误差22)ˆ(2/nQnyySexyyˆ1.回归标准误Sy/x是用来衡量实际观察值y与拟合方程计算的yˆSy/x与回归方程估计的准确度成反比。值差异大小的统计量。为离回归平方和;n-2为自由度2ˆyy2.回归标准误的计算xxyySSSPSS2)(2)(212/nQSSSPSSnSexxyyxy离回归平方和SSy:y观察值的平方和;SPxy:x与y乘积平方和;SSx:x观察值的平方和2ˆyyQeeQ:离回归平方和3.回归关系的显著性检验(F检验):若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断。yˆ)ˆ()ˆ()(yyyyyy2)(yy2)]ˆ()ˆ([yyyy)ˆ)(ˆ(2)ˆ()ˆ(22yyyyyyyy上式两端平方,然后对所有的n点求和,则有:从图看到:1)平方和的分解:=0)(ˆxxbyy)ˆ)(()ˆ)(ˆ(yyxxbyyyy)()())((xxbxxbyyxxb因为:)]())[((xxbyyxxb所以:)(ˆxxbybxxbybxayxxySSbSPb202xxxyxyxxySSSSSPSPSSSPxbya2)(yy22)ˆ()ˆ(yyyy2)(yy2)ˆ(yy反映了y的总变异程度,称为y的总平方和,记为SSy反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;2)ˆ(yy反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。所以有:其中:总平方和回归平方和离回归平方和rRySSSSSS这表明y的总平方和SSy剖分为:回归平方和SSR与离回归平方和SSr两部分。y的总自由度dfy也分解为:回归自由度dfR与离回归自由度dfr两部分,2)自由度的分解:rRydfdfdf即:y的总自由度:1ndfy1Rdf回归自由度:2ndfdfdfRyr=离回归自由度:RRRdfSSMS回归均方(方差):离回归均方:rrrdfSSMSn:观察值的对数自变量的个数3)计算均方(方差)4)列方差分析表进行F检验F检验的步骤:22)]([)ˆ(xxbyySSR①、建立无效假设:H0:总体中x与y不存在直线回归②、确定α③、计算统计量回归平方和计算公式:xSSbxxb222)(XxxySSSSSP2xxySSSP222)(xxb1/)(22RSSxxbrRMSMSSSxSPSSxyy2)(YSSyy=2)(xxySSSP2方差分析表变异来源自由度(df)平方和(SS)均方(MS)F回归1MSR=离回归n-2总变异n-12rnSSMSr=离回归平方和计算公式为:RyrSSSSSS)2/(//nSSSSdfSSdfSSMSMSFrRrrRRrRxxyySSSPSS2依自由度dfR=1,dfr=n-2查F表,得Fα若,F>Fα,则推翻H0说明总体中x与y存在显著或极显著直线回归关系。④、方差分析F检验4、回归系数的显著性检验—t检验①建立无效假设H0:β=0x与y不存在直线回归关系②选择α③计算回归系数标准误xxybSSSxxnyyS/22)()2()ˆ(bSbt依dfr=n-2,查t表,得ttα﹤t,则推翻假设。④计算t值在以上分析中,主要要计算三个平方和SPxy:乘积平方和:SSy:依变量平方和:SSx:自变量平方和:nyxxySPxy=nxxSSiix22=nySSiy22iy=例:方程xy1.16.48ˆ检验如下:1)方差分析法b=-1.1SSy=249.6SSx=144.6SPxy=-159.0方差分析表变异来源自由度平方和均方F值F0.01回归1174.886174.916.40**12.25离回归774.66710.7总平方和8249.66F﹥F0.01,说明x与y有极显著的直线回归关系。2)t测验建立无效假设:H0β=0(回归系数=0)计算回归系数标准误:xxybSSSS/SSxSPSSnSyxy2/)(2127.36.144)0.159(6.24971207.427.01.16.144/27.31.1bbSt计算t值:查表t0.05(7)=2.36t0.01(7)=3.50tt0.01说明x与y存在极显著的回归关系。§3直线相关一、相关程度的表示1.相关系数(coefficientofcorrelation)r:表示两个变数相关的密切程度的统计量2.相关的种类r=±1表示完全相关r=0表示不相关r=+1叫完全正相关r=-1叫完全负相关0﹤|r|﹤1表示不完全相关0﹤|r|﹤0.7表示弱相关0.7≤|r|1表示强相关22)()())((yyxxyyxx二.相关系数计算1)(1)(1))((22nyynxxnyyxxryxxySSSSSP例9.1相关系数计算(P160)8371.06.2496.1440.159rSSy=249.6SSx=144.6SPxy=-159.0三、决定系数r2(coefficientofdetermination)222)()ˆ(yyyyr2)ˆ(yy回归平方和:总平方和:2)(yyyxyxxyyxxySSSPSSSPSSSSSPyyyyr2222)()ˆ(yxxySSSSSP2222)()ˆ(yyyyryxxySSSSSP12xxySSSP22ˆyy因为:ySSyy=2所以:yxxySSSSSP20≤r2≤1决定系数为正值决定系数只表示相关程度不表示相关性质yxxySSSSSPr因为:所以,决定系数实质是相关系数的平方。四、相关系数的检验1.t测验①、建立无效假设H0x与y不相关。②、计算统计量,212nrSr相关系数标准误Sr和t值rSrttt③、依n-2查t表得tα④、用tα与计算的t值比较,若,则推翻假设。07.42067.08372.02067.07)8372.0(12tSr上例t0.01(7)=3.501.0tt,故相关极显著2.查表法:rrr72ndf666.0)7(05.0r787.0)7(01.0r

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功