回归分析任课教师:禤宇明中国科学院心理研究所2本章基本内容相关和回归一元回归分析最小二乘估计、回归系数、回归估计的标准误、决定系数回归方程的有效性检验多元回归分析多元决定系数31.相关和回归1.1散点图scatterdiagram学习分数和行为分数的关系012345678012345678行为分数学习分数r=0.78**均值以上均值以下均值以上71均值以下210行为分数学习儿童行为学习快乐1212222332344245524763337345842394341044511456125441355514566156441666517666186771976420777Mean4.254.34.754快乐分数和行为分数的关系012345678012345678行为分数快乐分数r=0.38均值以上均值以下均值以上65均值以下36行为分数快乐儿童行为学习快乐1212222332344245524763337345842394341044511456125441355514566156441666517666186771976420777Mean4.254.34.7551.2平方和、积矩和、协方差sumofsquaressumofproductscovariance2222cov11covXxxXYxyXYXYXXXYXYXSSXXXlNXYSPXXYYXYlNSPNSSSNrSS61.3回归分析regressionanalysis回归分析:确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系形式它可以从一个变量的变化来预测或估计另一个变量的变化只有一个自变量的线性回归叫一元线性回归或简单线性回归寻找一条最佳拟合直线best-fittingline,使得预测值predictedvalue和观测值observedvalue之间的误差最小72.一元回归分析2.1回归线theregressionline的值)时(截距对应的变化量)变化一个单位时(回归线的斜率的预测值YXaYXbYYbXaYˆ0interceptˆslopeˆˆ从行为分数预测学习分数012345678012345678行为学习学习预测学习8最佳拟合直线best-fittingline2ˆ0ˆ,ˆresidualYY-YY-YXYY-最小二乘估计:的直线,对所有经过:残差之间的误差最小目标:预测值和观测值92.2回归线的求解XYXXYeeeeSSrSXXNYXXYNbXbYNXbYaXYYaXbYXbNaXYYaXbYaXYXbYaXYXbaXXYbXbSSYXbNaXbYNaXbYNabXYaaSSabXbXYaYXbaYbXaYYYSSYYSSbXaY222222222222222cov0022222200222222222ˆˆ;ˆ令令正规方程组normalequationsQ10XYNXbYaXXNYXXYNb7532.00987.1ˆ0987.120857532.0867532.08541920868540920222从行为分数预测学习分数012345678012345678行为学习学习预测学习儿童行为X学习YXYX*X12124222443236442484524846339973412984281694312161044161611452016125420251355252514563025156424361666363617663636186742361976424920774949Mean4.254.3Total8586409419112.3对回归系数的解释0tcoefficienregressionedStandardiz0,1ˆslopecovˆ0interceptˆ2arbYXSSYXYYXSSrSbYXXbYabXaYXYXYXXY此时系数表示),称为标准回归(一般改用此时都转化成标准分数后,和当的变化率的估计的变化量,即对变化一个单位时回归线的斜率的值)时(截距122.4从给定的X来估计对应的Y无穷大的样本取给定X对应的所有Y的均值作为估计值对应于某个X的所有Y称为Y的条件分布conditionaldistribution有限样本从行为分数预测学习分数012345678012345678行为学习学习预测学习YYˆ估计用132.5预测的准确性如果需要你去猜测某个班的每个学生的某次考试的成绩,而只告诉你该班的平均分,怎样猜才能误差最小?标准差作为误差的度量22211YYYYYSNYYSSSNdf14估计的标准误P208倒数第12行standarderrorofestimateresidualerrorXYXYerrorXYSSSSbaNdfSYXSdfSSNYYS也被表示成有时都是从样本数据估计的和,因为或误差方差称为残差方差的标准差预测的其下标表明为从22ˆanceerrorvarivarianceresidual22152.6回归的有效性检验2.6.1误差平方和(公式推导参考P207)相关越高,误差越小相关越高,从X预测Y就越准确,误差就越小221ˆrSSYYSSYe222222121121121112rSNNrSSNNrSNNNrSSNSSSYYXYYYeXY162.6.2因变量变异的分解无关与有关与XXSSSSrSSrSSSSeYYYe22117研究吸烟量X和寿命Y之间的关系人的寿命总是有差异SSY吸烟的多少有差异SSX从X来预测Y,预测值为ŶŶ的变异SSŶ可从X的变异来解释吸烟量X变化,预测寿命Ŷ才变化吸烟量X不变,预测寿命Ŷ不变Y的部分变异X是无法解释的SSe吸烟量一样的人也会有不同的寿命18极端所有不抽烟的人寿命为72岁,所有抽烟的人抽一样多的烟且寿命都是68岁此时,寿命的变异可完全从抽烟的变异来预测实际寿命的变异有的可以从抽烟的变异来预测,其余部分不能从抽烟的变异来解释YeYYYSSSSSSSSSSrˆ2192.6.3决定系数(测定系数)r2coefficientofdetermination衡量回归方程有效性高低的指标回归平方和在总离差平方和中所占的比例因变量的变异中可以从自变量的变异来解释的比例YXSSrSS2YeYYYSSSSSSSSSSrˆ2202.6.4回归有效性检验对r的显著性的检验(复习)22212212100rNrNrrSrtNrSrrr来估计其标准误可用的正态分布,近似服从均值为时,当21对回归的有效性检验22212121XYrerXYeeerrrrreYereYYSSSMSMSFSdfSSMSSSdfSSMSNNdfNdfNdfQUSSSSSSSSrSS22对回归的有效性检验=对r的显著性检验P1602222222212212,1,1trNrNSSrSSrNSSSSrSSSMSMSFntnFFntnYYeYXYrer检验量,即为自由度的以检验量的平方等于为自由度的以232.7样本回归线和总体回归线根据样本数据的回归分析结果为样本回归线Ŷ=a+bX不同的样本对应于不同的样本回归线所有样本回归线都是总体回归线Ŷ=aX的一个估计所有样本回归线会在总体回归线附近波动对给定X,对应的总体回归线的Ŷ也称为主值,而某条样本回归线对应的Ŷi只是Ŷ的一个点估计所有Ŷi的平均值将为Ŷ24ŶŶiX252.8回归分析的应用预测已知X0,预测总体回归线对应的Ŷ0(主值)已知X0,预测新的观测值Y0控制已知Y的范围,控制X的范围262.8.1从X0预测总体回归线对应的Ŷ000ˆ220022022ˆˆˆ1YnXYYStYYXXXXNSSa的置信区间为可证明272.8.2从X0预测新的观测值Y0002200220220011enXYeStYYXXXXNSSYXa的置信区间为的误差方差预测可证明从28离样本平均数越近,估计越准确XY29XYX*XY*YX*YXYX*XY*YX*Y180296400841232026822867247842296278246084576187227782160844411638390308100900270028721951843611368492328464102429442964114096121704582286724784229630862673966762236672255184625180031752156254411575790278100729243032701549002251050884307056900252033701949003611330964154096225960346817462428911561076255776625190035581833643241044118428705678423523680236400529184012732053294001460379535902512253325136220384440012403855830256444014772359295291771396016360025696015792662416762054404051600252001695339025108931354155143025196770178524722557620404262173844289105418762357765291748434010160010040019722651846761872444512202514454020752556256251875455820336440011602184287056784235246722451845761728228022640048417604762233844529142623751956253611425486525422562516252478216084441163849682346245291564257023490052916105060153600225900Mean72.2621.82Total36131091269165258478240330P203例7-1XYNXbYaXXNYXXYNb441.0045.10ˆ045.105036134410.010914410.0361326916550109136138240350222从平时作文成绩X预测高考作文成绩Y-10010203040020406080100平时作文成绩X高考作文成绩YY预测YdfSSMSFpF0.05回归11573.121573.12161.255.84E-177.19残差48468.269.76总计492041.3831P212例7-48424.33,0337.211852.3011.2438.2795.01852.3116950.28,1810.266251.0011.2438.27ˆ95.0011.26251.062.809026.72855011233.311233.32438.2785441.0045.10ˆ0000220