回归分析•相关系数--双向关系•回归方程--单向关系•一元线性回归•一元线性回归方程的检验•一元线性回归方程的应用•多元线性回归简介一元线性回归•一元线性回归是指只有一个自变量的线性回归(linearregression)。•回归线(regressionline)–一条最能代表散点图上分布趋势的直线,这条最优拟合线即称为回归线。–常用的拟合这条回归线的原则,就是使各点与该线纵向距离的平方和为最小。回归线回归线回归线回归线回归方程•确定回归线的方程称回归方程。bXaYˆXbaYYXYXˆYbaXXYXYˆ回归方程的建立•用最小二乘方法求回归系数(regressioncoefficient)nXXnYXYXXXYYXXbniiniiniininiiiiniiiniiYX/)(/)()()()()(2112111121与相关系数r比较YXniiiSnSYYXXr1))((回归方程的建立•求截距(intercept)XbYaYXYX由Y估计XnYYnYXYXYYYYXXbniiniiniininiiiiniiiniiXY/)(/)()()()()(2112111121YbXaXYXY语文成绩与智商序号XYX2Y2XY123456789101178716885757372657066741361351201401301281221181191081206084504146247225562553295184422549004356547618496182251440019600169001638414884139241416111664144001060895858160119009750934487847670833071288880总和797137658069173038100139计算368.111/7975806911/1376797100139/)(/)()(22112111nXXnYXYXbniiniiniininiiiiYX96.2545.72368.109.125XbYaYXYXXY368.196.25ˆ一元线性回归方程的检验•三种等效的方法:–对回归方程进行方差分析–对两个变量的相关系数进行与总体零相关的显著性检验;–对回归系数进行显著性检验。测定系数•回归平方和(regressionsumofsquares,explained~)•残差平方和(residualsumofsquares,error~,unexplained~)niiiniiniiYYYYYY121212)ˆ()ˆ()(测定系数•测定系数(coefficientofdetermination)指回归平方和在总平方和中所占比例,这个比例越大,意味着误差平方和所占比例越小,预测效果就越好。测定系数同时等于相关系数的平方。niiniiYYYYr12122)()ˆ(例题企业12345678910产量(X)40424855657988100120140费用(Y)150140160170150162185165190185XY3978.07909.134ˆ6524.01000.25543577.1666)()ˆ(12122niiniiYYYYr对回归方程的方差分析方差来源平方和自由度均方差F值回归SSR1MSRMSR/MSE残差SSEn-2MSE总差异SSTn-1)2,1(221212~)2/()1()2/()ˆ()ˆ(nniniFnrrFnYYYYF 或 方差分析•F0.05,1,8=5.32•F0.01,1,8=11.3方差来源平方和自由度均方差F值回归1666.357711666.357715.0166残差887.74238110.9678总差异2554.10009对回归系数进行显著性检验•估计误差的标准差–由于与X各点相对应的诸YX值之平均数和标准差均为未知,故估计误差的标准差只能从样本加以估计。其无偏估计量为:2ˆ12nYYSniiiYX对回归系数进行显著性检验•在回归线上,当与所有自变量X相对应的各组因变量Y的残值都呈正态分布,并且残值方差为齐性时,可以用以下公式进行显著性检验。公式)2/()ˆ()()()(012121212nYYXXbSXXbXXSbSbtniiiniiYXYXniiYXniiYXYXbYXYX一元线性回归方程的应用•用样本回归方程推算因变量的回归值•点估计:语文成绩为80分的学生的智商是多少?•区间估计:体重为20千克的男童的简单反应时95%的置信区间=(550±1.96×93.67)=(550±183.6)或(366.4,733.6)00ˆXbaYYXYXYXnStY2,2/ˆ4.13580368.196.25368.196.25ˆ00XY一元线性回归方程的应用•对因变量真值的预测–回归方程是由样本数据列出的,由于抽样误差的影响,其回归值并不是因变量的真值。要预测其真值还需考虑到各样本回归方程之间的变异。对因变量真值的预测二元线性回归方程•二元线性回归方程是指一个因变量Y与两个自变量X1与X2之间建立的线性回归方程。•二元线性回归方程也用最小二乘法来确定回归系数。2211ˆXbXbaY•式中各个L都是相应的离差平方和或离差乘积和二元线性回归方程的偏回归系数21222111222211LLLLLLLbYY21222112111122LLLLLLLbYY例题序号数学成绩Y学习能力X1逻辑学X212345678910836774487266905471658868766074578662634575476057796367587069答案21413.0606.0214.1ˆXXY二元线性标准回归方程•为了比较两个自变量在估计预测因变量时所起作用的大小,需要将三个变量分别转换成标准分数,然后比较由标准分数所建立的标准回归方程中的两个标准回归系数,以此判断两个自变量作用的大小。2121316.0655.0ˆ*2*1XXXXYZZZbZbZ二元线性回归的检验•二元线性回归的检验–检验回归方程的显著性–检验两个偏回归系数的显著性二元线性回归的检验•二元线性回归方程的显著性检验方法:–方差分析–复相关系数(multiplecorrelationcoefficient)显著性检验。•复相关系数表示两个自变量组合起来与因变量之间的相关程度。可通过对二元测定系数开平方根得到,然后通过查表进行显著性检验。niiniiYYYYYR1212122)()ˆ(二元线性回归的检验•偏回归系数(partialregressioncoefficient)的显著性检验)1(0)1(021222221211121rLMSEbtrLMSEbtbb3)ˆ(12nYYMSEniii多元线性回归方程pYpppppYppYppLLbLbLbLLbLbLbLLbLbLb............22112222221111122111ppXbXbXbYa...2211多元线性回归方程中自变量的选择•穷举法–对所有可能的回归方程逐一检验,选择一个显著性程度最强的方程。•逐步回归(step-wiseregression)–逐步回归的原理是按每个自变量对因变量的作用,从大到小逐个地引入回归方程–每引入一个自变量要对回归方程中的每一个自变量都进行显著性检验(即对其偏回归系数进行显著性检验)–逐步地引入自变量,并剔除不显著的自变量、–直至将所有的自变量都引入,并将不显著的自变量都剔除为止–最后形成的回归方程就是最优方程。其他回归问题XeYXbXbaYXbXaYXbXbaYbXaY1ˆˆˆˆˆ22211212212