华中农业大学数学建模系列课件第1讲回归分析华中农业大学汪晓银教授授课内容一元线性回归(知识回忆)一元非线性回归多元回归(线性与非线性)逐步回归与标准化回归1.1一元线性回归1.1.1一元线性回归参数估计一元线性回归可用来分析自变量x取值与因变量Y取值的内在联系,不过这里的自变量x是确定性的变量,因变量Y是随机性的变量。进行n次独立试验,测得数据如下:nnyyyYxxxX......2121力图建立回归方程的估计式或经验回归方程,ˆˆˆxy使及iibxaybaˆˆ,ˆniiiyyQ12)ˆ(使用最小二乘法进行参数估计niiibxay12)]([的值最小,所求出的a称为经验截距,简称为截距,b称为经验回归系数,简称为回归系数。1.1一元线性回归根据最小二乘法的要求由得,0,0bQaQ2)()()(,,xxlyyxxlllbxbYaxyxyxxxy1.1一元线性回归⑴F检验法:),2(~22nSSE当H0为真时,);(~122SSE且SSR与SSE相互独立;因此,当H0为真时,),,(~)(212nFnSSESSRF当F≥F1-α(1,n-2)时应该放弃原假设H0。1.1.2一元回归方程检验1.1一元线性回归(2)t检验法:),(~),,(~2222nSSElNbxx当H0为真时,),(~)(22nTnSSElbtxx当|t|≥t1-0.5α(n-2)时应该放弃原假设H0。1.1一元线性回归(3)r检验法:根据x与Y的观测值的相关系数,,yyxxxyyyxxxylllrlllr22可以推出.SSTSSRr2当H0为真时,),,(~)()(212122nFnrrF1.1一元线性回归当F≥F1-α(1,n-2)或|r|≥rα(n-2)时应该放弃原假设H0,式中的)(),(),()(22121211nnFnFnr可由r检验用表中查出。,SSTSSRr2因此,r常常用来表示x与Y的线性关系在x与Y的全部关系中所占的百分比,又称为x与Y的观测值的决定系数。1.1一元线性回归1.1.3利用回归方程进行点预测和区间预测若线性回归作显著性检验的结果是放弃H0,也就是放弃回归系数β=0的假设,便可以利用回归方程进行点预测和区间预测,这是人们关注线性回归的主要原因之一。⑴当x=x0时,的观测值预测用000ˆYbxay称为点预测。0y),()ˆ(000YExyE由于Y0的观测值y0的点预测是无偏的。1.1一元线性回归⑵当x=x0时,用适合不等式P{Y0∈(G,H)}≥1-α的统计量G和H所确定的随机区间(G,H)预测Y0的取值范围称为区间预测,而(G,H)称为Y0的1-α预测区间。若Y与样本中的各Y相互独立,则根据Z=Y0-(a+bx0)服从正态分布,E(Z)=0,),)(()(xxlxxnZD20211),2(~22nSSE及Z与SSE相互独立,1.1一元线性回归可以导出).(~))((211220ntlxxnnSSEZtxx因此,Y0的1-α预测区间为a+bx0±Δ(x0),.))(()()(.xxlxxnnSSEntx20501011221.1一元线性回归例1.1《吸附方程》某种物质在不同温度下可以吸附另一种物质,如果温度x(单位:℃)与吸附重量Y(单位:mg)的观测值如下表所示:温度x1.51.82.43.03.53.94.44.85.0重量y4.85.77.08.310.912.413.113.615.3试求线性回归方程并用三种方法作显著性检验,若x0=2,求Y0的0.95预测区间。解:根据上述观测值得到n=9,1.1一元线性回归/*代码以及结果的解释见教材*/dataex;inputxy@@;cards;1.54.81.85.72.4738.33.510.93.912.44.413.14.813.6515.32.;procgplot;ploty*x;symboli=rlv=dot;procreg;modely=x/cli;run;1.1一元线性回归1.1一元线性回归1.1一元线性回归1.1一元线性回归方法主要是:将非线性化为线性1.2一元非线性回归bxbaeyaxyxbay1.2一元非线性回归dataex;inputxy@@;x1=1/x;lx=log(x);ly=log(y);cards;11.8521.3731.0240.7540.5660.4160.3180.2380.17;procgplot;ploty*x;symboli=splinev=star;procreg;modely=x1;procreg;modelly=lx;procreg;modelly=x;run;1.2一元非线性回归1.2一元非线性回归1.2一元非线性回归1.2一元非线性回归1.2一元非线性回归dataex;inputxy@@;x1=1/x;lx=log(x);ly=log(y);y1=0.1159+1.9291*x1;q1+(y-y1)**2;y2=exp(0.9638-1.1292*lx);q2+(y-y2)**2;y3=exp(0.9230-0.3221*x);q3+(y-y3)**2;cards;11.8521.3731.0240.7540.5660.4160.3180.2380.17;procprint;varq1-q3;run;1.2一元非线性回归1.2一元非线性回归教材说明以上内容均在《数学软件与数学实验(第二版)》汪晓银,邹庭荣,周保平主编教材说明以下内容均在《数学建模与数学实验(第二版)》汪晓银,周保平主编人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间1.3多元线性回归多元回归模型:含两个以上解释变量的回归模型多元线性回归模型:一个应变量与多个解释变量之间设定的是线性关系多元线性回归模型一般形式为:22110kkXbXbXbbY截距偏回归系数残差1.3多元线性回归uXbXbXbbYkk...22110解释变量Xi是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性。随机误差项不存在序列相关关系随机误差项与解释变量之间不相关随机误差项服从0均值、同方差的正态分布多元线性回归模型的假设:1.3多元线性回归..................2211022222121021121211101nknknnnkkkkuXbXbXbbYuXbXbXbbYuXbXbXbbYLLL多元模型的解析表达式:kkXbXbXbbY...221101.3多元线性回归XBYεεεbbbbXXXXXXXXXYYYnkknkknnn2121021222211121121............1...11多元模型的矩阵表达式:1.3多元线性回归niniXbXbbYyyQkikiiii1212ˆˆˆˆ1100ˆ0ˆ0ˆ0ˆ210kbQbQbQbQ参数估计公式:YXXXBTT^1)(参数值估计:最小二乘估计1.3多元线性回归主要介绍:拟合优度检验(判定系数)回归方程的显著性检验(F-检验)回归参数的显著性检验(t-检验)多元线性回归模型的检验1.3多元线性回归判定系数的定义:SSTSSRR2意义:判定系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。取值范围:0-1判定系数的定义:SSTSSRR2目的:构造一个不含单位,可以相互比较,而且能直观判断拟合优劣的指标。拟合优度检验1.3多元线性回归检验Y与解释变量x1,x2,……xk之间的线性关系是否显著。检验的目的第一步,提出假设:原假设:H0:b1=b2=……bk=0备择假设:H1:bi不全为0(i=1,2,…,k)检验的步骤回归方程的显著性检验1.3多元线性回归第二步,计算统计量:)1,()1/(/knkFknSSEkSSRF~第三步,查表,得:第四步,做检验:FF拒绝H0,回归方程显著接受H0,回归方程不显著FF检验法则)1,(knkFF1.3多元线性回归回归系数的显著性检验回归方程显著,并不意味着每个解释变量对因变量Y的影响都重要,因此需要进行检验。1.3多元线性回归原假设:H0:bi=0(i=1,2,……k)备择假设:H1:bi≠0(i=1,2,……k)第一步,提出假设:第二步,构造并计算统计量:),,2,1()ˆ(ˆkibsbTiii回归系数显著性的检验的步骤1.3多元线性回归第三步,查表得:第四步,做检验:接受H0检验法则2tTi2iTt拒绝H0)1(2/2/kntt1.3多元线性回归例某品种水稻糙米含镉量y(mg/kg)与地上部生物量x1(10g/盆)及土壤含镉量x2(100mg/kg)的8组观测值如表2.1。试建立多元线性回归模型。x11.3711.349.670.7617.6715.9115.745.41x29.081.893.0610.20.050.731.036.25y4.931.862.335.780.060.430.873.861.3多元线性回归/*代码以及结果的解释见教材*/dataex;inputx1-x2y@@;cards;…;procreg;modely=x1x2;run;1.3多元线性回归回归方程显著性检验:由方差分析表可知,其Fvalue=494.06,prF的值0.0001,远小于0.05,故拒绝原假设,接受备择假设,认为y1与x1,x2之间具有显著性的线性关系;拟合度很高1.3多元线性回归参数显著性检验:由参数估计表可知,对自变量x2检验t值分别为t=2.12、,Pr|t|的值=0.0879,大于0.05,因此,拒绝原假设认为x2的系数应为0,说明x2的系数没有通过检验。为此,需要在程序中modely1=x1x2中去掉x21.3多元线性回归对常数检验t值分别为t=33.9、,Pr|t|的值0.0001,远小于0.05,说明截距项通过检验,估计值为5.62117,同理可知x1的系数通过检验,估计值为-0.31911回归方程:62117531911.01.xy1.3多元线性回归许多实际问题中可能还会出现某几个变量的系数并没有通过检验,此时,可以在原程序中的modely1=x1-x2中去掉没用通过的变量,直到所有的系数均通过检验。或者使用逐步回归方法,让软件自动保留通过检验的变量。1.3多元线性回归建立多元非线性回归方程在科学研究中应用广泛,其重要方法是将非线性回归方程转化为线性回归方程。转化时应首先选择适合的非线性回归形式,并将其线性化。再确定线性化回归方程的系数,最后确定非线性回归方程中未知的系数或参数。1.4多元非线性回归2.产出指标产出指标用湖北省历年油菜生产的总产量(Y)来表示。实例:湖北省油菜投入与产出的统计分析1.投入指标(1)土地(S)。土地用播种面积来表示。农作物播种面积是指当年从事农业(2)劳动(L)。劳动用劳动用工数(成年劳动力一人劳动一天为一个工)来表示。劳动用工中包含着直接和间接生产用工。(3)资本(K)。资本用物质费用来表示。物质费用包含直接费用和间接费用。主要有种子秧苗费、农家肥费、化肥费、农药费、畜力、固定资产折旧费和管理及其他费用等。1.4多元非线性回归SLKeAYt0