回归分析一、变量间的关系及回归分析的基本概念1.变量间的关系(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。2,半径半径圆面积f(2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。施肥量阳光降雨量气温农作物产量,,,f第一节概述2、变量的分类自变量:可以在某一范围内取确定数值的。因变量或随机变量:取值可观测,但不可控制的变量。3.回归分析的基本概念回归分析(regressionanalysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其目的在于通过自变量的已知或设定值,去估计和(或)预测的因变量(总体)均值。线性回归分析如果回归分析所建立的模型是线性的,就叫线性回归分析。回归方程一元回归方程:多元回归方程:mmxxxy221104.回归分析主要内容包括:(1)根据样本观察值对模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。二、最小二乘法设n次试验得到的观测数据为(x1,y1),(x2,y2),…,(xn,yn),则有.iiibxay(i=1,2,…,n)即(i=1,2,…,n)iiibxay取全部误差的平方和为niiiniibxaybaQ1212)(),(上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作,).由于平方又叫做二乘方,因此把这种使“偏差平方和为最小”的方法称为最小二乘法.这样求得的,称为参数a,b的最小二乘估计.aˆbˆaˆbˆ,的求法如下aˆbˆ0)(20)(211iniiiniiixbxaybQbxayaQ解此方程组,可得niiniiixxyyxxb121)(/))((ˆxbyaˆˆ为了方便记忆,引入记号niiiniiyxxbxnanyxnbna112整理可得21212)(xnxxxLniiniixx,yxnyxyyxxLniiiniiixy11))((于是有xxxyLLb/ˆxbyaˆˆ回归分析均匀设计表不具有正交性,不能像正交试验那样方便地进行方差分析。试验数据的处理比较复杂,对结果的分析计算最好运用回归分析方法,一般采用多元线性回归(MultipleLinearRegression,简称MLR)或逐步回归的方法。(2)回归分析下面通过例题讲述均匀试验结果的回归分析方法与步骤。例:在啤酒生产过程的某项试验中,选择的因素有Z1(底水)和Z2(吸氧时间),每个因素均取9个水平。试验考核的指标y为吸氧量(g)。因素水平Z1(底水)gZ2(吸氧时间)min1136.51702137.01803137.51904138.02005138.52106139.02207139.52308140.02409140.5250这是一个2因素9水平的试验,选用U9(96)较合适。因素及列号x1(Z1)1x2(Z2)3y(g)11(136.5)4(200)5.822(137.0)8(240)6.333(137.5)3(190)4.944(138.0)7(230)5.455(138.5)2(180)4.066(139.0)6(220)4.577(139.5)1(170)3.088(140.0)5(210)3.699(140.5)9(250)4.1试验号由U9(96)的使用表知,因素Z1和因素Z2依次安排在第1列和第3列1)建立回归方程表均匀试验方案及试验结果因素及列号x1(Z1)1x2(Z2)3y(g)11(136.5)4(200)5.822(137.0)8(240)6.333(137.5)3(190)4.944(138.0)7(230)5.455(138.5)2(180)4.066(139.0)6(220)4.577(139.5)1(170)3.088(140.0)5(210)3.699(140.5)9(250)4.1试验号2210xbxbby1yLbLbL1212111yLbLbL2222121_221_1_0xbxbyb由回归变换得到正规方程组为:解联立方程组,得到b1、b2由求得b0设回归方程为:2)线性变换为计算简便,采用回归正交类似的方法,对因素Z1及因素Z2的各水平作线性变换:jjijijΔZZx0因素的零水平和变化区间见下表:因素零水平Zj0变化区间ΔjZ11360.5Z21601010111ΔZZxii20222ΔZZxii2)线性变换例如:1501365136501361111...Zx250136137501362121..Zx410160200101601212Zx810160240101602222Zx,,经过线性变换后,因素水平值恰好是均匀设计表U9(96)中相应的水平数字。试验号x1(z1)x2(z2)吸氨量/gyi1311(136.5)4(200)5.822(137.0)8(240)6.333(137.5)3(190)4.944(138.0)7(230)5.455(138.5)2(180)4.066(139.0)6(220)4.577(139.5)1(170)3.088(140.0)5(210)3.699(140.5)9(250)4.1表啤酒生产U9(96)均匀设计试验方案与结果变换后的因素水平值正好是U9(96)相应列中的水平数字,如表所示。这样就大大简化了计算。于是:3)计算回归系数45921911iix45984912iix64114368591....yii5x91xn191ii1n1ii1_1ix5x91xn191ii2n1ii2_2ix①合计值计算②平均值计算624911911.yynyiinii③回归系数计算609121111i_ii)x(xL609122222i_ii)x(xL2359912.)y(yLiiyy61991111.)y)(yx(xLii_iiy01191222.)y)(yx(xLii_iiy069122112112.)x)(xx(xLLi_ii_ii3)计算回归系数③回归系数计算6.19660121212111yLbbbLbL0.11606221222121yLbbbLbL解联立方程组218.0348.021bb得到:27.5_221_1_0xbxbyb2122210218.0348.027.5xxxbxbby因而回归方程为:3)计算回归系数3-2-83-2-94)回归方程的显著性检验235.9)(912_iiyyTyyLQ8191nfT①总平方和与自由度21990112180)619()3480(22111.....LbLbLbQyyjymjjK2111miiKff②回归平方与自由度624911911.yynyiinii3-2-83-2-9016021992359...QQQKTe628KTefff③误差平方和与自由度4117076016022199./././fQ/fQFeeKKK④计算FK值查F表,得出14.5)2,6(F05.0表明回归方程显著。624911911.yynyiinii3-2-83-2-94)回归方程的显著性检验jjijijΔZZx0j0ΔxZZijjij2102069604496Z.Z..y由上式看出,指标随因素增加而减小,随因素增加而增加,利用此方程可寻找试验范围内的最优工艺条件,也可以对指标进行预测和控制。y1Z2Zy根据则经变换,回归方程变为:在发酵法生产肌苷中,培养基由葡萄糖、酵母粉、玉米浆、尿素、硫酸铵、磷酸氢二钠、氯化钾、硫酸镁和碳酸钙等成分组成,由于培养基成分较多,且通常采用的水平也较高,不便运用正交试验方法,拟通过均匀试验确定最佳培养基配方。1.确定试验指标根据本试验目的,以发酵液产肌苷量(mg/mL)作为试验指标,指标越大越好。2.选择试验因素与水平根据专业知识和有关资料,选用(NH4)2SO4、葡萄糖、尿素、酵母和玉米浆5种成分为试验因素,每个因素至少取5个水平。3.确定试验次数本试验考虑的因素共5个,考虑到有的因素与试验指标可能时二次关系,即至少要进行10次试验。利用Excel回归分析工具软件处理,获得回归方程4.选择均匀设计表根据因素个数以及确定的试验次数,每个因素可取10个水平,选取的因素水平如表7-9所示。故选用U10(1010)均匀表。因素葡萄糖(x1)尿素(x2)酵母(x3)(NH4)2SO4(x4)玉米浆(x5)水平/%/%/%/%/%18.50.251.51.000.5529.00.301.61.050.6039.50.351.71.100.65410.00.401.81.150.70510.50.451.91.200.75611.00.502.01.250.80711.50.552.11.300.85812.00.602.21.350.90912.50.652.31.400.951013.00.702.41.451.00表发酵法生产肌苷试验因素水平表5.制定试验方案,并进行实验根据U10(1010)表的使用表,当5个因素时,应安排1,2,3,5,7列上。因此将x1,x2,x3,x4和x5分别安排在第1、第2、第3、第5、第7列上。再把每列的水平代码换成相应因素的水平值,即得到试验方案如表。试验号列号与因素发酵液产肌苷量/mgmL-11(x1)2(x2)3(x3)5(x4)7(x5)11(8.5)2(0.30)3(1.7)5(1.20)7(0.85)20.8722(9.0)4(0.40)6(2.0)10(1.45)3(0.65)17.1533(9.5)6(0.50)9(2.3)4(1.15)10(1.00)21.0944(10.0)8(0.60)1(1.5)9(1.40)6(0.80)23.6055(10.5)10(0.70)4(1.8)3(1.10)2(0.60)23.4866(11.0)1(0.25)7(2.1)8(1.35)9(0.95)23.4077(11.5)3(0.35)10(2.4)2(1.05)5(0.75)17.8788(12.0)5(0.45)2(1.6)7(1.30)1(0.55)26.1799(12.5)7(0.55)5(1.9)1(1.00)8(0.90)26.791010(13.0)9(0.65)8(2.2)6(1.25)4(0.70)14.80表肌苷生产均匀设计试验方案及结果6.试验结果分析对表7-10试验结果进行直观分析,第9号试验的试验指标(肌苷产量)最好,其对应的条件即为较优的工艺条件。直接分析法回归分析法利用Excel回归分析工具软件,处理表7-10数据,以获得最优回归方程。①建立最优回归方程1122mmybbxbxbx设:拟构造的线性回归方程有如下形式:试验号x1x2x3x4x5y18.50.31.71.20.8520.87290.421.450.6517.1539.50.52.31.15121.094100.61.51.40.823.6510.50.71.81.10.623.486110.252.11.350.9523.4711.50.352.41.050.7517.878120.451.61.30.5526.17912.50.551.910.926.7910130.652.21.250.714.8