跳转到第一页5化学计量学方法§6.1引言§6.2线性回归分析§6.3化学因子分析§6.4人工神经网络§6.5小波分析§6.6独立成分分析§6.7支持向量机分类与回归跳转到第一页本课程的教学内容最小二乘法与回归分析化学因子分析人工神经网络小波分析独立成分分析支持向量机分类与回归分析跳转到第一页5.2回归分析及检验回归分析是研究随机现象中变量之间关系的一种数理统计方法,它在生产实践和科学研究及实验中有着广泛的应用。目前在寻找经验公式,探索新配方,制定新标准,预言效果等方面都已取得不少成绩。在科学研究及生产实验中,常常会遇到在同一个事物中有多个变量存在,而且它们相互关联,相互制约。这种关联和制约表明它们之间客观存在一定数学的或其他的关系。但要找出它们之间数学关系的数学解析式是非常困难的,有时是不可能的。因此需要用数量统计的方法,在大量的试验中,寻找出隐藏在各变量间的统计规律性或近似的数学模型,这种关系称之谓回归关系。有回归关系的计算方法及理论叫做回归分析。跳转到第一页回归分析的主要内容从一组数据出发,确定这些变量间的定量关系式;对这些关系的可信度进行统计检验;寻找某一个应变量和哪些自变量有关,其影响程度如何;利用上述关系,进行预报和控制;选择较少的试验点,获得更多的信息,对试验进行较好的设计。跳转到第一页5.2.1最小二乘法原理设实测数据为(xi,yi)(i=1,2,…,n),其近似符合函数y=φ(x,a1,a2,…,am)(nm;a1,a2,…,am是待定系数)当用测定值x=xi(i=1,2,…,n)代入(4.6-1)可计算出y值,记作),,,,(ˆ21miiaaaxy不要求近似函数通过全部观测点,计算值与实测值不一定完全相等,之间的差称为残差残差的大小是衡量待定参数a1,a2,…,am好坏的重要标志。如何确定残差?残差和残差绝对值和残差平方和跳转到第一页nimiininiiiiaaaxyyyQ12211122,,,,ˆ这样问题就归纳为求多元函数Q(a1,a2,…,am)极小值点01aQ02aQ0amQ…解此方程即得参数aj(j=1,2,…,m)近似函数y=φ(x,a1,a2,…,am)这就是曲线拟合的最小二乘法原理。跳转到第一页应用举例-1问题:改变某有色有机酸H2L的溶液的pH,测得溶液的吸光度A,计算该有机酸的离解常数Ka1,Ka2。解:根据吸光度的加和性可得:A=AH2L'+AHL'+AL'将它们用[H+]及Ka1、Ka2表示,则有211221122]H[]H[]H[]H[aaaLaaHLaAHKKKAKKAKAAAH2L、AHL和AL为溶液全部以H2L、HL-或L2-形式存在时的吸光度。其中AH2L和AL都可由实验直接测定,因为在足够高的酸度下,有机酸将全部以H2L形式存在,这时溶液的吸光度即AH2L;同理,在足够高的pH值时,测得的吸光度为AL。所以只剩下AHL不易测准。令y=(AH2L-A)[H+]2,x1=A[H+],x2=A-AL,x3=-[H+],Ka1=a1,Ka1Ka2=a2,AHLKa1=a3121122]H[]H[]H[aHLaaLaLHKAKKAAKAAA这是三元一次方程组,理论上讲只要测得三组数据(pH1,A1),(pH2,A2)和(pH3,A3),就可以解出三元一次方程组,算出a1,a2和a3。但是在实验中,常常带有实验误差,只凭三组测量值进行计算会使结果很不可靠,所以,通常要测量许多组实验数据pH1,A1pH2,A2;pH3A3;…;pHn,An,得到n个方程,因为n3,该方程组为矛盾方程组,可用最小二乘法求解。322113xaxaxay跳转到第一页上机作业用光度法测定间苯二酚的离解常数Ka1,Ka2,测得溶液的pH和A的数据如下:──────────────────────────pH2.903.003.103.203.303.403.503.603.70A0.3700.3740.3780.3820.3870.3930.3980.4030.407──────────────────────────pH4.284.384.464.544.644.724.784.854.91A0.4070.4030.3980.3930.3870.3820.3780.3740.370──────────────────────────并且测得AH2L=0.353,AL=0.337。要求:将由实验测定所得pH和A经换算后得到课堂所讲y,x,a等形式,编程语言任选;矛盾方程组求解可以编程实现,或由统计软件中的多元线性回归分析而得;将数据预处理程序及结果、数据处理最后结果等以附件l形式交送至化学信息学网络课堂.跳转到第一页5.2.2线性回归分析一元线性回归通过一组实验数据进行最小二乘法回归处理,求出直线的斜率和截矩,并根据一定的统计方法处理,得到较多的统计信息,对实验数据线性相关性进行检验及进行预报等。bxay111iixnx111iiynyniiniiniixxxnxxxl121212)(1niiniiniiyyynyyyl121212)(1niniiniiiiniiixyyxnyxyyxxl11111平均值差方和lxxlbxyxbya回归分析结果跳转到第一页回归方程检验相关系数总差方和(S)=剩余差方和(Q)+回归差方和(U)│r│≤1。r越大,表示相关性越好。r0,正相关,直线的斜率为正;r0,负相关,直线的斜率为负;r=0,不相关,即y与x之间无线性相关关系。r值多大,y与x之间才有相关关系呢?这可由自由度(f)及指定置信水平下的rf,a值来判断,这叫r检验法。rf,a可以从相关系数检验表中查得。如果r的计算值大于相同f及指定a下的rf,a,则y与x显著相关,否则y与x之间无线性相关关系,拟合函数即失去意义。F检验法在一元线性回归分析中,fS=n-1,fQ=n-2,FU=1,根据给定的置信水平α,从F检验表中查得Fα(fU,fQ)的临界值,若计算得到的F值大于Fα(fU,fQ),则y与x之间有线性关系,否则,无线性相关关系。回归线的精度剩余标准偏差σ值越小,表示根据拟合函数预报的y就越准确.若在拟合函数所表示的直线两侧各画一条直线y'=a+bx+zσy'=a+bx-zσ可以预料,在全部可能出现的y值中,当z=0.5时,则38.0%的点落在这两条线所夹的范围之内;当z=1时,则68.3%的点落在这两条线所夹的范围之内;当z=2时,大约有95.4%的点落在这两条线所夹的范围内;当z=3时,则99.7%的点落在这两条线所夹的范围之内。a,b的变动性a,b变动性的大小与剩余标准偏差σ的大小及xi值的波动有关,xi越分散,σa和σb就越小,另外,σa还与测量点数n有关,n值越大,σa就越小。这就从统计学上说明了改进实验的方法。最后,根据拟合函数预报y时,还与x有关,即x越靠近,预报就越准,因此,在计算时,一般作内插预报,而不要任意外推。niiniiiyyyyS1212ˆlllyyxxxxSUr2212rnF22122nbllnrnQxyyylxxxniian12lxxb跳转到第一页应用举例-2某合金钢的抗拉强度y1(kg/mm2)和延伸率y2与钢中碳含量x有一定的关系,其实验数据如下表所示。要求预报使此合金钢抗拉强度y132kg/mm2,延伸率y233%,且要求有95%的把握满足上述要求,问含碳量在什么范围。合金钢成分及性能实测数据━━━━━━━━━━━┳━━━━━━━━━━━━x(%)y1(kg/mm2)y2(%)┃x(%)y1(kg/mm2)y2(%)───────────╂────────────0.0340.540.0┃0.1546.040.50.0441.534.5┃0.1648.033.00.0542.541.5┃0.1753.037.00.0643.037.5┃0.1850.036.50.0739.536.0┃0.2052.537.00.0842.040.0┃0.2156.031.00.0942.534.5┃0.2360.032.50.1043.539.0┃0.2456.032.40.1142.531.5┃0.2554.535.50.1249.041.0┃0.2661.533.30.1343.037.5┃0.2959.531.00.1449.040.0┃0.3264.032.0━━━━━━━━━━━┻━━━━━━━━━━━解将例实测数据进行线性回归处理得如下结果:对抗拉强度:回归方程y1=85.6093x+36.02剩余标准差σ1=2.3673显著性检验F=205.7相关系数r=0.9504对延伸率:回归方程y2=-25.1589x+39.89剩余标准差σ2=2.7970显著性检验F=12.72相关系数r=0.6050若有95%的把握满足题中条件,则应85.6093x+36.02+2×2.36733285.6093x+36.02-2×2.367332-25.1589x+39.89+2×2.77033-25.1589x+39.89-2×2.77033解之得0.0083x0.0536因此可以预测,当合金钢的含碳量在0.0083%到0.0536之间时,可以有95%的把握说其抗拉强度大于32kg/mm2,延伸率大于33%;同理可以计算得当把握要求降至90%时,含碳量范围变为0到0.13%之间(含碳量为负时没有实际意义,舍去该值)。跳转到第一页一些可转化为线性回归的非线性情况跳转到第一页跳转到第一页跳转到第一页多元线性回归分析多元线性回归的数学模型y=a0+a1x1+a2x2+…+amxm由实验测得n组相互独立的实验数据xi1,xi2,xi3,…,xim,yi(i=1,2,…,n;nm)多元线性回归方程的检验总差方和(S)=剩余差方和(Q)+回归差方和(U)复相关系数方差比剩余标准偏差niiniiiyyyyS1212ˆS的自由度fS=n-1U的自由度fU=mQ的自由度fQ=n-m-1SQSSUr1//mnQmUF1mnQ跳转到第一页例7N,N-二甲基-2-溴苯乙胺衍生物是肾上腺阻断剂当Y和Z接上不同的取代基,其生物活性是不一样的,Y和Z取代基的结构信息参数通常取其疏水值π和电子参数σ,其结果如下表所示。BrCH3NCH3ZY跳转到第一页跳转到第一页跳转到第一页REGRESSMultiplelinearregressionusingleastsquares.b=REGRESS(y,X)returnsthevectorofregressioncoefficients,b,inthelinearmodely=Xb,(Xisannxpmatrix,yisthenx1vectorofobservations).跳转到第一页[B,BINT,R,RINT,STATS]=REGRESS(y,X,alpha)usestheinput,ALPHAtocalculate100(1-ALPHA)confidenceintervalsforBandtheresidualvector,R,inBINTandRINTrespectively.ThevectorSTATScontainstheR-squarestatisticalongwiththeFandpvaluesfortheregression.