合肥工业大学误差理论与数据处理第六章回归分析合肥工业大学误差理论与数据处理回归分析的基本概念和主要内容一元线性回归方程的求法回归方程的方差分析和显著性检验一元非线性回归方法多元线性回归重点与难点合肥工业大学误差理论与数据处理第一节回归分析的基本概念一、变量之间的关系相关关系函数关系2xyvts产品的销售量与投入的广告费用之间的关系水稻产量与施肥量的关系加工误差与零件直径之间的关系合肥工业大学误差理论与数据处理第一节回归分析的基本概念二、回归分析步骤1)由数据确定变量之间的数学表达式-回归方程或经验公式2)对回归方程进行方差分析和显著性检验3)因素分析合肥工业大学误差理论与数据处理第二节一元线性回归一元线性回归:确定两个变量之间的线性关系,即直线拟合问题。一、回归方程的确定例:确定某段导线的电阻与温度之间的关系:19.125.030.136.040.046.550.076.3077.8079.7580.8082.3583.9085.10散点图:202530354045507678828084Cxo//y合肥工业大学误差理论与数据处理如何求得和的最佳估计值呢?第二节一元线性回归设测量数据有如下结构形式:Ntxyttt,,2,1,0式中,分别表示其它随机因素对电阻值影响的总和。N,,,21Nyyy,,,210最小二乘原理合肥工业大学误差理论与数据处理第二节一元线性回归设得到的回归方程bxby0ˆ残差方程为Ntbxbyyyvtttti,,2,1,ˆ0NNNvvvVbbbxxxXyyyY2102121ˆ111设测得值的精度相等,则有tyYXXXbTT1)(ˆLAAAXTT1)(ˆ合肥工业大学误差理论与数据处理第二节一元线性回归2112111121)(1))((1)())((NttNttNttNttNtttNttNtttxNxyxNyxxxyyxxbxbyb02111221111211212)(1)())((1)()()(1)(NttNtNtttyyNttNttNttttNttxyNttNttNttxxyNyyylyxNyxyyxxlxNxxxl令xxxyll合肥工业大学误差理论与数据处理第二节一元线性回归问题一:回归直线的预报精度如何?问题二:回归直线是否符合y与x间的客观规律?bxby0ˆ设x无误差,bbbbyxRx0022222ˆ根据最小二乘原理,2122222211200;;dRddbbbb22211211dddd1XXTNxxxNlNttNttNttxx11121xxylxxN2ˆ)(12ˆ12NyyNttt合肥工业大学误差理论与数据处理二、回归方程的方差分析及显著性检验第二节一元线性回归问题:y与x的回归直线是否显著?(一)回归方程的方差分析引起变差的原因:A、自变量x的取值不同B、其它因素xyytytyˆ如:实验误差其他自变量与x非线性与x无关合肥工业大学误差理论与数据处理第二节一元线性回归NttttNtNttttNttttNttyyyyyyyyyyyyyyS111221212)ˆ)(ˆ(2)ˆ()ˆ()ˆˆ()(0)())(())(())(()ˆ)(ˆ(2121110001xxxxxyxyxxxyNttNtttNttttNttttNttttlllbbllbblxbbxxbbxyyxbbxbxxbyyxbbbxbbxbyyyyyUQ可以证明:QUSQUS合肥工业大学误差理论与数据处理第二节一元线性回归总的离差平方和:NttyyS12)(1NS回归平方和:残余平方和:NttyyU12)ˆ(1UNtttyyQ12)ˆ(2NQyylxyblxyyybll反映总变差中由于x和y的线性关系而引起y的变化反映所有观测点到回归直线的残余误差,即其它因素对y变差的影响。合肥工业大学误差理论与数据处理第二节一元线性回归(二)回归方程显著性检验—F检验法基本思路:方程是否显著取决于U和Q的大小,U越大,Q越小,说明y与x的线性关系愈密切。计算统计量FQUQUF//对一元线性回归,应为)2/(1/NQUF合肥工业大学误差理论与数据处理若回归在0.01的水平上高度显著。第二节一元线性回归),2,1(01.0NFF),2,1()2,1(01.005.0NFFNF回归在0.05的水平上显著。),2,1()2,1(05.010.0NFFNF回归在0.1的水平上显著。),2,1(10.0NFF回归不显著。查F分布表,根据给定的显著性水平和已知的自由度1和N-2进行检验.合肥工业大学误差理论与数据处理(三)残余方差与残余标准差第二节一元线性回归残余方差:排除了x对y的线性影响后,衡量y随机波动的特征量。22NQ残余标准差:2NQ含义:越小,回归直线的精度越高。合肥工业大学误差理论与数据处理第二节一元线性回归(四)方差分析表来源平方和自由度方差F显著性回归残余1N-2-总计N-1---xyblUxyyybllQyylS)2/(1/NQUF)2,1(NF合肥工业大学误差理论与数据处理第二节一元线性回归例:确定某段导线的电阻与温度之间的关系:19.125.030.136.040.046.550.076.3077.8079.7580.8082.3583.9085.10Cxo//y1)求导线电阻与温度的关系式;2)方差分析与显著性检验;3)预报温度为20度时,导线的电阻值.解:1)作散点图2)令,bxby02211220111202112813.60)(1498.214))((1657.759)(1NttNttyyNttNttNtttxyNttNttxxyNylCyxNyxlCxNxl计算合肥工业大学误差理论与数据处理90.700xbybCllbxxxy0/2824.0因此,xCy0/2824.090.70来源平方和自由度方差F显著性回归残余-总计---0514.0574.60xyblU257.0Q831.60yylS31018.1)2/(1/NQUF26.16)5,1(01.0F3)方差分析和显著性检验4)预报548.7620/2824.090.7000CCy156合肥工业大学误差理论与数据处理第二节一元线性回归2、重复试验回归方程的求法三、重复试验情况1、重复试验的目的:①减小试验误差②分析回归方程不显著的原因用标准压力计对某固体压力传感器进行检定,所得数据如表,试对仪器定标并分析仪器的误差。i=1~mt=1~N合肥工业大学误差理论与数据处理第二节一元线性回归0990.5233)(1)(7057.758))((1)()(110)(1)(2111221111211212NttNtNtttyyNttNttNttttNttxyNttNttNttxxyNyyylyxNyxyyxxlxNxxxl8913.2;89734.60xbybllbxxxyxy89734.68913.2ˆ合肥工业大学误差理论与数据处理3、方差分析NttimiyyS121)(1NmSNttyymU12)ˆ(1U2NmQxymbl)(xyyybllmELQQQNtttLyymQ12ˆNtmittiEyyQ112)(2NL)1(mNE失拟平方和:误差平方和:合肥工业大学误差理论与数据处理第二节一元线性回归QEEQLLQQF//1QEEUQUF//24、F统计检验)2,1(//NmFQUFQU1)回归方程显著性检验2)F1检验①F1显著,说明失拟误差大。②F1不显著,说明回归方程不显著可能与试验误差有关。3)F2检验①F2不显著,说明试验误差是回归方程不显著的主要原因②F2显著,说明试验误差不是回归方程不显著的唯一原因,可能失拟误差也是回归方程不显著的原因之一。合肥工业大学误差理论与数据处理第二节一元线性回归来源平方和自由度方差F显著性回归失拟误差总计---xymblUUmlQyyLNtmittiEyyQ112)(LEQQUS1U2NL)1(mNE1NmSUU/LLQ/EEQ/QUQUF//),(QUFEELLQQF//15、方差分析表EEUQUF//2),(ELF),(EUF合肥工业大学误差理论与数据处理第二节一元线性回归用标准压力计对某固体压力传感器进行检定,所得数据如表,试对仪器定标并分析仪器的误差。i=1~mt=1~N合肥工业大学误差理论与数据处理第二节一元线性回归0990.5233)(1)(7057.758))((1)()(110)(1)(2111221111211212NttNtNtttyyNttNttNttttNttxyNttNttNttxxyNyyylyxNyxyyxxlxNxxxl8913.2;89734.60xbybllbxxxyxy89734.68913.2ˆ合肥工业大学误差理论与数据处理第二节一元线性回归来源平方和自由度方差F显著性回归失拟误差总计---2574.20932U1386.0LQ0899.0EQ4859.20932S1U9L33E43S0154.00027.061085.3//QUQUF28.7),(QUF65.5//1EELLQQF方差分析表621068.7//EEUQUF03.3),(ELF47.7),(EUFLLUQUF//3合肥工业大学误差理论与数据处理第二节一元线性回归1)分组法-平均值法将自变量按由小到大次序排列,分成个数相等或近于相等的两个组(分组数等于未知数个数),则可建立相应的两组观测方程:kkbxbybxby0101NNkkbxbybxby0101将两组观测方程分别相加,得NktNktttktktttxbbkNyxbkby110110)(b和b02)图解法-紧绳法四、回归直线的简便求法合肥工业大学误差理论与数据处理第三节两个变量都具有误差时线性回归方程的确定回归方程的求法-戴明(Deming)解法若,分别具有误差,,假定之间为线性关系,其数学模型为所求回归方程为式中,分别为的估计值。为使的误差在求回归方程式具有等价性,令,则回归方程可写成txty~(0,)txN~(0,)tyN1,2,,tNxy、0()ttttyx0ˆˆybbx0ˆˆxybb、、、0xy、、、xy、22/xy'yy0ˆˆ''''ybbx合肥工业大学误差理论与数据处理第三节两个变量都具有误差时线性回归方程的确定式中,,根据戴明推广的最小二乘原理,点到回归直线的垂直距离的平方和为最小条件下所求得的回归系数是最佳估计值。由解析几何可知,点到回归直线的距离为式中,0ˆˆybbx(,')ttxy'tdx'y(,')