回归直线方程的推导山东王加祥范玉峰设x与y是具有线性相关关系的两个变量,且相应于样本的一组观测值的n个点的坐标分别是:112233()()()()nnxyxyxyxy,,,,,,,,,下面给出回归方程的推导.设所求的回归方程为iiybxa,(123)in,,,,.显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n个点与回归直线的整体上的接近程度,因而采用n个偏差的平方和Q来表示n个点与相应直线(回归直线)在整体上的接近程度,即22222223311()()()()()nniiinniiiQyyybxaybxaybxaybxa.求出当Q取最小值时的ab,的值,就求出了回归方程.一、先证明两个在变形中用到的公式公式(一)22211()nniiiixxxnx,其中12nxxxxn证明:2222121()()()()ninixxxxxxxx∵22221212()2nnxxxxxxnxnxn222222222212121()2()nnniixxxnxnxxxxxnx22211()nniiiixxxnx∴.公式(二)11()()nniiiiiixxyyxynxy证明:11221()()()()()()()()niinnixxyyxxyyxxyyxxyy∵11221122()()nnnnxyxyxyxyyxxyyxxyyxnxy12121[()()]niinnixyxxxyyyyxnxy12121()()nnniiixxxyyyxynyxnxynn112nniiiiiixynxynxyxynxy,11()()nniiiiiixxyyxynxy∴.二、推导:将Q的表达式的各项先展开,再合并、变形2222112233()()()()nnQybxaybxaybxaybxa2222121122()[2()2()]nyyyybxaybxa展开222211111222nnnnniiiiiiiiiiiybxyaybxabxna合并同类项22221111122nniinnniiiiiiiiiyxnanabbxbxyynn以ab,的次数为标准整理22221112()2nnniiiiiiinanaybxbxbxyy转化为平均数xy,22222111[()]()2nnniiiiiiinaybxnybxbxbxyy配方法2222222111[()]22nnniiiiiiinaybxnynbxynbxbxbxyy展开222222111[()]()2()()nnniiiiiiinaybxbxnxbxynxyyny整理2222111[()]()2()()()nnniiiiiiinaybxbxxbxxyyyy用公式(一)、(二)变形22212111()()[()]()()()niinniiiniiiixxyynaybxxxbyyxx配方22212212211111()()()()()()()()()nniiiinniiiinniiiiixxyyxxyynaybxxxbyyxxxx配方法在上式中,共有四项,后两项与ab,无关,为常数;前两项是两个非负数的和,因此要使得Q取得最小值,当且仅当前两项的值都为0.所以aybx,121()()()niiiniixxyybxx或1221niiiniixynxybxnx用公式(一)、(二)变形得三、总结规律上述推导过程是围绕着待定参数ab,进行的,只含有iixy,的部分是常数或系数,用到的方法有:①配方法,有两次配方,分别是a的二次三项式和b的二次三项式;②变形时,用到公式(一)、(二)和整体思想;③用平方的非负性求最小值.④实际计算时,通常是分步计算:先求出xy,,再分别计算1()()niiixxyy,21()niixx或1niiixynxy,221niixnx的值,最后就可以计算出ab,的值.