2017.2矩阵简介与最小二乘法耿修瑞中国科学院电子学研究所gengxr@sina.com.cn中国科学院空间信息处理与应用系统技术重点实验室矩阵简介最小二乘法中国科学院空间信息处理与应用系统技术重点实验室矩阵简介历史矩阵的雏形最早出现在东汉前期的《九章算术》。从莱布尼茨1693年首次使用行列式开始,到1750年Gramer法则问世,到1820年高斯(Gauss)提出消元法。人们还没有矩阵的概念。直到1851年,Sylvester首先使用了矩阵一词,1855年Cayley给出矩阵的乘法定义,矩阵才在英国出现。在20世纪,当人们认为有限维度的矩阵已经终结的时候,计算机的出现,让矩阵代数获得新生。直到今天,矩阵代数仍然是计算机科学家和控制科学家爱不释手的工具。阿瑟.凯莱被公认为矩阵论奠基人中国科学院空间信息处理与应用系统技术重点实验室矩阵理论主要数学家贡献矩阵简介数学家主要贡献关孝和(日本)行列式概念,行列式计算莱布尼茨(德国)行列式概念欧拉特征方程克莱姆(法国)克莱姆法则范德蒙范德蒙行列式拉格朗日(法国)特征方程,特征根拉普拉斯(法国)特征根高斯(法国)高斯消元法,矩阵乘积,矩阵的逆柯西(法国)行列式的矩阵表示,特征方程,对称矩阵,正交变换雅可比(德国,普鲁士)雅克比矩阵、雅克比行列式凯莱(英国)矩阵论奠基人,凯莱-哈密尔顿定理,矩阵转置,矩阵之和,矩阵数乘,零矩阵,单位矩阵,矩阵乘积,逆矩阵,特征值,对称矩阵,反对称矩阵等哈密尔顿(爱尔兰)凯莱-哈密尔顿定理西尔维斯特(英国)矩阵的术语(matrix),特征根名词,西尔维斯特矩阵,对角矩阵,惯性定律弗罗贝尼乌斯(德国)秩、正交矩阵、相似矩阵和合同矩阵,凯莱-哈密尔顿定理史密斯(英国)增广矩阵埃尔米特(法国)埃尔米特矩阵中国科学院空间信息处理与应用系统技术重点实验室从线性方程组谈起矩阵简介mnmnmmnnnnbxaxaxabxaxaxabxaxaxa22112222212111212111如何去看这个线性方程组?中国科学院空间信息处理与应用系统技术重点实验室角度1:几个方程的交集(行空间)矩阵简介12122323xxxx一个问题:两个平面可以相交于一个点么?思考:方程什么时候有解?什么时候无解?什么时候有无穷多解?中国科学院空间信息处理与应用系统技术重点实验室角度2:几个向量之间的关系(列空间)矩阵简介12122323xxxx12213123xx思考:方程什么时候有解?什么时候无解?什么时候有无穷多解?中国科学院空间信息处理与应用系统技术重点实验室角度3:线性变换的角度矩阵简介Axy111212122212nnmmmnaaaaaaaaaAnxxx21x12nyyyy:Axy中国科学院空间信息处理与应用系统技术重点实验室1.缩放变换:矩阵简介1212,,Txxkxkx00kkT0.5k注意观察变换前后图形面积的变化中国科学院空间信息处理与应用系统技术重点实验室2.反射变换:矩阵简介1212,,Txxxx1001T中国科学院空间信息处理与应用系统技术重点实验室3.旋转变换:矩阵简介121212,cossin,sincosTxxxxxxcossinsincosT/4注意观察变换前后图形面积的变化中国科学院空间信息处理与应用系统技术重点实验室4.挤压变换:矩阵简介121232,,23Txxxx320023T注意观察变换前后图形面积的变化中国科学院空间信息处理与应用系统技术重点实验室5.错切变换:矩阵简介12122,1.25,Txxxxx11.2501T注意观察变换前后图形面积的变化中国科学院空间信息处理与应用系统技术重点实验室投影变换置换变换移位变换离散余弦变换傅里叶变换小波变换主成分变换微积分卷积。。。矩阵简介111212122212nnmmmnaaaaaaaaaT中国科学院空间信息处理与应用系统技术重点实验室矩阵简介实特征值108642241510551015G4G3G2G1B3B4B2B1u1u212112342341.50.5BBGGBBGG222111uAuuAu0.5110.5A中国科学院空间信息处理与应用系统技术重点实验室矩阵简介复特征值iieiei42417071.07071.07071.07071.0TTagag7071.00ImIm07071.0ReRe2121uuuu108642241510551015Imag(u)Re(u)4cos4sin4sin4cosA中国科学院空间信息处理与应用系统技术重点实验室最小二乘法历史简介1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也采用了一种新方法(即为最小二乘法)计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现最小二乘法,但因不为时人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。最小二乘法自创立以来,在自然科学乃至社会科学的各个领域产生了广泛的应用。高斯(Gauss,1777~1855),德国数学家,最小二乘法创始人。中国科学院空间信息处理与应用系统技术重点实验室最小二乘法通常用来研究两个变量或者多个变量之间的关系。以常用的直线回归为例,已知一组观测点分布在直角坐标系中(如图),如何用一条直线最佳的拟合这些散点?最小二乘法XYO1122(,),(,),,(,)nnxyxyxy直线拟合示意图baxy中国科学院空间信息处理与应用系统技术重点实验室最小二乘法通常用来研究两个变量或者多个变量之间的关系。以常用的直线回归为例,已知一组观测点分布在直角坐标系中(如图),如何用一条直线最佳的拟合这些散点?最小二乘法XYO1122(,),(,),,(,)nnxyxyxy直线拟合示意图baxy中国科学院空间信息处理与应用系统技术重点实验室最小二乘法baxybaxybaxynn2211最小二乘法求解,相当于寻找a,b。使得如下公式尽量成立可建立优化模型如下:2,1min(,)()niiabifabaxby最小二乘法的一般解法中国科学院空间信息处理与应用系统技术重点实验室最小二乘法对自变量a,b求导,并令其为0:化简可得解为:niiniiniiniinininiiiiixnaynbxxnyxyxna11211211110)(20)(211niiiiniiiybaxbfxybaxaf中国科学院空间信息处理与应用系统技术重点实验室最小二乘法则线性模型可以表示为:最小二乘法的矩阵解法12,,,,Tnxxxx12,,,,TnyyyyT1,,1,1l,首先记:lxyba[,],XxlTba,c,进一步,令则线性模型可以进一步表示为:Xcy中国科学院空间信息处理与应用系统技术重点实验室最小二乘法优化模型转化为:对自变量求导,并令其为02min()fccyXc'22TTfcXXcXy0可得模型的解为yXXXcTT1中国科学院空间信息处理与应用系统技术重点实验室最小二乘法一个简单的例子:假设有三个观测点,分别为)3,3()1,2(),1,1(和3132131311311132132133113213*31*21*131122222112111niiniiniiniinininiiiiixnaynbxxnyxyxnaxyy=x13123451234O方法1:方法2:31131111132113121111132111yXXXcTT中国科学院空间信息处理与应用系统技术重点实验室最小二乘法最小二乘法中的变量问题在前面,我们通过给出一组散点的最佳直线拟合阐述了最小二乘法的基本原理。对于同样的一组散点,我们用来拟合这组散点是否可以得到同样的结果呢?''byax''''''2211byaxbyaxbyaxnn75.075.0'1xYYYcTTxyx=0.75y+0.75y=x13123451234O中国科学院空间信息处理与应用系统技术重点实验室最小二乘法最小二乘法中的变量问题XYy=ax+bOYXx=a'y+b'O当x和y互为自变量和因变量直线拟合的直观解释中国科学院空间信息处理与应用系统技术重点实验室最小二乘法总体最小二乘法总体最小二乘法的直观理解YXcx+dy=1O中国科学院空间信息处理与应用系统技术重点实验室最小二乘法最小二乘法的几何解释最小二乘对应的样本空间的几何:其中x=(1,2,3),y=(1,1,3),1=(1,1,1)。最小二乘揭示的是三个散点之间的关系。当以y=ax+b来拟合散点时,对应到样本空间,相当于寻求点y=(1,1,3),到向量x=(1,2,3)和1=(1,1,1)所张成平面的投影ZXYxly'yO中国科学院空间信息处理与应用系统技术重点实验室最小二乘法最小二乘法的几何解释最小二乘对应的样本空间的几何:其中x=(1,2,3),y=(1,1,3),1=(1,1,1)。最小二乘揭示的是三个散点之间的关系。当以x=a’y+b’来拟合散点时,对应到样本空间,相当于寻求点x=(1,2,3)到向量y=(1,1,3)和1=(1,1,1)所张成平面的投影ZXYx'lxyO中国科学院空间信息处理与应用系统技术重点实验室最小二乘法最小二乘法的概率解释Why?在前面的讨论中,因变量的总体观测误差用来表示。即对于每个观测点的因变量的观测误差,都选用模型解与观测值的差的平方来衡量。这正是相应的方法命名为最小二乘法而不是最小一乘或者最小三乘的原因所在。21)(),(niiiybaxbaf中国科学院空间信息处理与应用系统技术重点实验室最小二乘法最小二乘法的概率解释记111222TTTnnnyyycxcxcx其中对应第i个因变量的观测误差,它对应着不能被线性模型刻画的因素。假设服从正态分布,iiyi20,i则其概率密度函数为,222exp21iiP中国科学院空间信息处理与应用系统技术重点实验室最小二乘法这意味着,在给定和参数c的情况下,因变量也服从正态分布,即其中ixiy222exp21;iTiiiyyPxccx假设所有的独立同分布,我们可以定义所有观测数据关于参数c的似然函数如下:iTba,cTiix1,x22111();;exp22TnniiiiiiyLPPycxcyXcxc12