回归与最小二乘分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

主要内容绪论统计量、统计分布与统计比较回归与最小二乘分析比较试验设计与分析回归试验设计与分析动态试验指标的统计推断综合试验指标的统计推断•该章的幻灯片绝大多数引自中国农业大学动物科技学院王雅春副教授、张勤教授的生物统计学课件,张沅教授的家畜育种学课件。۝回归分析是研究变量之间因果关系的,通过回归分析建立起原因与结果之间的函数关系,以实现预测的目的.•回归分析分线性和非线性回归分析两类,•按因变量多少又分一元和多元回归分析,۝作为回归分析的重要组成部分——线性回归模型理论几乎可以用来解释现行生物统计中的每个统计推断方法,也是统计比较方法的理论基础,回归与最小二乘分析引言•两个数量型变量间的关系•简单线性回归:用最能代表散点图中数据点的直线描述两随机变量的关系:X和YY=a+bX•X和Y有主从关系、因果关系•将X定为试验者可以精确测量的或事先测量的:剂量、年龄、重量或者浓度等•Y是受试验条件影响而变化的随机变量,如:心脏收缩压、红细胞浓度或者颜色强度等•规定Y依赖于X,X的变化将引起Y值的变化简单线性回归•规定:–Y:依变量(dependentvariable),结果变量,散点图的纵轴–X:自变量(independentvariable),释因变量或者预测变量,散点图的横轴•简单线性回归研究X发生一定量变化时,可以期望Y会相应地发生多大的变化:量化关系02000400060008000100000100200300400500MeanVar•可以用肉眼观察散点图,画出一条最适合这些数据点的线,但是…•用X,Y的线性方程简单线性回归•对于X的任意一个取值,都相应有一个Y的总体:Ypopulation=+X其中:•Ypopulation称为对应于给定X值的对Y的预测值或者均值•是常数,代表直线的截距,等于Y|(X=0)•是斜率,代表X变化一个单位时Y值的平均变化•和称为回归系数(regressioncoefficient),尤指,需要从获得随机抽样数据对子中“估计”出来(estimate),记为a、b•对于估计方法的要求就是这条直线能最好代表所有数据点02000400060008000100000100200300400500MeanVar简单线性回归•数据点与直线的距离越短越好:–距离指从数据点到直线的垂直距离,与Y轴平行–只有Y才受试验条件的影响,而X可以精确度量离差ei观察值与估计值的离差最小二乘法求a、b•LeastSquare(LS):离差平方和最小的求解法•最小化:对a、b求偏导数,使之为零几个方程?•联立方程组得到a、b的解•使离差最小的直线•ei可以抵消•(ei)2比较好用a,b,Yi表示1e2e2XXYYXXbiYiYˆiibXaYˆ22iiibXaYe•离差平方和最小:最小二乘法iiiYYeˆ假设a、b已知线性回归系数与回归方程•Y对X的回归方程(regressionequationofYonX):2XXYYXXbXbYaXXYSSSPbiiiXbaXYˆˆˆ+)(ˆXXbYbXXbYYiiibXaY多元线性回归的数学模型•多元回归分析的样本数据个体依变量自变量1y1x11x12x1p2y2x21x22x2pnynxn1xn2xnp多元线性回归的数学模型iippiiiexxxy22110i=1,2,,n0:常数项j:偏回归系数(j=1,2,,p)当其他自变量保持不变时,自变量xj每改变1个单位所造成的y的变化量ei:随机误差),0(~2Nei各个ei彼此独立回归参数nnppnnnppppexxxyexxxyexxxy2211022222211021112211101npnpnnppneeexxxxxxxxxyyy2121021222211121121111eXyβ回归方程的建立•回归方程ippiiixbxbxbby22110ˆb0,b1,b2,,bp是0,1,2,,p的最小二乘估计值,它们满足最小2221102)]([)ˆ(ippiiiiixbxbxbbyyyQ回归方程的建立0)ˆ(20iiyybQ0)ˆ(2ijiijxyybQiippipipiipiipiipipiiiiiipipiiyxbxbxxbxxbxyxbxxbxxbxbxybxbxbxnb)()()()()()()()()()()(222110112211210122110或求极值,得:回归方程的建立iipiiiiipipiipiipipipiiiiiipiiiiiipiiyxyxyxybbbbxxxxxxxxxxxxxxxxxxxxxn2121022122212212121121yXbXX)(正规方程组(最小二乘方程组):系数矩阵右手项向量回归方程的建立•二元线性回归方程22110ˆiiixbxbbyiiiiiiiiiiiiiiiyxyxybbbxxxxxxxxxxn2121022122212112121222111222211LLLLLLLbyy21222111211122LLLLLLLbyy22110xbxbyb多元线性回归的检验•回归关系的检验–平方和的剖分222)ˆ()ˆ()(iiiiiiyyyyyy总平方和误差平方和回归平方和(离回归平方和)RETSSSSSS–自由度的剖分总自由度(dfT)=n-1回归自由度(dfR)=p离回归自由度(dfE)=n-p-1多元线性回归的检验nyyyySSiiiiT222)()(pjjyjiiRLbyySS12)ˆ(222)ˆ()()ˆ(iiiiiiEyyyyyySSnyxyxyyxxLiiiijiiijiijijjy))(())((多元线性回归的检验–假设检验H0:1=2==p=0,HA:至少有一个不等于0方差分析表变异来源回归离回归总变异平方和SSRpMSRMSR/MSESSEn-p-1MSESSTn-1自由度均方F值多元线性回归的检验•回归系数的检验H0:j=0HA:j0检验统计量)(~EEjjjbjdftMSCbSbtj正规方程组系数矩阵的逆矩阵中的第j个对角线元素复相关•定义:一个变量与其他多个变量之间的相关yyxxxyrRpˆ,,,21y与x1,x2,,xp之间的相关ippiiixbxbxbby22110ˆ复相关系数:相关指数:TRxxxySSSSRp2,,,21复相关•计算设有p个变量X1,X2,,Xp,它们之间的简单相关矩阵为1111321323132231211312pppppprrrrrrrrrrrrRjjjCR11其他复相关系数相关矩阵逆矩阵中的第j个对角线元素复相关•计算22323131221321223112rrrrrrR21313231222321213212rrrrrrR3个变量(X1,X2,X3)之间的复相关:22312231322321312312rrrrrrR偏相关•定义:–当其他变量保持不变时,变量Xi和Xj之间的相关其他变量jixxr•计算:jjiiijijCCCr其他相关矩阵逆矩阵中的第ij个元素偏相关•一级偏相关)1)(1(223213231312312rrrrrR)1)(1(223212231213213rrrrrR)1)(1(213212131223123rrrrrR概述•非线性回归分析–已知曲线类型•判断:根据专业知识(理论和经验),或样本数据的散点分布趋势•分析方法:曲线方程线性化直接配合曲线方程–未知曲线类型•分析方法:多项式回归曲线回归的线性化•设有回归模型eXY线性化:eXY但是?相乘相加通常的做法:不考虑误差的出现形式,只考虑模型的主体部分一元线性回归模型常见的可线性化的曲线回归•幂函数:XY线性化:常见的可线性化的曲线回归•指数函数XeY线性化:常见的可线性化的曲线回归•对数函数XYln线性化:常见的可线性化的曲线回归•双曲线函数XY11线性化:常见的可线性化的曲线回归•S型曲线XeY1线性化:多项式回归•多项式回归模型eXXXYkk2210eXXXYkk22110令X1=X,X2=X2,,Xk=Xk,通常取k=2(二项式回归)或k=3(三项式回归)多元线性回归模型曲线配合的拟合度•比较不同回归方程–估计误差平方和–决定系数2*)ˆ(iiEYYSS222ˆ1iiiiYRYYYYSSSSR曲线配合的拟合度直线回归幂函数回归二项式回归估计误差平方和15128226088103621决定系数0.340.870.55对例11-1所配合的3个回归方程的比较010020030040050060003691215维生素K摄入量血凝剂浓度注意•利用线性化的方法配合曲线方程只能使线性化的回归方程的误差平方和最小,不能保证曲线方程的误差平方和最小•如果条件允许,最好直接配合曲线方程对于例:线性化方法直接配合估计误差平方和2608817322决定系数0.870.92方程多项式回归•用于无法确定曲线类型的曲线回归•原理:任何函数都可以用多项式来近似kkxbxbxbaxfy221)(二次抛物线(二项式):221xbxbay三次抛物线(三项式):33221xbxbxbayTayler变换线性模型的概念建立线性模型的目的:为了分析影响观察值的各因素(因子)建立模型时需考虑所有的影响因素因子:直接或间接影响观察值的因素例如:影响母牛产奶的因素有:头胎产犊年龄、产犊季节、本身的遗传潜力、空怀天数等等线性模型(linearmodel)的概念线性模型:对于参数和随机变量为线性的模型exbxbxbbykk22110其中:kbbb,,,10为未知参数,kxxx,,,10为影响y诸因素的观察值e为随机残差(randomresterror)产奶量品种性别个体线性模型的内容:数学方程式(数学模型式,equation)模型中随机效应和随机变量的数学期望和方差建立模型时的所有假设和约束条件线性模型的概念理论上的均值线性模型式用矩阵的形式表示该线性模型,令:)......1(22110niexxxyiikkiiinyyy...21yn...10βnknkkxxxxxx...1...............1...11221111Xneee...21e设y和x1……xk之间服从线性关系,对y及x1……xk同时作n次观察后,得到n组数据,对于第i组数据,有:则有:

1 / 104
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功