第12章 简单回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十二章简单回归分析概述简单线性回归线性回归的应用残差分析非线性回归概述回归分析-因变量Y随自变量X的变化而变化。相关分析-因变量Y与自变量X间的彼此关系。在医学研究中,常要分析变量间的数量规律。回归则是研究这种关系的统计方法。线性回归则是较简单的一种。简单线性回归函数关系:确定的。如,y=2πr回归关系:不确定的。Y随着X的变化而变化,但不具有一一对应性。例如成年人的胸围随着体重的增大而增大,但不能讲体重60公斤的人,胸围一定是多少。概述回归描述的是通过自变量的数值反应因变量的平均水平。因此可以通过可测或易测的变量估计难测或不可测变量的状态。例如:通过体重估计体表面积;通过身高、体重、肺活量估计心室血输出量、体循环总血量;本章只涉及一个自变量的回归问题!简单线性回归回归系数b的意义直线回归的概念主要是通过直线回归系数b的概念体现的。当X增加一个单位时,Y相应地平均改变b个单位。例如,由年龄X推算小儿体重Y的回归方程为它表示年龄增加l岁,体重平均增加2公斤。显然,回归系数b可以很好地反映X与Y之间的数量规律(以上方程适用于2—12岁儿童)。XY28ˆ简单线性回归一般表达式:(linearregressionequation)直线回归方程中只有两个待定的常量a和b,所以求回归方程的目的就是求出a和b。a:称为截距(intercept),当X可以取零时a才有意义。b:称为回归系数(regressioncoefficient),它就是回归直线的斜率。b0,Y随X的增加而增大;b0,Y随X的增加而减小;b=0,直线与X轴平行,X与Y无直线关系。|b|越大,表示Y随X变化越快,直线越陡峭。bXaYˆ简单线性回归简单线性回归回归方程参数的计算:根据样本观察值(x,y),计算a,b的过程最小二乘原则使各实际散点(Y)到直线()的纵向距离的平方和最小也即最小ˆY2ˆYY简单线性回归YYˆ为残差:点到直线的纵向距离。1112131415165.05.56.06.5最小二乘(Leastsquares)法图解Yi(Y的估计值)=a+bXiYi估计值残差i=Yi–估计值寻找使S残差i)2最小的直线ˆiYˆiY简单线性回归222ˆ/()()()/XYXXYabXXYXYnlXXYYbXXlXXnaYbXSSSSSSS由最小二乘法得到a,b的计算公式为:例:随机抽取15名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间,数据如下:简单线性回归例:凝血酶浓度与凝血时间计算得到:a=21.77393b=-6.98直线回归方程的图示在X的实测范围内,任取两值带入方程,求得Y的估计值,从而画出回归直线。回归直线的有关性质(1)直线通过均点(2)直线上方各点到直线的纵向距离之和=直线下方各点到直线的纵向距离之和即:(3)各点到该回归线纵向距离平方和较到其它任何直线者为小。0)ˆ(YY22ˆˆbXaYYY),(YX回归系数的假设检验方程的统计学意义:方程有无统计学意义通俗地讲是方程的真伪、方程能不能用的问题。直线回归方程只有一个自变量,所以回归系数的统计学意义与方程的统计学意义是等价的。回归系数是否有统计学意义,可以用方差分析和t检验。回归系数的假设检验方差分析引起Y变异的因素有:1.自变量X的线性影响2.其他因素及测量误差1、建立假设H0:=0H1:0=0.052、计算统计量F值YYYYYYˆˆˆY回归部分)ˆ(YY)(YY总情况Y剩余部分)ˆ(YY实测点),(YXPYX222ˆˆ()()()ˆˆ()()()YYYYYYYYYYYYSSSSSS总剩回总剩回可有数学证明得到:即同样有:=+回归系数的假设检验SS总=2)(YY,Y的离均差平方和1n未考虑X与Y的回归关系时Y的总变异。SS剩=2)ˆ(YY,为剩余平方和2nX对Y的线性影响之外的一切因素对Y的变异,即总变异中,无法用X解释的部分。SS剩越小,回归效果越好。SS回=2)ˆ(YY,为回归平方和1由于X与Y的直线关系而使Y变异减小的部分,即总变异中,可以用X解释的部分。SS回越大,回归效果越好。回归系数的假设检验回归系数的假设检验ANOVAb19.684119.68478.757.000a3.24913.25022.93314RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),凝血酶浓度a.DependentVariable:凝血时间b.回归系数的假设检验总体回归系数的假设检验t检验1、建立假设H0:=0H1:0=0.052、计算统计量总体回归系数的统计推断样本回归系数b的标准误总体回归系数的统计推断总体回归系数的置信区间LINE假定xy标准差相等EQUALSTANDARDDEVIATION对于任何X值,随机变量Y的方差相等独立INDEPENDENCE任意两个观察值之间彼此独立线性LINEARITY反应变量y的均数与X间呈线性关系回归模型的四个假定正态NORMALITY指线性模型的误差项服从正态分布线性回归的应用总体回归线的95%置信带线性回归的应用线性回归的应用2.02.22.42.62.83.03.23.43.63.84.05791113线性回归的应用个体Y预测值的区间估计线性回归的应用线性回归的应用非线性回归非线性回归变换自变量实现线性回归的步骤1、首先将观测数据作散点图,观察散点的分布与何种函数类型类似2、对照所选函数进行相应的变量变换3、使用最小二乘法作线性模型的参数估计直线回归与相关的区别与联系区别r没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示两变量关系的方向和密切程度。而回归则用函数方程表示应变量随自变量变化的数量关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析直线回归与相关的区别与联系联系均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;决定系数表示由X导致Y的变异在总变异中所占的比重,越接近1越好。开方便是相关系数SSTSSRr2回归分析的正确应用要有实际意义;充分利用散点图,判断:(1)线性趋势(2)离群值回归系数是有单位的,不能根据b的大小判断回归关系的密切程度自变量的选择:原因容易测量的变异小的年龄、身高、体重、体表面积回归分析的正确应用应用条件(LINE):(1)线性(linear)(2)独立(independent)(3)给定X时,Y正态分布(normal)(4)等方差(equalvariance)

1 / 39
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功