10-1第10章回归分析摘要:回归分析依自变量个数的多少可分为一元回归和多元回归;根据依变量和自变量之间的关系和性质可分为线性回归和非线性回归。§10.1回归分析概述一、回归分析的任务和种类1.回归分析解决哪些问题当人们从一组对象上获得2个或多个指标的观测值时,往往需要回答下述几个问题:①如何实现预测,即如何由:1个或多个指标(自变量)的值去推算另1个或多个指标(因变量)的值;②如何实现控制,即事先给出产品质量应达到的标准(因变量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(自变量)的变化区间;③如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。回归分析正是回答上述问题的一种最常用最有效的统计分析方法之一。2.回归分析的种类如果因变量是连续变量(即一般定量资料),设自变量的个数为K,当k=1时,回归分析的种类有:①直线回归分析;②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合);③非线性曲线拟合;④一般多项式曲线拟合;⑤正交多项式曲线拟合。当k≥2时,称为多元回归分析(注:前面的④、⑤两种情况实质上是用多元回归分析解决只含:个自变量时较复杂的曲线拟合问题)。当同时对多个因变量进行回归分析时,称之为多重回归分析。在多元回归分析中,简单而又实用的则是多元线性回归分析(其中某些自变量可以是原观测指标经过某种初等变换的结果,如对数变换、开平方根变换等,因为这里所说的线性是指:函数f(X)相对于回归参数是线性的,并非相对于自变量而言)。10-2如果因变量是与生存时间有关的连续变量且未被离散化(如:生存时间、复发时间、死亡时间等),而自变量可以是定量的,也可以是定性的。此时需用生存分析中的半参数或参数回归分析方法。如果因变量是有序变量,无论它取2个离散值(如:死与活、复发与未复发等)还是多个离散值(自变量可以是定性和定量的)时,都可选用logistic回归分析;如果把列联表中每个格内的理论频数的对数当作因变量,把分组变量(包含影响因素和观测结果变量两类)当作自变量,可用对数线性模型分析。在自变量代表时间的情况下,通常不假定因变量Y的各次观察值独立,而具有某种非独立的结构,例如构成一平稳序列。这种回归模型的研究被划入统计学的另一个重要分支——时问序列统计分析的范围。二、直线回归与相关分析的概念和要点1.两种分析方法的异同点研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。从资料所具备的条件来说,作相关分析时要求两变量都是随机变量(如:人的身高与体重、血硒与发硒);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量(即可以事先指定变量的取值,如:用药的剂量)。2.散布图在这两种分析中的作用功能齐全的统计软件,会蒙骗盲目运用统计方法的人,进行直线相关和回归分析时,尤其要注意。因为统计方法只能帮助人们揭示数据之间内在的统计规律性,而不能创造规律,也就是说,资料之间是否存在本质联系要靠专业知识来解释。另外,在专业上有一定联系的2项指标之间的关系并非都是直线关系。实事上,如果2项指标之间呈一条弯曲度不大的“S”型或反“S”型曲线趋势,错误地用一条直线回归方程来描述,在统计学上往往会得到较高的显著性,即该直线回归方程是成立的,但在生物学上是解释不通的(当因变量是某种率时最易发生这种现象)。正确的做法是:将(X,Y)的n对数值绘在直角坐标系内,得到X与Y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;如果n个点在一条不太宽的长带内随机地分布着,且不存在明显的曲线趋势,可考虑进行直线相关和回归分析;如果n个点形成的散布图近似于一个圆盘,则说明X与Y之间无确定的变化趋势,几乎是互相独立的,不必硬把它们捏合在一起分析。10-3§10.2一般线性回归分析过程REGREG过程是进行一般线性回归分析通用的过程,该过程采用最小二乘法拟合线性模型,可以有多个模型(MODEL)语句,输入数据可以是原始样本数据,也可以是相关阵,可输出有关数据的描述统计量、参数估计值、预测值、残差、置信区间等,并可作线性假设测验,这些统计结果可输出到一个新的SAS数据集中。一、过程格式PROCREG选择项;Label:MODEL依变量表=自变量表/选择项;BY变量表;FREQ变量;WEIGHT变量;ID变量;VAR变量表;OUTPUTOUT:输出数据集关键字=新变量表;PRINT选择项二、语句说明程序中全部语句中只有第一行和MODEL语句是必需的,其他均为可选择语句。1.MODEL语句,必需语句,定义回归分析模型2.VAR语句为可选的,指定用于计算交叉积的变量3.PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。【PROCREG过程选项】OUTEST=数据集名指定统计量和参数估计输出的新数据集名。NOPRINT禁止统计结果在OUTPUT视窗中输出。SIMPLE输出REG过程中所用的每个变量的基本统计量。CORR输出MODEL语句或VAR语句中所列变量的相关矩阵。ALL等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。【MODEL语句】MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。如X1的二次项,不能在模型中直接指定X1*X1,而要产生另一个新变量代表X1*X1,方可引入模型。MODEL语句中常用的选项有:NOINT在模型中不拟合常数项。STB输出标准偏回归系数。10-4CLI输出个体预测值的95%可信区间上下限。CLM输出因变量期望值(均值)的95%可信区间上下限。R输出个体预测值、残差及其标准误。P输出实际值Yi、预测值和残差等。如已选择了CLI、CLM和R,则无需选择P。【关键字】REG过程中OUTPUT语句的用法和UNIVARIATE过程中的用法相同,只是会用到另一些关键字。关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:PREDICTED因变量预测值(简写为P)RESIDUAL残差(简写为R)L95M、U95M均数95%可信区间上下限L95、U95个体预测值95%可信区间上下限STDP期望值的标准误STDR残差的标准误STDI预测值的标准误STUDENT学生化残差(即残差与标准误之比)【PRINT语句】PR1NT语句指定打印分析结果。其选择项主要有三类:①MODEL语句中的控制模型参数和预测值输出的选择项,如STB等;②ANOVA输出当前模型的方差分析表;③MODELDATA输出模型中使用的变量数据。【与PROCREG语句配合应用的其他常用语句】BY语句对BY指定的变量分组分别进行分析。其应用前提是数据集中的数据必须先籍PROCSORT过程,按BY指定的变量表进行排序。FREQ语句用于指定在数据集中表示观察值发生次数的变量,当进行显著性测验计算自由度时,观测总数将等于FREQ语句指定变量的数值之和。WEIGHT语句用于指定在数据集中表示观察值权重的变量,即权变量。ID语句要求在输出结果时,用ID指定的变量取代观察值序号。VAR语句要求将那些在MODEL语句中未用的数值变量也一起包括在向量叉积矩阵中,此选项必须与OUTSSCP选项并用。§10.3一元线性回归若x和y变量之间存在相关关系,依变量y在某种程度上是随自变量x值的变化而变化的,那么可以用y=a+bx直线方程来定量地描述两个变量的线性函数关系。有多个SAS过程能够进行一元线性回归,其中较常用的是REG过程和GLM过程。10-5一些简单的非线性方程,也可通过线性化转变成一元线性方程,然后进行线性回归分析。10.3.1一元线性回归例10.1一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表10.1,试计算x和y的相关系数和决定系数。表10.1累积温和一代三化螟蛾盛发期的关系数据X累积温35.534.131.740.336.840.231.739.244.2Y盛发期12169273139-1程序DATAnew;INPUTxy@@;CARDS;35.51234.11631.7940.3236.8740.2331.71339.2944.2-1PROCREG;MODELy=x;PROCGLM;MODELy=x;RUN;输出结果TheREGProcedureModel:MODEL1DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePrFModel1174.88878174.8887816.400.0049Error774.6667810.66668CorrectedTotal8249.55556RootMSE3.26599R-Square0.7008DependentMean7.77778AdjR-Sq0.6581CoeffVar41.99128ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr|t|Intercept148.5493210.127794.790.0020x1-1.099620.27157-4.050.0049TheGLMProcedureNumberofobservations9TheGLMProcedure10-6DependentVariable:ySumofSourceDFSquaresMeanSquareFValuePrFModel1174.8887762174.888776216.400.0049Error774.666779310.6666828CorrectedTotal8249.5555556R-SquareCoeffVarRootMSEyMean0.70080141.991283.2659897.777778SourceDFTypeISSMeanSquareFValuePrFx1174.8887762174.888776216.400.0049SourceDFTypeIIISSMeanSquareFValuePrFx1174.8887762174.888776216.400.0049StandardParameterEstimateErrortValuePr|t|Intercept48.5493193610.127786264.790.0020x-1.099622040.27156710-4.050.0049REG过程输出的结果中,给出了方差分析表,F值为16.396(Prob=0.0049)。离回归标准误(RootMSE)为3.26599,决定系数(R-square)为0.7008,调整后的R2(AdjR-sq)为0.6581,变异系数(C.V.)为41.99128。参数估计部分(ParameterEstimates)给出了截距及斜率参数的估计值及显著性测验结果,拟合的直线方程为:y=48.549319-1.099622xGLM过程拟合的结果与REG过程相近。TforH0:Parameter=0(测验H0:参数为0的t值)用于测验参数估计是否显著的不为0。其值为参数估计除以标准误差。Prob|T|给出对应t值的显著性概率P值。本例中两者的概率均小于0.01,有极显著的意义。例10.2一元一次及二次回归。测得某种液体的热容量Y和温度