SAS9.0在通径分析中的应用冯跃华编著搜集变量资料是农业科学研究经常采用的方法,如:搜集作物的产量与其构成因素穗数、粒数、粒重等资料,研究这些变量的目的是想知道这些变量之间的关系,许多人往往采用简单回归和相关或多元回归分析。但是,多元回归分析虽然在一定程度上能反映各个变量的真实关系,然而多元回归在分析偏回归系数时带有单位,使自变量对依变量的效应不能直接进行比较,从而不能比较各自变量的相对重要性。要解决这个问题,进行通径分析(即为通径系数的分析)是一个比较好的选择。然而令人感到棘手的是,面对繁杂的计算公式往往感到无从下手,下面从通径系数的概念入手,引出通径系数的求算方法,并利用SAS完成通径分析全过程。1通径和通径系数的概念1.1通径设依变量y和两个自变量x1、x2之间有如下关系:x1x2Y“→”中表示变量间存在因果关系,箭头方向是原因到结果,称为通径。“”表示变量间存在相关关系,称为相关线,图1x1x2Yx1→y,x2→y为直接通径,由于x1,x2存在相关关系,又产生了两条间接通径,一条是x1是通过x2而作用于Y的通径,记作x1→x2→Y,一条是x2是通过x1而作用于y的通径,记作x2→x1→y。这种情况可以推广到i个自变量,并记直接通径为i→y(i=1,2,3····m);间接通径为i→j→y(i=1,2,3····m,i≠j),但也可统一记作i→j→y,当i=j时为直接通径,i≠j时为间接通径。图11.2通径系数表示各条通径对于改变依变量的相对重要性的统计数就叫通径系数(pathcoefficient),记作Pi→j→Y或简写为PijY。通径系数的定义可以由偏回归系数导出。例如水稻单株产量y(kg)与x1(穗数)、x2(单穗粒数)、x3(粒重)间存在着线性回归关系。其回归关系为:y=b0+b1x1+b2x2+b3x3,此式中b0为常数,b1、b2、b3分别表示y对x1、y对x2、y对x3的偏回归系数,偏回归系数是带有单位的,如b1,b2的单位分别为:kg/穗,kg/粒。所以不便于偏回归系数进行直接比较。所以常常将其标准化之后以便于消去单位,进行直接比较。下面进行回归方程的标准化:y=b0+b1x1+b1x2+b1x3··················································(1)由(1)对y求平均数得:y′=b0+b1x1′+b1x2′+b1x3′····································(2)用(1)式减(2)得:y-y′=b1(x1-x1′)+b2(x2-x2′)+b3(x3-x3′)············(3)由(3)式除Sy得:(y-y′)/Sy=b1(x1-x1′)/Sy+b2(x2-x2′)/Sy+b3(x3-x3′)/Sy······································································(4)将(4)式做相应得恒等变换:(y-y′)/Sy=b1(Sx1/Sy)[(x1-x1′)/Sx1]+b2(Sx2/Sy)[(x2-x2′)/Sx2]+b3(Sx3/Sy)[(x3-x3′)/Sx3]····························(5)其中Sy,Sx1,Sx2,Sx3分别为y,x1,x2,x3的样本标准差,并令:∆y=(y-y′)/Sy,∆x1=(x1-x1′)/Sx1,∆x2=(x2-x2′)/Sx2,∆x3=(x3-x3′)/Sx3,∆y、∆x1、∆x2、∆x3即为变量y、x1、x2、x3的标准化,将(5)式改写成下式:∆y=b1(Sx1/Sy)∙∆x1+b2(Sx2/Sy)∙∆x2+b3(Sx3/Sy)∙∆x3则b1∙(Sx1/Sy),b2∙(Sx2/Sy),b3∙(Sx3/Sy)为变量标准化后的偏回归系数,它是不带单位的相对数,这样就可以用以估计∆x1,∆x2,∆x3对∆y直接影响效应的大小,并比较其重要性。因此通径系数的定义:若相关变量y与x1、x2······xk间存在着直线回归关系,其回归方程为:y=b0+b1x1+b1x2+······+bkxk,则变量标准化后的各偏回归系数b1∙(Sx1/Sy),b2∙(Sx2/Sy),···,bk∙(Sxk/Sy)分别为自变量x1x2···xk对依变量的直接通径系数,即:P1y=b1∙(Sx1/Sy),P2y=b2∙(Sx2/Sy),··,Pky=bk∙(Sxk/Sy),简言之,通径系数是变量标准化的各偏回归系数,用以表示相关变量因果关系的一个统计量。2通径系数的类型通径系数包括直接通径系数和间接通径系数两种类型。2.1直接通径系数对于回归方程y=b0+b1x1+b2x2+b3x3+…+bkxk,则有x1对y的直接通径系数为P1y=b1*Sx1/Sy,x2对y的直接通径系数为P2y=b1*Sx2/Sy,xk对y的直接通径系数为Pky=b1*Sxk/Sy,其中Sx1、Sx2、Sy分别为x1、x2、xk的样本标准差。2.2间接通径系数由许多自变量影响着依变量,但是它们的重要性是不同的,其中一个自变量可能通过其它自变量对依变量起作用,这时可用间接通径系数来表示它。如xi通过xj对y起作用,间接通径系数为:rijPjy,rij表示xi和xj之间的相关系数,Pjy表示xj对y的直接通径系数。2.3直接、间接通径系数和相关系数的关系依据回归系数和通径系数的定义以及最小二乘法原理可得到:rij=Piy+∑rijPjy(i≠j,i、j=1,2,3….K)即:一个自变量对因变量的直接通径系数和间接通径系数的总和等于这个自变量与因变量之间的相关系数。例如:对多元回归方程y=bo+b1x1+b2x2+b3x3,有:r1y=P1y+r12P2y+r13P3yr2y=P2y+r21P1y+r23P3yr3y=P3y+r31P1y+r32P2y并可以得到表1:表1直接通径系数和间接通径系数表变量X1X2X3YX1r11P1yr12P2yr13P3yr1yX2r21P1yr22P2yr23P3yr2yX3r31P1yr32P2yr33P3yr3y注:蓝色部分为直接通径系数,其它为间接通径系数。3、通径系数的性质通径系数有以下几个性质:1)一个具有k个自变量的反应系统,共有m个直接通径系数和m(m-1)个间接通径系数。2)进行通径分析的基础是Y和Xi都具有线性关系,而且Y可以被线性分解。3)通径系数是具有向量的。如:Xi和Y不可以互换,即:Piy≠Pyi。它的取值在实数范围内可以大于1或小于-1。4)通径系数是变量标准化的偏回归系数,它能够表示变量间的因果关系,故具有回归系数性质。5)通径系数不带具体单位,因而又具有相关系数的性质,表示原因与结果的相关关系。所以通径系数是介于回归系数和相关系数之间的一种统计量。6)通径系数可以表示某个自变量的相对重要性。4、应用SAS进行通径分析的具体过程SAS是美国使用的最为广泛的三大著名统计分析软件(SAS,SPSS和SYSTAT)之一,是目前国际上最为流行的一种大型的统计分析系统,被誉为统计分析的标准软件。对于通径系数,如采用其它常规的统计方法,往往颇费周折。如采用SAS软件,往往比较简单,较快的完成分析过程。下面通过一个实例,介绍应用SAS进行通径分析的基本作法。例:测定“丰产3号”小麦的每株穗数(X1),每穗结实小穗数(X2,主茎),百粒重(X3,克),和每株籽粒产量(Y,克)的关系,得结果于表1,试求Y依Xi的最优线性回归方程,并作通径分析。表1“丰产3号”小麦的每株穗数(x1)、每穗结实小穗数(x2)、百粒重(x3)、株高(x4)和每株籽粒产量(Y)的关系X1X2X3Y10233.615.79203.614.510223.717.513213.722.510223.615.510233.516.98233.38.610243.417.010203.413.710213.413.410233.920.38213.510.26233.27.48213.711.69223.612.34.1直接通径系数的求法在sas的程序窗口中输入以下程序:DMlog;clear;output;clear;;odsrtffile='D:\sas2003\tongjing.rtf';PROCIMPORTOUT=tongjingDATAFILE=D:\sas2003\tongjing.xlsDBMS=EXCEL2000REPLACE;SHEET=Sheet1$;GETNAMES=YES;RUN;procregcorrdata=tongjing;/*进行回归分析和相关分析*/modely=x1-x3/selection=stepwisesls=.05sle=.05STB;/*表示选用逐步回归法进行分析,sls=和sle=定义选入和剔除自变量的限制水平(0.05),STB给出直接通径系数*/run;quit;odsrtfclose;D:\sas2003\通径分析程序D:\sas2003\tongjing.xlsD:\sas2003\tongjing.rtfMEANS过程变量标签N均值标准偏差最小值最大值X1X1168.90932462.46823781.549193313.0000000X2X21620.63892505.31069151.222799324.0000000X3X3163.33002970.85778800.18047563.9000000yy1613.82746494.76098294.139438722.5000000TheREGProcedureCorrelationVariableLabelX1X2X3yX1X11.0000-0.13570.50070.8973X2X2-0.13571.0000-0.14890.0462X3X30.5007-0.14891.00000.6890yy0.89730.04620.68901.0000TheREGProcedureModel:MODEL1DependentVariable:yyStepwiseSelection:Step1VariableX1Entered:R-Square=0.8052andC(p)=15.9479AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePrFModel1193.15219193.1521953.73.0001Error1346.737143.59516CorrectedTotal14239.88933VariableParameterEstimateStandardErrorTypeIISSFValuePrFIntercept-8.064293.1135424.118096.710.0224X12.397620.32711193.1521953.73.0001TheREGProcedureModel:MODEL1DependentVariable:yyStepwiseSelection:Step2VariableX3Entered:R-Square=0.8818andC(p)=7.3443AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePrFModel2211.54256105.7712844.78.0001Error1228.346772.36223CorrectedTotal14239.88933VariableParameterEstimateStandardErrorTypeIISSFValuePrFIntercept-30.012908.2612931.1775613.200.0034X11.969650.3063297.6688041.35.0001X37.336592.6294218.390377.790.0163TheREGProcedureModel: