广义相加模型当因变量和自变量不呈线性关系时,可用广义相加模型(GAM)。GAM可对部分或全部的自变量采用平滑函数的方法建立模型,函数可以是非参数的形式,适用于多种分布类型、多种复杂非线性关系的分析。广义相加模型中因变量的分布类型、联系函数和广义线性模型相同。根据Y的分布,f(Y)不同,常见的有:Y的分布联系函数名称f(Y)正态分布(normal)IdentityY二项分布(binomial)LogitLogit(Y)Poisson分布LogLog(Y)γ分布(gamma)inverse1/(Y-1)负二项分布(negativebinomial)LogLog(Y)软件自动检测应变量的类型,如果是连续性变量,自动默认采用正态分布和identity作为联系函数。如是两分类的,自动用logit做联系函数。平滑拟合自由度GAM用s(X)替换β*X。β*X使用的自由度为1。s(X)的自由度取决于平滑程度,越平滑自由度越小。最极端的情况是用一个参数估计的一条直线是最平滑的;另一极端是连接每个实际的数据点是最不平滑的,这种情况下我们用尽了所有的自由度。广义相加模型可以指定平滑拟合自由度。自由度越小,平滑程度越高,但拟合程度降低;自由度越大,平滑程度越低,拟合度越高。默认值是用最低GCV或GACV值(广义交叉验证)的方法找到适当的平滑拟合自由度。本模块不仅输出模型,而且输出每个观察记录的预测值及其标准误。不仅可以建模,还可用于预测。输入数据文件中,应变量缺失的记录,只要模型中的自变量齐全,都可得出预测值及其标准误。右击输出文件可以看到XX_PRED.XLS文件,它含原数据文件(自变量完整的记录)加预测值及其标准误两个变量。例,DEMO数据曲线拟合AGE、BMI与SBP的关系,同时调整SMOKE、ALH、EDU、OCCU,按性别分层拟合。输入界面如下:输出结果结局变量:SystolicBP,mmhg变量分布:gaussian模型:SBP~s(AGE,fx=FALSE,by=factor(SEX))+s(BMI,fx=FALSE,by=factor(SEX))+factor(SEX)+SMOKE+ALH+OCCU.NEW+factor(EDU.NEW)LineartermseffectEstimateStd.Errortvalue95%CIlow95%CIuppP.value(Intercept)132.79013.511637.8143125.9073139.67290factor(SEX)2-3.26212.1806-1.4959-7.53621.01190.1351SMOKE-1.46492.0214-0.7247-5.42692.49710.4689ALH0.0792.1530.0367-4.14084.29880.9707OCCU.NEW-0.59671.5663-0.381-3.66662.47310.7033factor(EDU.NEW)21.00061.95790.5111-2.83694.83820.6095factor(EDU.NEW)30.2272.28370.0994-4.2494.70290.9209Chi-squaretestsforlineartermsdfFp-valuefactor(SEX)12.23790.1351SMOKE10.52520.4689ALH10.00130.9707OCCU.NEW10.14520.7033factor(EDU.NEW)20.16290.8497ApproximatesignificanceofsmoothtermsedfRef.dfFp-values(AGE):factor(SEX)14.53925.566717.32340s(AGE):factor(SEX)24.20875.218130.37550s(BMI):factor(SEX)11.24211.44990.1340.8062s(BMI):factor(SEX)23.33124.2294.99114e-04ModelstatisticsN:784Adj.r-square:0.2833Devianceexplained:0.301UBREscore(sp.criterion):373.7632Scaleestimate:364.075278719197family:gaussianlinkfunction:identity