评分大理大学实验报告2015—2016学年度第2学期课程名称生物医学统计分析实验名称回归分析专业班级2013级生物医学工程姓名朱广能马凯学号20131661442013166124实验日期2015年12月31日实验地点工科楼503生物医学统计分析实验报告第2页共13页一、实验目的1.熟悉数据管理的相关操作。2.学会数据的一些基本统计分析方法及操作。二、实验环境1.硬件配置:处理器(Intel(R)Pentium(R)4cpu2.80GHz)、CD-ROM驱动器、鼠标、内存1GB(1024MB)、32位操作系统2.软件环境:IBMSPSS_Statistics_19_win32三、实验内容(一)回归分析回归分析通过“回归”过程来实现,该模块主要包括以下几个命令:自动线性建模;线性(线性回归分析);曲线估计(曲线回归分析);二元Logistic(二元Logistic回归分析);非线性回归分析等。(二)回归分析的一般方法1.确定回归方程中的因变量和自变量2.确定回归模型3.建立回归方程4.对回归方程进行各种检验5.利用回归方程进行检验(三)一元线性回归分析[Eg8.1]其分析的任务是根据若干个观测值(xi,yi)i=1,2,…,n找出描述两个变量x与y之间关系的线性回归方程:(四)多元线性回归分析(linear过程)[Eg8.2]、[习题1]在生物医学领域的许多实际问题中,常常需要研究一个因变量与多个自变量间的相关关系。比如动物的体重同时受体长、身高、胸围等性状的影响。因此需要进行一个因变量与对个自变量间的回归分析,即多元回归分析。在多元线性回归分析中,用户可以根据需要,选用不同删选自变量的方法(如:逐步法、向前法、向后法等)(五)曲线回归分析(CurveEstimation过程)[Eg8.3]、[习题2]在实际生产中,因变量x与自变量y间的相关关系并非一定是线性关系,更多的是各种各样的曲线关系。在许多情况下,曲线回归可以通过变量转运转换成线性形式来解决。曲线回归的基本分析过程是:先通过变量替换的方法把不满足线性关系的数据转换为符合线性回归模型的数据,再利用线性回归分析方法建立线性回归方程并进行显著性检验,然后再转换成曲线回归方程。(六)生长曲线的方程拟合[Eg8.4]在生物生长过程中,初始阶段的生物量增长较缓慢,继之速度加快进入快速期,而后又转入缓慢期,直至停止生长,呈“S”型,称为生长曲线,属于非线性回归。1.Logistic曲线方程的拟合2.Gompertz和VonBertalanffy曲线方程的拟合生物医学统计分析实验报告第3页共13页四、实验结果与分析[例8.1]建立饲料消耗量对体重的回归方程并对回归关系、回归系数进行检验表8.1-1饲料消耗和体重的描述性统计量均值标准偏差N饲料消耗93.5603.881610体重4.980.413110表8.1-2饲料消耗和体重的相关性分析表饲料消耗体重Pearson相关性饲料消耗1.000.818体重.8181.000Sig.(单侧)饲料消耗..002体重.002.N饲料消耗1010体重1010表8.1-3饲料消耗和体重回归分析的相关模型汇总模型RR方调整R方标准估计的误差1.818a.670.6292.3656a.预测变量:(常量),体重。表8.1-4饲料消耗和体重回归分析的Anovab模型平方和df均方FSig.1回归90.836190.83616.232.004a残差44.76885.596总计135.6049a.预测变量:(常量),体重。b.因变量:饲料消耗表8.1-5饲料消耗和体重的回归系数a及t检验模型非标准化系数标准系数tSig.B标准误差试用版1(常量)55.2639.5355.796.000体重X7.6901.909.8184.029.004a.因变量:饲料消耗生物医学统计分析实验报告第4页共13页分析:表8.1-1给出了饲料消耗和体重的描述性统计量;表8.1-2可见,相关系数r=0.818,显著概率(Sig.)P=0.0020.01,即体重和饲料消耗之间是极显著正相关关系;表8.1-3是有关线性回归模型的参数,“R”相当于两个变量的简单相关系数r;“R方”即相关系数的平方值,也称为决定系数r2或拟合度R2,其值为0.670,表示因变量饲料消耗量的变异中有67.0%是由自变量体重的不同造成;“调整R方”是修正的决定系数,为0.629.“标准估计的误差”是估计值的标准误差,记为Syx。即:表8.1-4为回归关系的显著性检验的方差分析结果。可见F=16.232,P=0.0040.01表明体重对饲料消耗量存在极显著的线性回归关系,所建立的回归方程是有意义的。表8.1-5为回归系数表,可见回归系数,可见回归系数b=7.690,截距(常数项)a=55.263,因此可建立以下回归方程:截距的标准误差为9.535。回归系数b的标准误差Sb为1.909,其公式为:表8-6还给出了回归系数显著性检验结果:回归系数b检验的统计量t值为4.029,P=0.0040.01,截距a检验的统计量t值为5.796,P=0.0000.01,即体重与饲消耗量的回归系数均极显著,表明体重与饲料消耗量间存在极显著地线性关系,可用所建立的回归方程来进行预测和控制。[例8.2]根据某猪场25头育肥猪4个胴体性状的数据资料,然后进行廋肉量y对其眼肌面积(x1)、腿肉量(x2)、腰肉量(x3)的多元线性回归分析表8.2-1廋肉量y、眼肌面积(x1)、腿肉量(x2)、腰肉量(x3)的相关性分析瘦肉量眼肌面积腿肉量腰肉量Pearson相关性瘦肉量1.000.279.851.606眼肌面积.2791.000.220.183腿肉量.851.2201.000.340腰肉量.606.183.3401.000Sig.(单侧)瘦肉量..088.000.001眼肌面积.088..146.190腿肉量.000.146..048腰肉量.001.190.048.N瘦肉量25252525眼肌面积25252525腿肉量25252525腰肉量25252525生物医学统计分析实验报告第5页共13页表8.2-2四变量中输入/移去的变量a模型输入的变量移去的变量方法1腿肉量.步进(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。2腰肉量.步进(准则:F-to-enter的概率=.050,F-to-remove的概率=.100)。a.因变量:瘦肉量模表8.2-3四变量分析的模型汇总模型RR方调整R方标准估计的误差1.851a.725.713.582372.916b.838.824.45636a.预测变量:(常量),腿肉量。b.预测变量:(常量),腿肉量,腰肉量。表8.2-4廋肉量y、眼肌面积(x1)、腿肉量(x2)、腰肉量(x3)的方差分析表模型平方和df均方FSig.1回归20.561120.56160.624.000a残差7.80023.339总计28.361242回归23.779211.89057.089.000b残差4.58222.208总计28.36124a.预测变量:(常量),腿肉量。b.预测变量:(常量),腿肉量,腰肉量。c.因变量:瘦肉量表8.2-5偏回归系数及其t检验模型非标准化系数标准系数tSig.B标准误差试用版1(常量)2.5951.5861.636.115腿肉量2.453.315.8517.786.0002(常量)1.1281.298.870.394腿肉量2.102.263.7308.006.000腰肉量1.976.503.3583.931.001表8.2-6已排除的变量c情况模型BetaIntSig.偏相关共线性统计量容差1眼肌面积.097a.858.400.180.952腰肉量.358a3.931.001.642.8842眼肌面积.057b.632.534.137.938a.模型中的预测变量:(常量),腿肉量。b.模型中的预测变量:(常量),腿肉量,腰肉量。c.因变量:瘦肉量生物医学统计分析实验报告第6页共13页分析:首先,将作用最显著的变量引进模型,在此基础上引进对模型作用最显著的第二个变量,引进变量后立即对原来引进的变量进行显著性检验,及时剔除不显著的变量,然后在考虑引进新变量,依次重复,直至既不能再引进变量又不能从模型中踢出变量为止,最后得到最优回归方程。表8.2-1为各变量相关分析结果,给出了各变量的两两相关系数及其相对应的显著概率值此处不做详解;表8.2-2表明整个逐步回归过程中引进变量和剔除变量的情况。表中第一列“模型”表示过程的次序,第二列“输入的变量”表示引进的变量,第三列“移去的变量”表示剔除的变量,第四列“方法”说明引进变量或剔除变量的标准。表中显示第一次引进的变量是腿肉量x2,建立了模型1,第二次引进的变量是腰肉量x3,建立了模型2,引进的变量没有有被剔除,所以模型2中包含了两个变量:腿肉量和腰肉量;表8.2-3说明对回归方程影响最大的变量依次引入回归方程后,复相关系数(R)的变化。复相关系数(R)表示自变量与因变量的密切程度。“标准估计的误差”表示自变量的影响因素被扣除后,因变量本身的变异(误差),由表8.2-3可见,当“腿肉量x2”被引入回归方程时,复相关系数R为0.851,估计标准误差为0.58237,当“腰肉量x3”被引入回归方程时,其R值为0.916,估计标准误差为0.45636,可见自变量被依次引入回归方程后,其复相关系数(R)逐渐变大,估计标准误差逐渐变小;表8.2-4给出了回归过程中每一步引入影响最大的变量后,回归关系显著检验的方差分析结果。在模型1,变量“腿肉量x2”引入回归方程后,F=60.624,P(sig.)≈0,P0.01;在模型2,变量“腿肉量x2”和“腰肉量x3”引入回归方程后,其F=57.089,P(sig.)≈0,P0.01,表明两个模型的回归关系的检验均具有非常高的显著性。表8.2-5给出了两个模型的偏回归系数及相应的t检验结果。由表8.2-5可知,第一次引入变量的是“腿肉量x2”,所得的第一回归方程为:y=2.595+2.453x2第二次引入变量是“腰肉量x3”所得第二回归方程为:y=1.128+2.102x2+1.976x3经t检验,腿肉量和腰肉量的P值分别为0.000,0.001,均小于0.01,他们的回归检验均具有非常高的显著性。表8.2-5还列出各变量的偏回归系数的标准误差、标准系数(标准化回归系数);表8.2-6给出了已排除变量的统计信息。由表可见,在模型1中腰肉量x3的t=3.931,P=0.0010.01,故腰肉量x3被引入方程;没有引入方程的变量“眼肌面积x1”在模型1和模型2中其P(sig.)分别为0.400和0.534均大于0.05,无显著统计学意义,故为不重要变量。综上所述,模型2的回归方程y=1.128+2.102x2+1.976x3是最优的回归模型。生物医学统计分析实验报告第7页共13页[例8.3]测定了8尾雌性鲟鱼的体长和体重,试对鲟鱼体重与体长进行回归分析表8.3-1鲟鱼体重与体长回归分析的模型汇总和参数估计值因变量:体重y方程模型汇总参数估计值R方Fdf1df2Sig.常数b1b2b3线性.91463.42316.000-18.221.237对数.84733.10016.001-110.78225.481倒数.75918.86816.00533.063-2523.610二次.96978.19325.0009.416-.266.002三次.97081.56525.000.216.000.0007.083E-6复合.950114.09816.000.1491.033幂.984366.51716.0002.071E-73.649S.989546.10116.0005.392-382.771增长.950114.09816.000-1.903.032指数.950114.09816.000.149.032自变量为体长x。图8.3-2体重和体长的S型曲线的拟合效果图分