第十二章线性回归分析练习题一、最佳选择题1.XYS,表示()。A.Y的离散程度B.ˆY对Y的离散程度C.Y和X的离散程度D.Y对ˆY的离散程度E.X的离散程度2.用最小二乘法确定直线回归方程的原则是各观察点距直线的()。A.纵向距离之和最小B.纵向距离的平方和最小C.垂直距离之和最小D.垂直距离的平方和最小确E.纵向距离的平方和最大3.Y=14+4X是1-7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg)。A.截距改变B.回归系数改变C.两者都改变D.两者都不改变E.相关系数改变4.直线回归系数假设检验,其自由度为()。A.nB.n-1C.n-2D.2n-1E.2(n-1)5.当r=0时,Y=a+bX回归方程中()。A.a必大于零B.a必等于XC.a必等于零D.a必等于YE.a必等于b6.在多元线性回归分析中,应变量总离均差平方和可以分解为回归平方和与残差平方和两部分,试回答残差系指()。A.观察值iY与估计值ˆiY之差B.观察值iY与平均值Y之差C.估计值ˆiY与平均值Y的平方和之差D.观察值iY与平均值Y之差的平方和E.观察值iY与估计值ˆiY之差的平方和二、问答题1.用什么方法考察回归直线是否正确?2.简述回归系数方差分析Y的平方和自由度的分解。3.简述回归分析中Y的标准差YS与剩余标准差XYS,的区别和联系。4.简述YSˆ与0YS的区别。5.举例说明如何用直线回归方程进行预测和控制?6.直线回归分析时怎样确定自变量和因变量?7.简述曲线回归常用的几种曲线形式。三、计算题1.一个产科医师发现孕妇尿中雌三醇含量与产儿体重有关,并且两者之间成正相关。现收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。结果如下表,求直线回归方程并对回归系数作假设检验。待产妇尿中雌三醇含量与新生儿体重关系编号尿雌三醇新生儿体重编号尿雌三醇新生儿体重(mg/24h)(kg)(mg/24h)(kg)(1)(2)(3)(4)(2)(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.22.为探讨某地饮水中氟含量与氟骨症的关系,试对测量得到的下列8对数据进行直线相关分析。氟含量(mg/L)X:0.470.641.001.471.602.863.214.71患病率(%)Y:22.3723.3125.3222.2928.5735.0046.0746.08(1)按此资料绘制散点图?(2)求直线回归方程并对回归系数作假设检验。(3)试估计氟含量为2.00mg/L时,患病率平均增加多少,计算其95%的可信区间,并说明其含义。(4)求氟含量为2.00mg/L时,患病率Y值的95%的容许范围,并解释其含义。练习题参考答案一、最佳选择题:1.D2.B3.C4.C5.D6.A二、问答题1.答:用以下三种方法判定:(1)直线必须通过点(X,Y)。(2)若纵坐标、横坐标无折断号,将此线左端延长与纵轴相交,焦点的纵坐标必等于截距a。(3)直线是否在自变量X的实测范围内。2.答:SS总即2YY(-),为反应变量Y的离均差平方和,表示在未考虑X与Y的回归关系时Y的变异,可分解为两部分的变异,一部分为回归平方和,另一部分为剩余平方和,分别用SS回和SS剩表示。这三个平方和,各有其相应的自由度,其关系为:总回残=+,1n总,1回=,n-2残=。3.答:YS表示在总体中,当X为某一定值时,个体Y值的波动范围。而剩余标准差,YXS是指当X对Y的影响被扣除后,Y方面仍有变异。这部分变异与X无关,纯属抽样变异。当X与X接近且充分大时,可用,YXS代替YS。4.答:Y是X对应Y的总体均数的一个样本估计值,YS是反映其抽样误差大小的标准误,其计算公式为22002()()11()YXYXYXXxXxXSSSnnlXX;0YS是反映个体Y值的容许区间大小的,也就是说当总体中X为某定值时,Y值由于随机误差影响在0Y上下波动的范围的大小就取决于标准差0YS,其计算公式为022002()()1111()YYXYXXXxXxXSSSnnlXX。5.答:步骤如下:(1)根于研究目的确定预报因子(X)和预报量(Y),由X估计Y值,收集资料。(2)建立预报方程bXaY,并进行回归系数假设检验。若P小于检验水准,则回归方程成立。(3)根据回归方程在X实测范围内对Y进行预测,并计算X为某定值时,个体Y值波动范围(容许区间)。例如:1-7岁儿童,X为年龄,Y为体重,可根据年龄预测(估计)体重。统计控制是利用回归方程进行逆估计,如要求因变量Y值在一定范围内波动,可以通过控制自变量X的取值来实现。步骤同前。例如:针刺哑门穴,进针深度Y与颈围X间存在直线关系,可根据X取值达到控制Y的目的。6.答:(1)Ⅰ型回归中,X为精密测定和严格控制的变量,Y为正态变量。表示原因的为X,表示结果的为Y。(2)Ⅱ型回归中,X、Y均为服从正态分布的随机变量,互为因果,可计算两个回归方程。何者为X,何者为Y,根据研究目的确定。如身高、体重两变量,若目的只是由身高估计体重,则确定X为身高,Y为体重。7.答:曲线回归常用的几种曲线形式有:(1)指数函数(()abXYe),当b>0时,Y随X上升而上升;当b<0时,Y随X上升而下降。(2)幂函数(bYaX),当b>0时,Y随X上升而上升;当b<0时,Y随X上升而下降。(3)对数函数(lnYabX),当b>0时,Y随X上升而上升,先快后慢;当b<0时,Y随X上升而下降,先快后慢。(4)logistic函数(11abXYe),当b>0时,Y随X上升而下降;当b<0时,Y随X上升而上升。三、计算题1.解:(1)计算获得:534X,29876X,99.2Y,2324.8Y,1750XY,3.2X,17.23Y53499.2175041.2031XXYY225349876677.4231XX代入公式:4120.061677.42XXYYbXX3.20.06117.232.15aYbXˆ21.50.061YabXX(2)回归系数假设检验:0:0H,即孕妇尿中雌三醇含量与产儿体重有直线关系1:0H,即孕妇尿中雌三醇含量与产儿体重无直线关系0.05由上面的计算结果:2677.42XX,26.74YY,4.12XXYY2241.2ˆ6.744.23677.42YY.4.230.38312XYS,0.380.15677.42bS所以,0.614.140.15t自由度31229v,查t值表,0.01/2,292.756t,0.01P,按0.05检验水准,拒绝0H,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在线性回归关系。2.解:(1)散点图如下氟含量与患病率的散点图0510152025303540455000.511.522.533.544.55氟含量(mg/L)患病率(%)(2)由原始数据及散点图初步分析,估计本资料有直线趋势,故作下列计算15.96X,247.02X,2.00X249.01Y,28468.78Y,31.13Y,594.25XY22215.9647.0215.188XXXlXn222249.018468.78718.038YYYlYn15.96249.01594.2597.488XYXYlXYn97.486.4215.18XYXXlbl31.136.422.0018.29aYbX回归系数假设检验:0:0H,即氟含量与患病率之间无线性关系1:0H,即氟含量与患病率之间有线性关系0.05718.028YYSSl总2297.48625.98315.18XYXXlSSl回718.028625.98392.045SSSSSS剩总回①方差分析(见表):方差分析表变异来源SSdfMSFP回归625.9831625.98340.805<0.01剩余92.045615.341总变异718.0287计算得16.147F,查F界值表,得P<0.01,按0.05水准,拒绝0H,接受1H,可认为氟含量与患病率间有直线关系。②t检验:0:0H,即氟含量与患病率之间无线性关系1:0H,即氟含量与患病率之间有线性关系0.05718.028YYSSl总2297.48625.98315.18XYXXlSSl回718.028625.98392.045SSSSSS剩总回92.053.92282YXSSSn剩06.426.383.9215.18bYXXXbbtSSl按6v,查t界值表,得0.001P,按0.05水准,拒绝0H,接受1H,结论同上。本题tF39.681.40,故可用直线回归方程ˆ18.296.42YabXX来描述患病率与增加氟含量的关系。异常点即对应于(ˆYY)绝对值特大的观测数据见表残差的计算序号XYˆYˆYY10.4722.3721.311.0620.6423.3122.400.9131.0025.3224.710.6141.4722.2927.72-5.4451.6028.5728.560.0162.8635.0036.65-1.6573.2146.0738.907.1784.7146.0848.53-2.45由散点图及残差分析,第一点(X=1.47,Y=22.29)为可疑的异常点。根据以上的计算结果,进一步求其总体回归系数的95%可信区间。总体回归系数的95%可信区间)88.8,96.3()18.1592.3447.242.6,18.1592.3447.242.6(),()2(,05.0)2(,05.0bnbnStbStb按回归系数的95%可信区间下限和上限分别代入XbYa,得37.13,21.2321aa。回归系数的95%可信区间上、下限对应的两条直线,回归方程为:XYXY88.837.13,96.321.23(3)估计氟含量为2.00mg/L时,患病率平均增加多少,计算其95%的可信区间,并说明含义。39.118.15)00.200.2(8192.3)()(1220*XXXxnSSXYY当X=2.00mg/L时,ˆY的95%可信区间:(ˆ0.05/2,6ˆYYtS,ˆ0.05/2,6ˆYYtS)=(31.13-2.447×1.39,31.13+2.447×1.39)=(27.73,34.53)即总体中,氟含量为2.00mg/L时,患病率平均增加31.13mg/L,其95%的可信区间为(27.73,34.53mg/L)。其含义为:当氟含量为2.00mg/L时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为31.13mg/L),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。(4)求氟含量2.00mg/L时,患病率Y值的95%可信区间,并解释其含义。16.418.15)00.200.2(81192.3)()(11220*XXXxnSSXYY当x=2.00mg/L时,ˆ18.296.4231.13YX,个体Y值的95%可信区