第一章统计案例章末复习课回归分析问题建立回归模型的步骤:(1)确定研究对象,明确变量x,y.(2)画出变量的散点图,观察它们之间的关系(如是否存在线性相关关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性相关关系,则选用回归直线方程y^=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出回归方程.另外,回归直线方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归直线方程的适用范围,否则没有实用价值.【例1】假设一个人从出生到死亡,在每个生日那天都测量身高,并作出这些数据散点图,则这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析.下表是一位母亲给儿子作的成长记录:年龄/周岁3456789身高/cm90.897.6104.2110.9115.7122.0128.5年龄/周岁10111213141516身高/cm134.2140.8147.6154.2160.9167.6173.0(1)作出这些数据的散点图;(2)求出这些数据的线性回归方程;(3)对于这个例子,你如何解释回归系数的含义?(4)解释一下回归系数与每年平均增长的身高之间的联系.[思路探究](1)作出散点图,确定两个变量是否线性相关;(2)求出a^,b^,写出线性回归方程;(3)回归系数即b^的值,是一个单位变化量;(4)根据线性回归方程可找出其规律.[解](1)数据的散点图如下:(2)用y表示身高,x表示年龄,因为x-=114×(3+4+5+…+16)=9.5,y-=114×(90.8+97.6+…+173.0)≈132,b^=∑xiyi-14x-y-∑x2i-14x-2≈18993-14×9.5×1321491-14×9.52≈6.316,a^=y--bx-=71.998,所以数据的线性回归方程为y=6.316x+71.998.(3)在该例中,回归系数6.316表示该人在一年中增加的高度.(4)回归系数与每年平均增长的身高之间近似相等.1.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗.[解](1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y^=bx+a,x=30.36,y=43.5,i=15x2i=5101.56,i=15y2i=9511.43.xy=1320.66,y2=1892.25,x2=921.7296,i=15xiyi=6746.76.由b^=∑xiyi-5xy∑x2i-5x2≈0.29,a^=y-b^x=43.5-0.29×30.36≈34.70.故所求的线性回归方程为y^=34.70+0.29x.当x=56.7时,y^=34.70+0.29×56.7=51.143.估计成熟期有效穗约为51.143.独立性检验独立性检验的基本思想类似于反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下,我们构造的随机变量χ2应该很小,如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理,根据随机变量χ2的含义,可以通过P(χ26.635)≈0.01来评价假设不合理的程度,由实际计算出χ26.635说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表.(2)根据公式χ2=nn11n22-n12n212n1+n2+n+1n+2计算χ2的值.(3)比较χ2与临界值的大小关系并作统计推断.【例2】在某校高三年级一次全年级的大型考试中数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?物理化学总分数学优秀228225267数学非优秀14315699注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.[思路探究]分别列出数学与物理,数学与化学,数学与总分优秀的2×2列联表,求k的值.由观测值分析,得出结论.[解](1)列出数学与物理优秀的2×2列联表如下:物理优秀物理非优秀合计数学优秀228132360数学非优秀143737880合计3718691240n11=228,n12=132,n21=143,n22=737,n1+=360,n2+=880,n+1=371,n+2=869,n=1240.代入公式χ2=nn11n22-n12n212n1+n2+n+1n+2得χ21=1240×228×737-132×1432360×880×371×869≈270.1143.(2)列出数学与化学优秀的2×2列联表如下:化学优秀化学非优秀合计数学优秀225135360数学非优秀156724880合计3818591240n11=225,n12=135,n21=156,n22=724,n1+=360,n2+=880,n+1=381,n+2=859,n=1240.代入公式,得χ22=1240×225×724-135×1562360×880×381×859≈240.6112.(3)列出数学与总分优秀的2×2列联表如下:总分优秀总分非优秀合计数学优秀26793360数学非优秀99781880合计3668741240n11=267,n12=93,n21=99,n22=781,n1+=360,n2+=880,n+1=366,n+2=874,n=1240.代入公式,得χ23=1240×267×781-93×992360×880×366×874≈486.1225.由上面计算可知数学成绩优秀与物理、化学、总分优秀都有关系,由计算分别得到χ2的统计量都大于临界值6.635,由此说明有99%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,与物理次之.2.某推销商为某保健药品做广告,在广告中宣传:“在服用该药品的105人中有100人未患A疾病”.经调查发现,在不服用该药品的418人中仅有18人患A疾病.请用所学知识分析该药品对预防A疾病是否有效.[解]将问题中的数据写成如下2×2列联表:患A疾病不患A疾病合计服用该药品5100105不服用该药品18400418合计23500523将上述数据代入公式χ2=nn11n22-n12n212n1+n2+n+1n+2中,计算可得χ2≈0.0414,因为0.04143.841,故没有充分理由认为该保健药品对预防A疾病有效.转化与化归思想在回归分析中的应用回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.【例3】某商店各个时期的商品流通率y(%)的商品零售额x(万元)资料如下:x9.511.513.515.517.5y64.643.22.8x19.521.523.525.527.5y2.52.42.32.22.1散点图显示出x与y的变动关系为一条递减的曲线.经济理论和实际经验都证明,流通率y决定于商品的零售额x,体现着经营规模效益,假定它们之间存在关系式:y=a+bx.试根据上表数据,求出a与b的估计值,并估计商品零售额为30万元的商品流通率.[解]设u=1x,则y=a+bu,得下表数据:u0.10530.08700.07410.06450.0571y64.643.22.8u0.05130.04650.04260.03920.0364y2.52.42.32.22.1由表中数据可得y与u之间的回归直线方程为y^=-0.1875+56.25u.所以所求的回归方程为y^=-0.1875+56.25x.当x=30时,y=1.6875,即商品零售额为30万元时,商品流通率为1.6875%.3.在某化学实验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.x/min123456y/mg39.832.225.420.316.213.3(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值(精确到0.001);(2)估计化学反应进行到10min时未转化物质的质量(精确到0.1).[解](1)在y=cdx两边取自然对数,令lny=z,lnc=a,lnd=b,则z=a+bx.由已知数据,得x123456y39.832.225.420.316.213.3z3.6843.4723.2353.0112.7852.588由公式得a^≈3.9055,b^≈-0.2219,则线性回归方程为z^=3.9055-0.2219x.而lnc≈3.9055,lnd≈-0.2219,故c≈49.675,d≈0.801,所以c,d的估计值分别为49.675,0.801.(2)当x=10时,由(1)所得公式可得y≈5.4(mg).所以化学反应进行到10min时未转化物质的质量约为5.4mg.1.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程y^=bx+a,其中b^=0.76,a^=y-b^x.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元[解析]由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).[答案]B2.根据如下样本数据x345678y4.02.5-0.50.5-2.0-3.0得到的回归方程为y^=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<0[解析]作出散点图如下:观察图象可知,回归直线y^=bx+a的斜率b<0,当x=0时,y^=a>0.故a>0,b<0.[答案]B3.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解](1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预