1本章知识大串烧一、独立性检验(一)基础概念的梳理与理解71.分类变量:对于宗教信仰来说,其取值为信宗教信仰与不信宗教信仰两种.像这样的变量的不同“值”表示个体所属的不同类别的变量称为分类变量.例如性别变量其取值为男和女两种,吸烟变量其取值为吸烟与不吸烟两种.2.两个分类变量:是否吸烟与是否患肺癌,性别男和女与是否喜欢数学课程等等,这些关系是我们所关心的.3.2×2列联表:列出的两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2}的样本频数表称为2×2列联表(如下表).y1y2总计x1Aba+bx2Cdc+d总计a+cb+da+b+c+d(二)独立性检验的基本思想通过分析数据与图形,得出的估计是粗略的,因为我们说的“大得多”、“小得多”,到底是有多大的差距?也就是说得到的结论是直观上的印象,其实与是否有关还是有较大的差距的.下面从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法.1.基本思想与图形的联系假设两个分类变量是无关的,可知如下的比应差不多,即:aa+b≈cc+d⇒|ad-bc|=0.构造随机变量χ2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d)(此公式如何记忆,其特点是什么?结合2×2列联表理解)显然所构造的随机变量与|ad-bc|的大小具有一致性.2.独立性检验的思想方法如果χ2的值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两分类变量是有关系的(称小概率事件发生);如果χ2的值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于数学上的反证法.3.得到χ2的值常与以下几个临界值加以比较:如果χ22.706,就有90%的把握认为两分类变量X和Y有关系;如果χ23.841,就有95%的把握认为两分类变量X和Y有关系;如果χ26.635,就有99%的把握认为两分类变量X和Y有关系;如果χ210.828,就有99.9%的把握认为两分类变量X和Y有关;如果χ2≤2.706,就认为没有充分的证据说明变量X和Y有关系.像这种利用随机变量χ2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.二、回归分析1.线性回归方程y^=b^x+a^,其中:b^=∑ni=1xi-xyi-y∑ni=1xi-x2=∑ni=1xiyi-nxy∑ni=1x2i-nx2,a^=y-b^x.(注:b^=∑ni=1xiyi-nxy∑ni=1x2i-nx2主要方便计算,其中(xi,yi)为样本数据,(x,y)为样本点的中心)公式作用:通过刻画线性相关的两变量之间的关系,估计和分析数据的情况,解释一些实际问题,以及数据的变化趋势.2.样本相关系数的具体计算公式:r=∑ni=1xi-xyi-y∑ni=1xi-x2∑ni=1yi-y2=∑ni=1xiyi-nxy∑ni=1x2i-nx2∑ni=1y2i-ny2公式作用:反映两个变量之间线性相关关系的强弱.当r的绝对值接近1时,表明两个变量的线性相关性越强;当r的绝对值接近0时,表明两个变量之间几乎不存在线性相关关系.规定当|r|r0.05时,认为两个变量有很强的线性相关关系.公式联系:(1)由于分子与回归方程中的斜率b^的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当r0时,两个变量正相关;当r0时,两个变量负相关.(2)常配合散点图判断两个随机变量是否线性相关.散点图是从形上进行粗略地分析判断,这个判断是可行的、可靠的,也是进行线性回归分析的基础,否则回归方程失效;它形象直观地反映了数据点的分布情况.相关系数r是从数上反映了两个随机变量是否具有线性相关关系,以及线性相关关系的强弱,它较精确地反映了数据点的分布情况,准确可靠.2回归分析题目击破1.基本概念函数关系是一种确定关系,而相关关系是一种非确定关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.例1下列变量之间的关系是相关关系的是________.(1)正方形的边长与面积之间的关系;(2)水稻产量与施肥量之间的关系;(3)人的身高与年龄之间的关系;(4)降雪量与交通事故发生率之间的关系.分析两变量之间的关系有两种:函数关系和带有随机性的相关关系.解析(1)是函数关系;(2)不是严格的函数关系,但是具有相关性,因而是相关关系;(3)既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;(4)降雪量与交通事故发生率之间具有相关关系.答案(2)(4)点评该例主要考查对变量相关关系概念的掌握.2.线性回归方程设x与y是具有相关关系的两个变量,且相应于n个观测值的n个点大致分布在一条直线的附近,这条直线就叫做线性回归直线.例2假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:使用年限x23456维修费用y2.23.85.56.57.0若由资料知y对x呈线性相关关系,试求:(1)线性回归方程y^=a^+b^x;(2)估计使用年限10年时,维修费用是多少?分析因为y对x呈线性相关关系,所以可以用线性相关的方法解决问题.解(1)制表i12345合计xi2345620yi2.23.85.56.57.025xiyi4.411.422.032.542.0112.3x2i4916253690x=4,y=5,∑5i=1x2i=90,∑5i=1xiyi=112.3于是有b^=112.3-5×4×590-5×42=1.23,a^=y-b^x=5-1.23×4=0.08.∴线性回归方程为y^=1.23x+0.08.(2)当x=10时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用约是12.38万元.点评已知y对x呈线性相关关系,无须进行相关性检验,否则,应首先进行相关性检验.3.非线性回归问题分析非线性回归问题的具体做法是:(1)若问题中已给出经验公式,这时可以将解释变量进行变换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决.下面举例说明非线性回归分析问题的解法.例3某地区对本地的企业进行了一次抽样调查,表中是这次抽查中所得到的各企业的人均资本x(单位:万元)与人均产值y(单位:万元)的数据:人均资本x/万元345.56.578910.511.514人均产值y/万元4.124.678.6811.0113.0414.4317.5025.4626.6645.20(1)设y与x之间具有近似关系y≈axb(a,b为常数),试根据表中数据估计a和b的值;(2)估计企业人均资本为16万元时的人均产值(精确到0.01).解(1)在y≈axb的两边取常用对数,可得lgy≈lga+blgx,设lgy=z,lga=A,lgx=X,则z≈A+bX.相关数据计算如下表所示.人均资本x/万元345.56.57人均产出y/万元4.124.678.6811.0113.04X=lgx0.477120.602060.740360.812910.8451z=lgy0.61490.669320.938521.041791.11528人均资本x/万元8910.511.514人均产出y/万元14.4317.5025.4626.6645.20X=lgx0.903090.954241.021191.06071.14613z=lgy1.159271.243041.405861.425861.65514由公式(1)可得A^=-0.2155,b^=1.5677,由lga^=-0.2155,得a^≈0.6088,即a,b的估计值分别为0.6088和1.5677.(2)由(1)知y^=0.6088x1.5677.样本数据及回归曲线的图形如图所示.当x=16时,y^=0.6088×161.5677≈47.01(万元),故当企业人均资本为16万元时,人均产值约为47.01万元.3独立性检验思想的应用在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观臆断作出结论,需要通过试验来收集数据,并依据独立性检验思想做出合理的推断.所谓独立性检验,就是根据采集样本的数据,利用公式计算χ2的值,比较与临界值的大小关系来判定事件X与Y是否有关的问题.其基本步骤如下:(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量;(2)根据样本数据制作列联表;(3)计算统计量χ2,并查表分析.当χ2很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系.下面举例说明独立性检验思想在解决实际问题中的应用.例1水果富含各种维生素,不但有益于人体健康,还可起到养颜护肤的功效.下表是一次调查所得的数据,试问:适量吃水果与皮肤好有关系吗?有多大的把握认为你的结论成立?皮肤好皮肤不好合计适量吃水果30224254不吃水果2413551379合计5415791633解假设“适量吃水果与皮肤好没有关系”,由题意可知:a=30,b=224,c=24,d=1355,a+b=254,c+d=1379,a+c=54,b+d=1579,n=1633代入得到:χ2=1633×30×1355-224×242254×1379×54×1579≈68.03310.828.∴我们有99.9%的把握认为吃水果与皮肤好有关系.点评该例我们有较大的把握认为结论成立,但我们所说的“吃水果与皮肤好有关系”指的都是统计上的关系,不要误认为里面存在因果关系,具体到某一个适量吃水果的人,并不能说明他一定有好的皮肤.例2某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:积极支持企业改革不太赞成合计企业改革工作积极544094工作一般326395合计86103189对于人力资源部的研究项目,根据上述数据能得出什么结论?分析首先由已知条件确定a、b、c、d、n的数值,再利用公式求出χ2的值,最后根据χ2的值分析结果.解由题目中表的数据可知:χ2=nad-bc2a+ca+bc+db+d=189×54×63-40×32294×95×86×103≈10.759.因为10.7597.879,所以有99.5%的把握说员工“工作积极”与“积极支持企业改革”有关,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.点评在列联表中注意事件的对应及有关值的确定,避免混乱;把计算出的χ2的值与临界值作比较,确定出“X与Y有关系”的把握.例3为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,统计结果为:患慢性气管炎共有56人,患慢性气管炎且吸烟的有43人,未患慢性气管炎但吸烟的有162人.根据调查统计结果,分析患慢性气管炎与吸烟在多大程度上有关系?解根据所给样本数据得到如下2×2列联表:患慢性气管炎未患慢性气管炎总计吸烟43162205不吸烟13121134总计56283339由列联表可以粗略估计出:有吸烟者中,有20.98%的患慢性气管炎;在不吸烟者中,有9.70%的患慢性气管炎.两个比例的值相差较大,所以结论“患慢性气管炎与吸烟有关”成立的可能性较大.根据列联表中的数据,得到χ2=339×43×121-13×162256×283×205×134≈7.4696.635.所以有99%的把握认为“患慢性气管炎与吸烟有关”.点评对列联表的比例进行分析,可粗略地判断两个分类变量是否有关系.通过计算随机变量χ2,可以比较精确地给出这种判断的可靠程度.先收集数据,然后通过一些统计方法对数据进行科学的分析,这是我们用统计方法解决实际问题的基本策略.4巧解非线性回归问题如果