第四节统计案例一、回归分析1.定义:对具有的两个变量进行统计分析的一种常用方法.相关关系2.样本点的中心在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,回归方程的截距和斜率的最小二乘估计公式分别为:其中称为样本点的中心.几乎3.相关系数当r>0时,表明两个变量;当r<0时,表明两个变量.r的绝对值越接近于1,表明两个变量的线性相关性.r的绝对值越接近于0时,表明两个变量之间.通常|r|大于时,认为两个变量有很强的线性相关性.正相关负相关越强不存在线性相关关系0.75二、独立性检验1.2×2列联表:假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:K2=(其中n=a+b+c+d为样本容量).y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2.用K2的大小可以决定是否拒绝原来的统计假设H0,若K2值较大,就拒绝H0,即拒绝事件A与B无关.3.当K2≥3.841时,则有的把握说事件A与B有关;当K2≥6.635时,则有的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B.95%99%无关根据独立性检验的基本思想,得出的两个分类变量有关系,提示:在实际问题中,独立性检验的结论仅仅是一种数学关系,得出的结论也可能犯错误,比如:在推测吸烟与肺癌是否有关时,通过收集、整理、分析数据,我们得到“吸烟与患肺癌有关”的结论,并且有超过99%的把握说明吸烟与患肺癌有关系,或者这个结论出错的概率为0.01以下.但实际上一个人吸烟也不一定会患肺癌,这是数学中的统计思维与确定性思维差异的反映.1.对于事件A和事件B,通过计算得到K2的观测值k≈4.514,下列说法正确的是()A.有99%的把握说事件A和事件B有关B.有95%的把握说事件A和事件B有关C.有99%的把握说事件A和事件B无关D.有95%的把握说事件A和事件B无关解析:由独立性检验知有95%的把握说事件A与B有关.答案:B2.相关系数度量()A.两个变量之间线性相关关系的强度B.散点图是否显示有意义的模型C.两个变量之间是否存在因果关系D.两个变量之间是否存在关系答案:A3.以下对线性相关系数r的叙述中,正确的是()A.|r|∈(0,+∞),|r|越大,相关程度越大;反之,相关程度越小B.r∈(-∞,+∞),r越大,相关程度越大;反之,相关程度越小C.|r|≤1,|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小D.以上说法都不对解析:根据相关系数的定义和计算公式可知,|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.答案:C4.下面是一个2×2列联表则表中a、b处的值分别为________.y1y2总计x1a2173x222527总计b46解析:∵a+21=73,∴a=52.又∵a+2=b,∴b=54.答案:52、545.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则________同学的试验结果体现A、B两变量更强的线性相关性.甲乙丙丁r0.820.780.690.85m106115124103解析:由表可知,丁同学的相关系数r最大且残差平方和m最小,故丁同学的试验结果体现A、B两变量更强的线性相关性.答案:丁分析判断两个变量是否线性相关的常用方法是:(1)利用散点图进行判断.若各数据点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系.此方法直观、形象,但缺乏精确性.(2)利用相关系数r进行判断.操作步骤是:先求相关系数r.计算时要特别细心,避免出现计算错误,然后根据r的值检验所得结果.如果|r|>0.75,表明变量x与y之间具有很强的线性相关关系.假设关于某设备的使用年限x和支出的维修费用y(万元),有如下表的统计资料:若由资料知y对x呈线性相关关系,试求:(1)线性回归方程(2)估计使用年限为10年时,维修费用是多少?使用年限x23456维修费用y2.23.85.56.57.0由于题目条件明确告诉,y对x呈线性相关关系,所以可直接代入公式求解.【解】(1)将已知条件制成下表:i12345合计xi2345620yi2.23.85.56.57.025xiyi4.411.422.032.542.0112.3x4916253690于是有=5-1.23×4=0.08,回归直线方程是=1.23x+0.08.(2)当x=10时,y=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.1.(2010·广州模拟)许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)的数据,建立的回归直线方程为=0.8x+4.6,斜率的估计值等于0.8说明____________,成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)之间的相关系数________(填“大于0”或“小于0”).解析:由回归方程知=4.6,再由x,y表示的实际意义可知0.8的含义,相关系数r>0.答案:一个地区受9年或更少教育的百分比每增加1%,收入低于官方规定的贫困线的人数占本州人数的百分比将增加0.8%左右大于0独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式K2=计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高18725学习积极性一般61925合计242650试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.根据公式K2计算后与临界值比较.【解】由∵K2>6.635,故可以有99%的把握认为学生的学习积极性与对待班级工作的态度有关系.2.在本例条件下,如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?解:随机抽查一名学生有50种不同的抽法,积极参加班级工作的学生有18+6=24人,故不主动参加班级工作且学习积极性一般的学生有19人,∴本部分主要内容是变量的相关性及其几种常见的统计方法,在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来考查一些基本的统计思想,在高考中多为选择、填空题,也有可能出现解答题,如2009年辽宁高考.(2009·辽宁高考)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,9.94)[29.94,9.98)[29.98,0.02)[30.02,0.06)[30.06,0.10)[30.10,30.14)频数12638618292614乙厂:分组[29.8629.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?甲厂乙厂合计优质品非优质品合计附K2=[解](1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为(2)甲厂乙厂合计优质品360320680非优质品140180320合计5005001000所以有99%的把握认为“两个分厂生产的零件的质量有差异”.在解决本题时,由于题中的信息量较大,故审题时要仔细,尤其是甲、乙两厂所抽取的500件的数据分布.这是解决第(1)问的关键,对于第(2)问利用条件,填写出列联表直接代入公式计算.要注意运算结果的准确性,以免造成运算失分.另外,在本例中同学求一下甲厂中抽取的500件零件的平均尺寸是多少?