第10讲回归分析与独立性检验1.会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(1)了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.(2)了解假设检验的基本思想、方法及其简单应用.(3)了解回归的基本思想、方法及其简单应用.1.变量间的关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.(3)正相关、负相关.在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系称为正相关.在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.2.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)线性相关关系:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归直线的求法:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),通过求Q=1ni(yi-b^xi-a^)2的最小值而得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法,则回归直线方程y^=b^x+a^的系数为:1122211()()()ˆnniiiiiinniiiixxyyxynxybxxxnxaybx其中x-=1n1niix,y-=1n1niiy,(x-,y-)称作样本点的中心.(4)线性相关强度的检验:①r=12211()()()()niiinniiiixxyyxxyy当r0时,表明两个变量________.负相关r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.=1222211()()niiinniiiixynxyxnxyny叫做y与x的相关系数,简称相关系数.②当r0时,表明两个变量正相关;(5)相关指数:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.R2=1-2121ˆ()()niiiniiiyyyy.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表a+b+c+d(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.构造一个随机变量K2=nad-bc2a+bc+da+cb+d,其中n=______________为样本容量.1.有关线性回归的说法,不正确的是()DA.相关关系的两个变量是非确定关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.散点图中的点越集中,两个变量的相关性越强2.(2013年湖北)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:其中一定不正确的结论的序号是()DA.①②B.②③C.③④D.①④①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.男女总计爱好402060不爱好203050总计60501103.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=nad-bc2a+bc+da+cb+d算得,K2=110×40×30-20×20260×50×60×50≈7.8.0.0500.0100.001k3.8416.63510.828附表:参照附表,得到的正确结论是()AA.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”P(K2≥k)广告费用x/万元4235销售额y/万元492639544.(2013年广东江门一模)某产品的广告费用x与销售额y的统计数据如下表:65.5根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为6万元时销售额为____________万元.x123456y021334考点1线性回归分析例1:已知x与y之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y^=b^x+a^.若某同学根据上表中前两组数据(1,0)和(2,2)求得的线性回归直线方程为y=b′x+a′,则以下结论正确的是()A.b^b′,a^a′B.b^b′,a^a′C.b^b′,a^a′D.b^b′,a^a′解析:由表格知,x-=216=72,y-=136.则b^=1×0+2×2+3×1+4×3+5×3+6×4-6×72×13612+22+32+42+52+62-6×722=57,a^=y--b^x-=136-57×72=-13.由两组数据(1,0)和(2,2),得x-′=32,y-′=1.则b′=1×0+2×2-2×32×112+22-2×322=2,a′=y-′-b′x-=1-2×32=-2.综上所述,b^b′,a^a′.故选C.答案:C【规律方法】回归直线方程为ˆˆˆybxa,其中ˆb=1221niiiniixynxyxnx,ˆˆaybx.其中11niixxn,11niiyyn,点(,)xy称为样本点的中心,回归直线都经过样本点的中心.x345678y4.02.5-0.50.5-2.0-3.0【互动探究】1.(2014年湖北)根据如下样本数据:得到的回归方程为y^=b^x+a^,则()A.a^0,b^0B.a^0,b^0C.a^0,b^0D.a^0,b^0解析:依题意,画散点图,如图D52,两个变量负相关,图D52答案:A所以b^0,a^0.考点2独立性检验例2:(2014年安徽)某高校共有15000人,其中男生有10500人,女生有4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9-10-1),其中样本数据分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.图9-10-1(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.0.100.050.0100.005k02.7063.8416.6357.879解:(1)应收集女生样本数据为300×450015000=90.(2)由频率分布直方图,得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4个小时的概率为0.75.附:K2=nad-bc2a+bc+da+cb+d.P(K2≥k0)男生女生总计每周平均体育运动时间不超过4个小时453075每周平均体育运动时间超过4个小时16560225总计21090300(3)由(2)知,300名学生中有300×0.75=225名学生每周平均体育运动时间超过4个小时,75名学生每周平均体育运动时间不超过4个小时,又因为该数据中有男生210名,女生90名,根据题意列表如下:每周平均体育运动时间与性别列联表因此有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.结合列联表计算K2=nad-bc2a+bc+da+cb+d=300×45×60-30×165275×225×210×90≈4.7623.841.【规律方法】解决独立性检验问题的一般步骤:①制作列联表;要精确到小数点后三位;③查表得出结论,要选择满足条件P(K2k0)=α的k0作为拒绝域的临界值.②利用公式K2=nad-bc2a+bc+da+cb+d计算,近似计算表1不及格及格总计男61420女102232总计163652【互动探究】2.(2014年江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,这与性别有关联的可能性最大的变量是()A.成绩表3不及格及格总计男81220女82432总计163652表2不及格及格总计男41620女122032总计163652B.视力C.智商表4不及格及格总计男14620女23032总计163652D.阅读量解析:由公式K2=nad-bc2a+bc+da+cb+d计算得A.52×8216×36×20×32,B.52×112216×36×20×32,C.52×96216×36×20×32,D.52×408216×36×20×32.显然D的值最大,说明阅读量与性别有关联的可能性最大.答案:D日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x/℃1011131286就诊人数y/人222529261612考点3回归分析的综合运用例3:某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程^y=b^x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?xbyaxnxyxnyxbniiniiiˆˆ,ˆ1221参考公式:解:将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)},共15个基本事件,设抽到相邻两个月的事件为A,则A={(1,2),(2,3),(3,4),(4,5),(5,6)},共5个基本事件,所以P(A)=515=13.(2)由表中数据求得x-=11,y-=24,由参考公式可得b^=187,再由a^=y--b^x-求得a^=-307,所以y关于x的线性回归方程为y^=187x-307.(3)当x=10时,y^=1507,1507-22=472;当x=6时,y