第五节相关性、最小二乘估计、回归分析与独立性检验1.相关性(1)散点图:在考虑两个量的关系时,为了对_____之间的关系有一个大致的了解,人们通常将___________的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.变量变量所对应(2)曲线拟合:从散点图上可以看出,如果变量之间________________,这些点会有一个_____的大致趋势,这种趋势通常可以用一条___________来近似,这种近似的过程称为曲线拟合.(3)线性相关:若两个变量x和y的散点图中,所有点看上去都在_________附近波动,则称变量间是线性相关的.此时,我们可以用_________来近似.存在着某种关系集中光滑的曲线一条直线一条直线(4)非线性相关:若散点图上所有点看上去都在__________________________附近波动,则称此相关为非线性相关.此时,可以用_________来拟合.(5)不相关:如果所有的点在散点图中_________________,则称变量间是不相关的.某条曲线(不是一条直线)一条曲线没有显示任何关系2.回归直线方程与相关系数(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:________________________________________________.使得上式达到_______的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2最小值(2)线性回归方程假设样本点为(x1,y1),(x2,y2),…,(xn,yn),则直线方程y=a+bx称为线性回归方程,a,b是线性回归方程的_____.1122nn222212nxyxyxynxyb,aybx.xxxnx系数(3)相关系数r①niixyi1nn22xxyyiii1i1xxyyrxxyylllniii1nn2222iii1i1xynxy.xnxyny②当r>0时,称两个变量_______.当r<0时,称两个变量_______.当r=0时,称两个变量___________.r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近于0,表明两个变量之间的线性相关程度越低.正相关负相关线性不相关3.独立性检验(1)2×2列联表设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=变量B:B1,B2=通过观察得到如表所示的数据:1A;1B,(2)独立性判断方法选取统计量__________________________,用它的大小来检验变量之间是否独立.①当χ2________时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;②当χ2_________时,有90%的把握判定变量A,B有关联;③当χ2_________时,有95%的把握判定变量A,B有关联;④当χ2_________时,有99%的把握判定变量A,B有关联.22nadbcabcdac(bd)≤2.706>2.706>3.841>6.635判断下面结论是否正确(请在括号中打“√”或“×”).(1)线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的方法.()(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.()(3)通过回归方程y=a+bx可以估计和观测变量的取值和变化趋势.()(4)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(5)任意两个变量之间都存在着线性相关关系.()(6)如果两个变量之间线性不相关,则这两个变量一定不存在线性回归方程.()【解析】(1)正确.反映的是最小二乘法的思想.(2)正确.反映的是散点图的作用.(3)正确.解释的是回归方程y=a+bx的作用.(4)错误.在求回归方程之前必须进行相关性检验,以体现两变量的关系.(5)错误.变量之间还存在函数关系和非线性相关关系.(6)错误.任意两个变量都可以利用公式求出线性回归方程.答案:(1)√(2)√(3)√(4)×(5)×(6)×1.利用统计量χ2来判断“两个变量X,Y有关系”计算公式为:则下列说法正确的是()(A)ad-bc越小,说明X与Y关系越弱(B)ad-bc越大,说明X与Y关系越强(C)(ad-bc)2越大,说明X与Y关系越强(D)(ad-bc)2越接近于0,说明X与Y关系越强【解析】选C.由χ2的计算公式及其意义容易判断选C.22nadbc,abcdacbd2.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()(A)y=200-10x(B)y=200+10x(C)y=-200-10x(D)y=-200+10x【解析】选A.∵商品销售量y(件)与销售价格x(元/件)负相关,∴b0,排除B,D.又∵x=0时,y0,∴应选A.3.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=73.93+7.19x,用这个模型预测这个孩子10岁时的身高,则正确的叙述是()(A)身高一定是145.83cm(B)身高在145.83cm以上(C)身高在145.83cm左右(D)身高在145.83cm以下【解析】选C.用回归模型y=73.93+7.19x,只能作预测,其结果只是一个估计值.4.给出下列关系:①正方形的边长与面积之间的关系;②某化妆品的销售量与广告宣传费之间的关系;③人的身高与视力之间的关系;④雾天的能见度与交通事故的发生率之间的关系;⑤学生与其学号之间的关系.其中具有相关关系的是_______________.【解析】①正方形的边长与面积之间的关系是函数关系;②化妆品的销售量与广告宣传费之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系;③人的身高与视力之间的关系既不是函数关系,也不是相关关系;④能见度与交通事故的发生率之间具有相关关系;⑤学生与其学号之间的关系是一种确定的对应关系.综合以上可知,②④具有相关关系,而①⑤是确定性的函数关系,③两种关系都不具有.答案:②④5.某高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到因为χ2≥3.841,所以有____________的把握判定主修统计专业与性别有关系.【解析】∵χ2≈4.844>3.841,∴有95%的把握认为主修统计专业与性别有关系.答案:95%225013201074.84423272030(-)=,考向1相关关系的判断【典例1】(1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断()(A)变量x与y正相关,u与v正相关(B)变量x与y正相关,u与v负相关(C)变量x与y负相关,u与v正相关(D)变量x与y负相关,u与v负相关(2)(2012·新课标全国卷)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为()(A)-1(B)0(C)(D)11212【思路点拨】(1)根据散点图的变化趋势判断.(2)理清相关系数与相关性强弱的关系是解决本题的关键.【规范解答】(1)选C.由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.(2)选D.样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y=x+1上,样本的相关系数应为1.12【拓展提升】线性相关关系与函数关系的区别(1)函数关系中的两个变量间是一种确定性关系.例如,正方形面积S与边长x之间的关系S=x2就是函数关系.(2)相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如,商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.【变式训练】某公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如表所示的一组数据(单位:kg):(1)画出散点图.(2)判断是否具有相关关系.【解析】(1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.考向2线性回归方程及其应用【典例2】(1)(2013·南昌模拟)下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:根据上表提供的数据,求出y关于x的回归直线方程为y=0.35+0.7x,那么表中t的值为()(A)3(B)3.15(C)3.5(D)4.5(2)(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:①求回归直线方程y=a+bx,其中b=-20,②预计在今后的销售中,销量与单价仍然服从①中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【思路点拨】(1)先求出再利用回归直线方程过求出t的值.(2)①先求出再利用求出a的值.②利用“利润=销售收入-成本”列出函数关系式后再求解.aybx.aybxx,y,(x,y)x,y,【规范解答】(1)选A.依题意得×(3+4+5+6)=4.5,又回归直线方程y=0.35+0.7x过故0.35+0.7×4.5,解得t=3.(2)①由于所以从而回归直线方程为y=250-20x.1x41t11y2.5t44.544,x,y),(t114x8.5y80,.aybx250,②设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20(x-)2+361.25,当且仅当x=8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.334【互动探究】本例题(2)中条件不变,预测当单价为10元时,销量是多少件?【解析】将x=10代入y=250-20x得,y=50,即销量大约是50件.【拓展提升】最小二乘法估计的三个步骤(1)作出散点图,判断是否线性相关.(2)如果是,则用公式求a,b,写出回归方程.(3)根据方程进行估计.【提醒】回归直线方程恒过点xy)(,.【变式备选】某商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:其中i=1,2,3,4,5,6,7.(1)以每天进店人数为横轴,每天商品销售件数为纵轴,画出散点图.(2)求回归直线方程(结果保留到小数点后两位).(参考数据:)(3)预测进店人数为80人时,商品销售的件数(结果保留整数).772iiii1i1xy3245,x25,y15.43,x5075,27x4375,7xy2700【解析】(1)散点图如图.(2)易知所有点在一条直线附近,∴回归直线方程是y=-4.07+0.78x.(3)进店人数为80人时,商品销售的件数y=-4.07+0.78×80≈59(件).7iii1xy3245,722ii1x25,y15.43,x5075,7x4375,7xy2700,7iii1722ii1xy7xyb0.78,aybx4.07,x7x考向3独立性检验【典例3】为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射