高中新课标总复习理数1高中新课标总复习理数2第5讲变量的相关性、回归分析和独立性检验高中新课标总复习理数3高中新课标总复习理数41.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是()A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x-,y-)D高中新课标总复习理数5高中新课标总复习理数6解析:由于回归直线方程过样本中心(x-,y-),故选D.高中新课标总复习理数72.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2r10B.0r2r1C.r20r1D.r2=r1C高中新课标总复习理数8解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r10;而对于变量V与U而言,V随U的增大而减少,故V与U负相关,即r20,所以有r20r1,故选C.高中新课标总复习理数93.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=nad-bc2a+bc+da+cb+d算得,K2=110×40×30-20×20260×50×60×50≈7.8.高中新课标总复习理数10附表:高中新课标总复习理数11参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”AC.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”高中新课标总复习理数12解析:由独立性检验的思想方法可知,正确选项为A,故选A.高中新课标总复习理数134.某产品的广告费用x与销售额y的统计数据如下表:高中新课标总复习理数14根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为65.5万元.高中新课标总复习理数15解析:由题设求得样本中心为(3.5,42),则a=y--bx-=42-9.4×3.5=9.1,所以回归直线方程为y=9.4x+9.1,将x=6代入得y=65.5,应填65.5.高中新课标总复习理数165.给出下列四个叙述:①两个变量之间若没有确定的函数关系,则这两个变量不相关;②正相关是两个变量相关关系的一种;③“庄稼一枝花,全靠粪当家”说明农作物产量与施肥之间有相关关系;④根据散点图可判断两个变量之间有无相关关系.其中正确的是②③④.高中新课标总复习理数17解析:由两个变量之间的相关关系的概念知,②③④均正确.高中新课标总复习理数18高中新课标总复习理数19一变量的相关性【例1】(1)观察下列关于变量x和y的三个散点图,它们从左到右的对应关系依次是()A.正相关、负相关、不相关B.负相关、不相关、正相关C.负相关、正相关、不相关D.正相关、不相关、负相关高中新课标总复习理数20高中新课标总复习理数21一三种抽样方法(2)某市居民2009~2013年家庭平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:高中新课标总复习理数22根据统计资料,居民家庭年平均收入的中位数是________,家庭年平均收入与支出有__________线性相关关系.高中新课标总复习理数23【解答过程】(1)第一个图点的分布比较集中,且y随x的增加,而增加,是正相关;第二个图点的分布比较分散,不相关;第三个图点的分布比较集中,且y随x的增加,而减少,是负相关.高中新课标总复习理数24【解答过程】(2)由表中所给的数据知所求的中位数为13,画出x与y的散点图知它们有较强的线性相关关系,故应填13、较强的.答案:(1)D(2)13较强的高中新课标总复习理数25【温馨提示】判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图.高中新课标总复习理数26【跟踪训练1】如图,有5组(x,y)数据,去掉D组(即填A,B,C,D,E中的某一个)后,剩下的四组数据的线性相关系数最大.高中新课标总复习理数27解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.所以去掉D点剩下的4组数据的线性相关性最大.高中新课标总复习理数28【跟踪训练2】在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.高中新课标总复习理数29解析:以x轴表示身高,y轴表示体重,高中新课标总复习理数30可得到相应的散点图如上图所示.由散点图可知,两者之间具有相关关系,且为正相关.高中新课标总复习理数31二回归分析【例2】一次考试中,五名同学的数学、物理成绩如下表所示:高中新课标总复习理数32(1)请在如图的直角坐标系中作出这些数据的散点图,并求出这些数据的回归方程;高中新课标总复习理数33(2)要从4名数学成绩在90分以上的同学中选2人参加一项活动,以X表示选中的同学的物理成绩高于90分的人数,求随机变量X的分布列及数学期望E(X)的值.高中新课标总复习理数34【思路点拨】(1)把所给的五组数据作为五个点的坐标描到直角坐标系中,得到散点图,再根据所给的数据先求出数据的平均数,即样本中心点,根据最小二乘法求出线性回归方程的系数,写出线性回归方程;(2)根据题意得到变量X的可能取值,结合变量对应的事件写出变量的概率,写出分布列,求出期望值.高中新课标总复习理数35【解答过程】(1)散点图如图所示.高中新课标总复习理数36x-=89+91+93+95+975=93,y-=87+89+89+92+932=90,i=15(xi-x-)2=(-4)2+(-2)2+02+22+42=40,高中新课标总复习理数37i=15(xi-x-)(yi-y-)=(-4)×(-3)+(-2)×(-1)+0×(-1)+2×2+4×3=30,b=3040=0.75,a=y--bx-=20.25.故这些数据的回归方程是:y=0.75x+20.25.高中新课标总复习理数38(2)随机变量X的可能取值为0,1,2.P(X=0)=C22C24=16,P(X=1)=C12C12C24=23,P(X=2)=C22C24=16,高中新课标总复习理数39故X的分布列为:所以E(X)=0×16+1×23+2×16=1.高中新课标总复习理数40【温馨提示】最小二乘法估计的一般步骤:(1)作出散点图,判断是否线性相关;(2)如果是,则用公式求出a,b,写出回归方程;(3)根据方程进行估计.注意回归直线过样本点的中心(x-,y-)是非常重要的性质.高中新课标总复习理数41【跟踪训练3】(2014·重庆)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4高中新课标总复习理数42解析:因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A和B中的直线方程进行检验,可以排除B.高中新课标总复习理数43【跟踪训练4】一般来说,一个人脚掌越长,他的身高就越高,现对10名成年人的脚掌长x与身高y进行测量,得到数据(单位均为cm)如下表:高中新课标总复习理数44作出散点图后,发现散点在一条直线附近,经计算得到一些数据:i=110(xi-x-)(yi-y-)=577.5,i=110(xi-x-)2=82.5.某刑侦人员在某案发现场发现一对裸脚印,量得每个脚印长为26.5cm,则估计案发嫌疑人的身高为185.5cm.高中新课标总复习理数45解析:因为计算得到一些数据:i=110(xi-x-)(yi-y-)=577.5,i=110(xi-x-)2=82.5,所以回归方程的斜率b=i=110xi-x-yi-y-i=110xi-x-2=577.582.5=7,高中新课标总复习理数46解析:x-=24.5,y-=171.5,截距a=y--bx-=0,即回归方程为y=7x,当x=26.5,y=7×26.5=185.5,则估计案发嫌疑人的身高为185.5cm.高中新课标总复习理数47三独立性检验【例3】某市甲、乙两校高二级学生分别有1100人和1000人,为了解两校全体高二级学生期末统考的数学成绩情况,采用分层抽样方法从这两所学校共抽取105名高二学生的数学成绩,并得到成绩频数分布表如下,规定考试成绩在[120,150]为优秀.高中新课标总复习理数48甲校:高中新课标总复习理数49乙校:高中新课标总复习理数50(1)求表中x与y的值;(2)由以上统计数据完成下面2×2列联表,问是否有99%的把握认为学生数学成绩优秀与所在学校有关?高中新课标总复习理数51(3)若以样本的频率作为概率,现从乙校总体中任取3人(每次抽取看作是独立重复的),求优秀学生人数ξ的分布列和数学期望.(注:概率值可用分数表示)高中新课标总复习理数52【思路点拨】(1)根据分层抽样求得从甲校和乙校各自抽取的人数,求出频率分布表中的未知数;(2)根据所给的条件写出列联表,根据列联表求出观测值,把观测值同临界值进行比较,得到没有99%的把握认为学生数学成绩优秀与所在学校有关.高中新课标总复习理数53(3)由题意知ξ的可能取值为0,1,2,3.又ξ~B(3,25),写出其概率,求出变量的分布列,再求出其期望值.高中新课标总复习理数54【解答过程】(1)由分层抽样知,甲校抽取了105×11002100=55名高二学生的数学成绩,乙校抽取了105-55=50名高二学生的数学成绩,所以x=6,y=7.高中新课标总复习理数55【解答过程】(2)2×2列联表如下:高中新课标总复习理数56因为K2=105×10×30-20×45230×75×50×55≈6.1096.635,所以没有99%的把握认为学生数学成绩优秀与所在学校有关.高中新课标总复习理数57(3)由题意知,乙校优秀学生的概率为25,ξ的可能取值为0,1,2,3.又ξ~B(3,25),且P(ξ=k)=Ck3(25)k(35)3-k(k=0,1,2,3),高中新课标总复习理数58所以ξ的分布列为:所以随机变量ξ的Eξ=np=3×25=65.高中新课标总复习理数59【温馨提示】独立性检验的应用问题,首先要根据题目条件列出两个变量的2×2列联表,通过计算随机变量K2的观测值k,依据临界值与犯错误的概率得出结论,注意观测值的临界值与概率间的对应关系.高中新课标总复习理数60【跟踪训练5】某次运动会在我市举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余不喜爱.高中新课标总复习理数61(1)根据以上数据完成以下2×2列联表:高中新课标总复习理数62(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?(3)从女志愿者中抽取2人参加接待工作,若其中喜爱运动的人数为ξ,求ξ的分布列和均值.参考公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.高中新课标总复习理数63参考数据:高中新课标总复习理数64解析:(1)根据条件中所给的a,b,c,d,a+b,a+d,c+d,b+d的值,利用实数的加减运算得到:高中新课标总复习理数65(2)假设:是否喜爱运动与性别无关,由已知数据可求得:K2=30×10×8-6×6216×14×16×14≈1