第3讲相关性与最小二乘估计、统计案例第十章统计、统计案例及算法初步1.相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在_____________附近波动,则称变量间是线性相关的,此时可用一条_________________来拟合.一条直线直线(2)非线性相关若两个变量x和y的散点图中,所有点看上去都在某条________(不是一条直线)附近波动,则称此相关为非线性相关,此时可用一条________来拟合.(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.曲线曲线2.最小二乘法(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2,使得上式达到________的直线y=a+bx即为所求直线,这种方法称为最小二乘法.最小值(2)线性回归方程线性回归方程为y=bx+a,其中b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2,a=____________y--bx-3.相关系数r(1)r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2=i=1nxiyi-nxyi=1nx2i-nx2i=1ny2i-ny2.(2)当r>0时,称两个变量________当r<0时,称两个变量________当r=0时,称两个变量____________r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近0,表明两个变量之间的线性相关程度越低.正相关负相关线性不相关4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1,通过观察得到下表所示数据:BAB1B2总计A1aba+bA2cdc+d总计a+cb+dn=a+b+c+d则χ2=______________________________________,用它的大小来检验变量之间是否独立.①当χ2________2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;②当χ2>________时,有90%的把握判定变量A,B有关联;③当χ2>________时,有95%的把握判定变量A,B有关联;④当χ2>________时,有99%的把握判定变量A,B有关联.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)≤2.7063.8416.6351.辨明四个易误点(1)易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).(4)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法(2)非线性回归分析的步骤①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;③利用变量替换转化为线性问题,解决后要再转化回来.1.有关线性回归的说法,不正确的是()A.具有相关关系的两个变量是非确定关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.散点图中的点越集中,两个变量的相关性越强D2.(2016·石家庄模拟)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.()附:P(χ2≥k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828A.0.1%B.1%C.99%D.99.9%C解析:因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.(2014·高考湖北卷改编)根据如下样本数据x345678y4.02.5-0.50.5-2.0-3.0得到的回归方程为y=bx+a,则()A.a>0,b<0B.a>0,b>0C.a<0,b<0D.a<0,b>0A解析:作出散点图如下:观察图像可知,回归直线y=bx+a的斜率b<0,当x=0时,y=a>0.故a>0,b<0.4.下面是一个2×2列联表y1y2总计x1a2173x222527总计b46则表中a、b处的值分别为____________.52、54解析:因为a+21=73,所以a=52.又因为a+2=b,所以b=54,考点一相关关系的判断(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关C[解析]因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b0,则z=by+a=-0.1bx+b+a,故x与z负相关.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r0时,正相关:r0时,负相关.(3)线性回归方程中:b0时,正相关;b0时,负相关.1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关C解析:由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.考点二线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下两个命题角度:(1)求回归直线方程;(2)利用回归方程进行预测.(2015·高考重庆卷改编)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款y(千亿元)567810(1)求y关于t的回归方程y=bt+a;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程y=bt+a中,.[解](1)列表计算如下:itiyit2itiyi11515226412337921448163255102550∑153655120这里n=5,t-=1ni=1nti=155=3,y-=1ni=1nyi=365=7.2.从而b=ltyltt=1210=1.2,a=y--bt-=7.2-1.2×3=3.6,故所求回归方程为y=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y=1.2×6+3.6=10.8(千亿元).最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关.(2)如果是,则用公式求a,b,写出回归方程.(3)根据方程进行估计.[注意]回归直线方程恒过点(x-,y-).2.(1)(2015·高考福建卷改编)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程y=bx+a,其中b=0.76,a=y--bx.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元B(2)为了均衡教育资源,加大对偏远地区的教育投入,相关部门调查了某地若干户家庭的年收入x(单位:万元)和年教育支出y(单位:万元),调查显示年收入x与年教育支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元.0.15解析:(1)由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,所以a=8-0.76×10=0.4,所以当x=15时,y=0.76×15+0.4=11.8(万元).(2)由题意知,0.15(x+1)+0.2-(0.15x+0.2)=0.15.考点三独立性检验(2014·高考辽宁卷改编)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品总计南方学生602080北方学生101020总计7030100根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.附:χ2=nad-bc2a+bb+da+cc+d,P(χ2≥k0)0.1000.0500.010k02.7063.8416.635[解]将2×2列联表中的数据代入公式计算,得χ2=100×(60×10-20×10)270×30×80×20=10021≈4.762.因为4.7623.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式χ2=nad-bc2a+bc+da+cb+d计算χ2的值;(3)查表比较χ2与临界值的大小关系,作出统计判断.3.(2016·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.分数段[40,50)[50,60)[60,70)[70,80)[80,90)[90,100]男39181569女64510132(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.优分非优分合计男生女生合计100附表及公式P(χ2≥k0)0.1000.0500.0100.001k02.7063.8416.63510.828χ2=nad-bc2a+bc+da+cb+d解:(1)x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:优分非优分总计男生154560女生152540总计3070100可得χ2=