第7讲统计与统计案例、分布列及期望与方差调研一统计与统计案例■备考工具——————————————1.分层抽样和系统抽样的计算(1)系统抽样:总体容量为N,样本容量为n,则要将总体均分成n组,每组Nn个(有零头时要先去掉).若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+Nn,…,k+(n-1)Nn.(2)分层抽样:按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.2.提取频率分布直方图中的数据(1)组距、频率:频率分布直方图中每个矩形的宽表示的组距,高表示频率组距,面积表示该组数据的频率,各个矩形的面积之和为1;(2)众数:最高小长方形底边中心的横坐标;(3)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;(4)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中心的横坐标之和;(5)参数:若纵轴上存在参数,则根据所有小长方形的面积之和为1,列方程即可求得参数值.3.回归直线方程y^=b^x+a^,其中b^=i=1nxi-xyi-yi=1nxi-x2.a^=y-b^x,(x,y)称为样本点的中心.4.相关系数:r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2.主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r0时,表示两个变量正相关;当r0时,表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间几乎不存在线性相关关系.5.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d可构造一个随机变量K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量.6.独立性检验的方法(1)构造2×2列联表;(2)计算K2;(3)查表确定有多大的把握判定两个变量有关联.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.7.(1)残差:e^i=yi-y^i称为相应于点(xi,yi)的残差,残差平方和为i=1n(yi-y^i)2.(2)相关指数R2=1-i=1nyi-y^2i=1nyi-y2.R2越大,说明残差平方和越小,即模型的拟合效果越好;R2越小计,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.8.与平方数和方差有关的结论(1)若x1,x2,…,xn的平均数为x,那么mx1+a,mx2+a,…,mxn+a的平均数为mx+a;(2)数据x1,x2,…,xn与数据x′1=x1+a,x′2=x2+a,…,x′n=xn+a的方差相等,即数据经过平移后方差不变;(3)若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2;(4)s2=1ni=1n(xi-x)2=1ni=1nx2i-x2,即各数平方的平均数减去平均数的平方.■自测自评——————————————1.[2019·全国卷Ⅱ]演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数B.平均数C.方差D.极差解析:记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.答案:A2.[2019·全国卷Ⅲ]《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()A.0.5B.0.6C.0.7D.0.8解析:根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该学校总数比值的估计值为70100=0.7.答案:C3.[2018·全国卷Ⅱ]某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:通解:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.优解:因为0.60.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.答案:A4.[2019·山西八校联考]如图所示的折线图表示某商场一年中各月的收入、支出情况,则下列说法中错误的是()A.全年收入1至2月份增速最快B.全年中2月份支出最高C.四个季度中第二季度的月平均支出最低D.利润最低的月份是5月份(利润=收入-支出)解析:从折线图看出1至2月份收入数据的连线斜向上,且最陡,故A正确;由折线图可以看出支出的最高点在2月份,故B正确;由折线图可看出第二季度的总支出最低,故第二季度的月平均支出最低,故C正确;5月份的利润为30-10=20(万元),8月份的利润为50-40=10(万元),2010,故D错误.答案:D5.[2019·石家庄质检]甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是()A.23,22B.23,22.5C.21,22D.21,22.5解析:由茎叶图可得甲的成绩的平均数为10+11+14+21+23+23+32+348=21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为22+232=22.5.答案:D6.[2019·长沙、南昌联考]某工厂经过技术改造,降低了能源消耗,职能部门从某车间抽取部分工人进行调查,发现他们一天的能源消耗指数均在50~350之间,按照[50,100),[100,150),[150,200),[200,250),[250,300),[300,350]分组,得到频率分布直方图如图所示.若采用分层抽样的方法从能源消耗指数在[50,200)内的工人中抽取10人进行业务指导,则应从能源消耗指数在[100,150)内选取的人数为()A.5B.3C.2D.4解析:由题意可得,(0.0024+0.0036+x+0.0044+0.0024+0.0012)×50=1,解得x=0.0060,所以前三组的人数之比为0.0024∶0.0036∶0.0060=2∶3∶5,故应从[100,150)内抽取的人数为10×32+3+5=3,故选B.答案:B7.[2019·合肥质检一]某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布的饼状图,90后从事互联网行业岗位分布条形图,则下列结论中不一定正确的是()注:90后指1990年1月1日至1999年12月31日出生的人,80后指1980年1月1日至1989年12月31日出生的人,80前指1979年12月31日及以前出生的人.A.互联网行业从业人员中90后占一半以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后比80前多D.互联网行业中从事技术岗位的人数90后比80后多解析:对于A:由整个互联网行业从业者年龄分布的饼状图可知,互联网行业从业者中90后占了56%,所以A正确;对于B:由两个统计图知,互联网行业从事技术岗位的90后人数占总人数的56%×39.6%=21.176%,已经超出了20%,所以整个互联网行业从事技术岗位的人数肯定会超过总人数的20%,所以B正确;对于C:由两个统计图知,互联网行业从事运营岗位的人数90后占总人数的56%×17%=9.52%,超过了80前互联网行业从业者人数,所以C正确;对于D:由两个统计图知互联网行业80后的人数占41%,但没有80后的岗位分布图,因此无法判断互联网行业中从事技术岗位的人数90后与80后谁多谁少,故D错误,选D.答案:D8.[2019·辽宁五校联考]下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归方程y^=-0.5x+2中,当解释变量x每增加一个单位时,预报变量y平均减少0.5个单位;④若对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.其中正确的命题个数是()A.1B.2C.3D.4解析:由相关指数的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程截距的几何意义可得③正确;对分离变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误,所以正确命题的个数是3,故选C.答案:C调研二分布列及期望与方差、正态分布■备考工具——————————————1.二项分布在n次独立重复试验中,设事件A发生的次数为X,在每次试验中事件A发生的概率为p,那么在n次独立重复试验中,事件A恰好发生k次的概率为P(X=k)=Cknpk(1-p)n-k(k=0,1,2,…,n),此时称随机变量X服从二项分布,记作X~B(n,p).2.正态分布(1)正态分布的定义及表示:如果对于任何实数a,b(ab),随机变量X满足P(aX≤b)=abφμ,σ(x)dx(即x=a,x=b,正态曲线及x轴围成的曲线梯形的面积),则称随机变量X服从正态分布,记作X~N(μ,σ2).(2)正态分布的三个常用数据:①P(μ-σX≤μ+σ)=0.6826;②P(μ-2σX≤μ+2σ)=0.9544;③P(μ-3σX≤μ+3σ)=0.9974.3.超几何分布在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则P(X=k)=CkMCn-kN-MCnN,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*.此时称随机变量X服从超几何分布.超几何分布的模型是不放回抽样.4.期望与方差(1)称D(X)=i=1n(xi-E(X))2pi为随机变量X的方差,它刻画了随机变量X与其均值E(X)的平均偏离程度,其算术平方根DX为随机变量X的标准差,记作σ(X).(2)均值与方差的性质:①E(aX+b)=aE(X)+b(a,b为常数);②D(aX+b)=a2D(X)(a,b为常数).(3)两点分布与二项分布的均值与方差:①若随机变量X服从两点分布,则E(X)=p,D(X)=p(1-p).②若随机变量X~B(n,p),则E(X)=np,D(X)=np(1-p).5.方差和标准差方差和标准差反映了数据波动程度的大小.(1)方差:s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2];(2)标准差:s=1n[x1-x2+x2-x2+…+xn-x2].性质:标准差(或方差)越小,说明数据波动越小,越稳定;标准差(或方