第二章统计知能整合提升一、抽样方法1.抽样方法有:简单随机抽样、系统抽样、分层抽样.2.三种抽样方法比较类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被抽取的概率是相同的从总体中逐个抽取总体中的个体数较少系统抽样将总体均分成几个部分,按事先确定的规则在各部分抽取在第一部分抽样时采用简单随机抽样总体中的个体数较多分层抽样将总体分成几层,分层进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成二、用样本估计总体1.作频率分布直方图的步骤:(1)求极差.(2)决定组距与组数,注意样本容量越大,所分组数越多.(3)将数据分组.(4)计算各小组的频率,作频率分布表,各小组的频率=各小组频数样本容量.(5)画频率分布直方图.2.茎叶图刻画数据有两个优点:一是所有信息都可以从图中得到,二是便于记录和表示,但数据较多时不方便.3.样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括众数、中位数和平均数;另一类是反映样本波动大小的,包括方差及标准差.我们常通过样本的数字特征估计总体的数字特征.4.在用样本的频率分布估计总体的分布时应注意:(1)对于同一组样本数据,确定的组距不同,得到的组数及分组也不同,绘制的频率分布直方图就会有差异,但都是对总体的近似估计.(2)应用频率分布直方图时,需明确纵轴表示的是频率/组距,进而进行相关计算.(3)绘制茎叶图时需注意同一组数据中的相同数据要一一列出.5.在用样本的数字特征估计总体的数字特征时应注意:(1)任何一个样本数据的改变都会引起平均数的改变.特殊情况下,平均数可能受某几个极端值的影响,而偏离一般情况.(2)标准差的平方是方差,标准差的单位与样本数据的单位一致.(3)用样本的平均数和标准差估计总体的平均数和标准差时,样本的平均数和标准差只是总体的平均数和标准差的近似.三、变量的相关关系1.两个随机变量x和y之间相关关系的判断方法有:(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断.(2)表格、关系式法:结合表格或关系式进行判断.(3)经验法:借助积累的经验进行分析判断.2.用公式求回归方程的一般步骤是:(1)列表.(2)计算x,y,i=1nx2i,i=1nxiyi.(3)代入公式计算b∧,a∧的值.(4)写出回归直线方程.3.学习变量的相关性时:(1)注意通过实例辨析确定性关系(函数关系)与相关关系.根据散点图分析两个变量间的相关关系是正相关还是负相关.(2)学会用最小二乘法求已知样本数据的回归直线方程.用回归直线方程对总体进行估计时,得到的结果不是准确值.热点考点例析抽样方法的应用1.应用抽样方法抽取样本时,应注意以下几点:(1)用随机数表法抽样时,对个体所编的号码位数要相等,当问题所给位数不等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.如1,2,3,…,20可凑成01,02,03,…,20.(2)用系统抽样法抽样时,如果总体容量N能被样本容量n整除,抽样间隔为k=Nn;如果总体容量N不能被样本容量n整除,先用简单随机抽样法剔除多余个体,抽样间隔k=Nn.2.应用三种抽样方法时需搞清楚它们的使用原则:(1)当总体容量较小,样本容量较小时,制签简单,号签容易搅匀,可采用抽签法;(2)当总体容量较大,样本容量较小时,可用随机数表法;(3)当总体容量较大,样本容量也较大时,可用系统抽样法;(4)当总体中个体差异较显著时,可采用分层抽样法.[特别提醒]在选取抽样方法时,必须使总体中每个个体被抽到的机会是均等的,同学们要理解各种抽样方法的特征及适用范围,在解题时灵活选用.某工厂有1003名工人,从中抽取10人参加体检,试采用简单随机抽样和系统抽样进行具体实施.解析:(1)简单随机抽样:①将每一个人编一个号由0001至1003.②制作大小相同的号签,并写上号码.③放入一个大容器内,均匀搅拌.④依次抽取10个号签.具有这十个编号的人组成一个样本.(2)系统抽样:①将每个人编一个号由0001至1003.②利用随机数表抽取3个号,将这3个人剔除.③重新编号0001至1000.④分段100010=100,所以0001至0100为第一段.⑤在第一段内由简单随机抽样方法抽得一个号l.⑥按编号将l,100+l,…,900+l共10个号选出,这10个号所对应的人组成样本.1.某学校共有教师490人,其中不到40岁的有350人,40岁及以上的有140人.为了了解普通话在该校中的推广普及情况,用分层抽样的方法,从全体教师中抽取一个容量为70人的样本进行普通话水平测试,其中在不到40岁的教师中应抽取的人数为多少人?解析:第一步,确定抽样比70490=17;第二步,在不到40岁的教师中应抽取的人数为350×17=50(人);第三步,由以上的计算可知其中在不到40岁的教师中应抽取的人数为50人.用样本频率分布估计总体分布1.用样本频率分布估计总体频率分布时,通常要对给定的一组数据进行列表、作图处理.2.茎叶图刻画数据有两个优点:一是所有信息都可以从图中得到,二是便于记录和表示.某车站在春运期间为了改进服务,随机抽样调查了100名旅客从开始在购票窗口排队到购到车票所用的时间t(以下简称购票用时,单位:min).下面是这次抽样的频率分布表和频率分布直方图,解答下列问题:分组频数频率第一组0≤t500第二组5≤t1010第三组10≤t15100.10第四组15≤t20第五组20≤t25300.30合计1001.00(1)这次抽样的样本容量是多少?(2)在表中填写出缺失的数据并补全频率分布直方图;(3)旅客购票用时的平均数可能落在哪一小组?(4)若每增加一个购票窗口可使平均购票用时减少5min,要使平均购票用时不超过10min,那么你估计至少要增加几个窗口?解析:(1)调查的旅客共100名,因而样本容量为100.(2)由频数之和为100,频率=频数样本容量可补全频率分布表和频率分布直方图(图中的阴影部分).其中,第四组的频数为50,频率为0.50,第二组的频率为0.10.(3)设旅客平均购票时间为smin,则有0×0+5×10+10×10+15×50+20×30100≤s5×0+10×10+15×10+20×50+25×30100,即15≤s20.∴旅客购票用时的平均数可能落在第四小组.(4)设需增加x个窗口,则20-5x≤10,解得x≥2.∴至少需要增加2个窗口.2.在某次法律知识竞赛中,将来自不同学校的学生的成绩绘制成如图所示的频率分布直方图.已知成绩在[60,70)内的学生有40人,则成绩在[70,90)内的学生有________人.解析:成绩在区间[60,70)内的学生人数的频率为0.04×10=0.4,因此学生总人数为400.4=100.又成绩在区间[70,90)内的学生人数是成绩在区间[70,80)和[80,90)内的学生人数的和,这两个小区间相对应的小矩形的面积的和为(0.015+0.01)×10=0.25,此即为成绩在区间[70,90)内的学生人数的频率,因此成绩在[70,90)内的学生有100×0.25=25(人).答案:25用样本的数字特征估计总体的数字特征为了从整体上更好地把握总体的规律,还可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计.众数就是样本数据中出现最多的那个值;中位数就是处于中间位置的那个数(或者两个数的平均数);平均数就是所有样本数据的平均值,用x表示;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式为:s=1n[x1-x2+x2-x2+…+xn-x2]有时也用标准差的平方s2——方差来代替标准差,实质一样.甲、乙两人在相同的条件下各射靶10次,每次射靶成绩(单位:环)如图所示.(1)填写下表:平均数方差中位数命中9环及以上甲71.21乙5.43(2)请从四个不同的角度对这次测试进行分析:①从平均数和方差结合分析偏离程度;②从平均数和中位数结合分析谁的成绩好些;③从平均数和命中9环以上的次数相结合看谁的成绩好些;④从折线图上看两人射击命中环数及走势分析谁更有潜力.解析:(1)乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,所以x乙=110(2+4+6+8+7+7+8+9+9+10)=7,乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,所以中位数是7+82=7.5;甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.于是填充后的表格如表所示:平均数方差中位数命中9环及以上甲71.271乙75.47.53(2)①甲、乙的平均数相同,均为7,但s2甲s2乙,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.②甲、乙的平均水平相同,而乙的中位数比甲大,说明乙射靶环数的优秀次数比甲多.③甲、乙的平均水平相同,而乙命中9环以上(包含9环)的次数比甲多2次,可知乙的射靶成绩比甲好.④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.3.市体校准备挑选一名跳高运动员参加全市中学生运动会,对跳高运动队的甲、乙两名运动员进行了8次选拔比赛.他们的成绩(单位:m)如下:甲:1.701.651.681.691.721.731.681.67乙:1.601.731.721.611.621.711.701.75(1)甲、乙两名运动员的跳高平均成绩分别是多少?(2)哪位运动员的成绩更为稳定?(3)若预测跳过1.65m就很可能获得冠军,该校为了获得冠军,可能选哪位运动员参赛?若预测跳过1.70m才能得冠军呢?解析:(1)x甲=1.69(m),x乙=1.68(m).(2)s2甲=0.0006,s2乙=0.00315,因为s2甲s2乙,所以甲稳定.(3)可能选甲参加,因为甲8次成绩都跳过1.65m而乙有3次低于1.65m;且x甲x乙,s2甲s2乙.不管是跳过1.65m,还是跳过1.70m拿冠军,都选甲.回归方程的应用除了函数关系这种确定性的关系外,还有大量因变量的取值带有一定随机性的两个变量之间的关系——相关关系.分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,如果线性相关利用最小二乘法求出回归直线方程.具体地说就是把样本数据表示的点在直角坐标系中作出,叫散点图.从散点图上,我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线方程叫做回归方程.在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y(单位:μm)与腐蚀时间x(单位:s)之间相应的一组观察值如下表:腐蚀时间x5101520304050607090120腐蚀深度y610101316171923252946(1)画出散点图;(2)从散点图中发现腐蚀深度与腐蚀时间之间关系的一般规律;(3)求回归方程;(4)估计腐蚀时间为100s时腐蚀深度.解析:(1)散点图如图所示.(2)由图可知,各点散布在从左下角到右上角的区域里,因此,腐蚀深度与腐蚀时间之间成正相关,即腐蚀时间越长,腐蚀深度越深.(3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,两变量呈线性相关关系.利用计算器求得回归方程为y∧=0.304x+5.344.(4)由(3)知,当腐蚀时间为100s时,y∧=0.304×100+5.344=35.744(μm),即此时腐蚀深度约是35.744μm.4.考古学家通过始祖鸟化石标本发现:其股骨长度x(cm)与肱骨长度y(cm)的线性回归方程为y∧=1.197x-3.660,由此估计,当股骨长度为50cm时,肱骨长度的估计值为______cm.解析:根据回归方程y∧=1.197x-3.660,将x=50代入得y=56.19,则肱骨长度的估计值为56.19cm.答案:56.191.下列说法不正确的是()A.方差是标准差的平方B.标准差的大小不会超过极差C.若一组