第十五章统计第1讲随机抽样和样本估计总体考纲要求考纲研读1.随机抽样.(1)理解随机抽样的必要性和重要性.(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.2.总体估计.(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.用样本估计总体是统计学的重要思想.从总体中如何抽取样本,以及如何研究样本数据是本节需要掌握的主要内容.根据总体的特点可采取合适的抽样方式,然后从列表,画图途径来体现样本数据特征,而样本的数字特征则是其客观体现,从而进一步去估计总体特征.1.总体、个体、样本把所考察对象的某一个数值指标的全体构成的集合看成总体,构成总体的每一个元素为个体,从总体中随机抽取若干个个体构成的集合叫做总体的一个样本.2.随机抽样均等的抽样时保证每一个个体都可能被抽到,每一个个体被抽到的机会是________,满足这样的条件的抽样是随机抽样.3.简单随机抽样相等抽签法设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都_____,就把这种抽样方法叫做简单随机抽样.最常用的简单随机抽样方法有两种——_______和_____________.随机数表法4.系统抽样(1)当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方式叫做系统抽样.(2)步骤:①编号.采用随机的方式将总体中的个体编号,编号的方式可酌情处理;②_____.先确定分段的间隔k.当Nn(N为总体中的个体数,n为样本容量)是整数时,k=Nn;当Nn不是整数时,通过从总体中随机剔除一些个体使剩下的总体中个体总数N′能被n整除,这时k=N′n;分段③确定起始个体编号.在第1段用________________确定起始的个体编号S;简单随机抽样④按照事先确定的规则抽取样本.通常是将S加上间隔k,得到第2个个体编号S+k,再将(S+k)加上k,得到第3个个体编号S+2k,这样继续下去,获得容量为n的样本.其样本编号依次是:S,S+k,S+2k,…,S+(n-1)k.5.分层抽样明显差异当总体由_________的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照一定的比例,从各层中独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫做分层抽样.6.频率分布直方图(1)求极差:极差是一组数据的最大值与最小值的差.(2)决定组距和组数:当样本容量不超过100时,常分成5~12组.组距=______.(3)将数据分组:通常对组内数值所在区间取左闭右开区间.最后一组取闭区间.也可以将样本数据多取一位小数分组.(4)列频率分布表:登记频数,计算频率,列出频率分布表.将样本数据分成若干个小组,每个小组内的样本个数称作频数,频数与样本容量的比值叫做这一小组的______.频率反映这组数据在样本所占比例的大小.频率极差组数(5)绘制频率分布直方图:把横轴分成若干段,每一段对应一个组距,然后以线段为底作一矩形,它的高等于该组的频率组距,这样得到一系列的矩形,每个矩形的面积恰好是该组上的频率.这些矩形就构成了频率分布直方图.7.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的_____,就得到频率分布折线图.中点(2)总体密度曲线:随着__________的增加,作图时所分的组数增加,_______减小,相应的频率折线图会接近于一条光滑的曲线,即总体密度曲线.样本容量组距8.茎叶图在样本数据较少、较为集中,且位数不多时,用茎叶图表示数据的效果较好,它较好的保留了原始数据信息,方便记录与表示.茎是中间的一列数,叶是从茎的旁边生长出来的数.9.样本数字特征(1)众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.最中间中位数(2)中位数:将一组数据按大小依次排列,把处在_______位置的一个数据(或最中间两个数据的平均数)叫做这组数据的______.(4)方差:s2=__________________________________.(5)标准差:s=_______________________________________.(3)平均数:样本数据的算术平均数,即x=________________.1n(x1+x2+…+xn)1n[(x1-x)2+(x2-x)2+…+(xn-x)2]1n[x1-x-2+x2-x-2+…+xn-x-2]C.都相等,且为D.都相等,且为1.从2004名学生中选取50名组成参观团,若采用下面的方法选取:先用简单随机抽样从2004人中剔除4人,剩下的2000)C人再按系统抽样的方法进行.则每人入选的概率(A.不全相等B.均不相等251002140解析:注意随机抽样,每个个体被抽到的概率都一样.此题502520041002中,每人入选的概率为=.故选C.甲乙丙丁-平均环数x8.68.98.98.22方差s3.53.52.15.62.(2011年广东广州调研)甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如下表所示:从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是()CA.甲B.乙C.丙D.丁3.(2011年广东广雅中学测试)在广雅中学“十佳学生”评选的演讲比赛中,如图15-1-1是七位评委为某学生打出的分数的茎叶图,去掉一个最高分和一个最低分后,所剩数据的众数和中位数分别为()图15-1-1A.85,85B.84,86C.84,85D.85,86C4.(2011年上海)课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应城市数分别为4,12,8.若用分层抽样抽取6个城市,则丙组中应抽取的城市数为____.25.某个容量为100的样本的频率分布直方图如图15-1-2,则在区间[4,5)上的数据的频数为_____.30解析:对于在区间的频率的数值为0.3,而总数为100,因此频数为30.图15-1-2考点1随机抽样及其应用例1:现要完成下列3项抽样调查:①从10盒酸奶中抽取3盒进行食品卫生检查.②科技报告厅有32排,每排有40个座位,有一次报告会恰好坐满了听众,报告会结束后,为了听取意见,需要请32名听众进行座谈.③东方中学共有160名教职工,其中一般教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.较为合理的抽样方法是()A.①简单随机抽样,②系统抽样,③分层抽样B.①简单随机抽样,②分层抽样,③系统抽样C.①系统抽样,②简单随机抽样,③分层抽样D.①分层抽样,②系统抽样,③简单随机抽样解析:此题主要考察的是三种抽样方法的适用情况.对①总体个数较少,采用简单随机抽样,对②个体数相对较多,采用系统抽样,对③个体相互差异明显,采用分层抽样,故选A.答案:A类别共同点不同点相互联系适用范围简单随机抽样都是等概率抽样从总体中逐个抽取总体中个体比较少系统抽样将总体均匀分成若干部分;按事先确定的规则在各部分抽取在起始部分采用简单随机抽样总体中个体比较多分层抽样将总体分成若干层,按个体个数的比例抽取在各层抽样时采用简单随机抽样或系统抽样总体中个体有明显差异三种抽样方法的联系与区别:【互动探究】1.①某小区有800个家庭,其中高收入家庭200户,中等收入家庭480户,低收入家庭120户,为了了解有关家用轿车购买力的某个指标,要从中抽取一个容量为100户的样本;②从10名同学中抽取3个参加座谈会.Ⅰ.简单随机抽样方法;Ⅱ.系统抽样)B方法;Ⅲ.分层抽样方法.问题和方法配对正确的是(A.①Ⅰ②ⅡB.①Ⅲ②ⅠC.①Ⅱ②ⅢD.①Ⅲ②Ⅱ2.一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量)D为40的样本.则从上述各层中依次抽取的人数分别是(A.12,24,15,9B.9,12,12,7C.8,15,12,5D.8,16,10,63.用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生从1至160编号.按编号顺序平均分成20组(1-8号,9-16号,……153-160号),若第16组应抽出的号码为126,则第一组中用抽签方法确定的号码是____.6解析:采用系统抽样,设每组中依次抽出的号码构成一数列{an},首项为a1,公差为8的等差数列,则该数列的通项公式为an=a1+8(n-1),依题意则a16=126=a1+8×(16-1),则a1=6.即第一组中用抽签方法确定的号码是6.考点2频率分布直方图例2:(2010年广东佛山调研)某校从参加高一年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图15-1-3所示的部分频率分布直方图.观察图形的信息,回答下列问题:图15-1-3(1)求分数在[70,80)内的频率,并补全这个频率分布直方图;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计本次考试的平均分;(3)用分层抽样的方法在分数段为[60,80)的学生中抽取一个容量为6的样本,将该样本看成一个总体,从中任取2人,求至多有1人在分数段[70,80)的概率.=1-0.7=0.3.故0.310=0.03,解析:(1)分数在[70,80)内的频率为:1-(0.010+0.015+0.015+0.025+0.005)×10如图D33图D33(2)平均分为:x=45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.(3)由题意,[60,70)分数段的人数为:0.15×60=9.[70,80)分数段的人数为:0.3×60=18.∵在[60,80)的学生中抽取一个容量为6的样本,∴[60,70)分数段抽取2人,分别记为m,n.在[70,80)分数段抽取4人,分别记为a,b,c,d.设从样本中任取2人,至多有1人在分数段[70,80)为事件A,则基本事件空间包含的基本事件有:(m,n),(m,a),(m,b),(m,c),(m,d),…,(c,d)共15种,则事件A包含的基本事件有:(m,n),(m,a),(m,b),(m,c),(m,d),(n,a),(n,b),(n,c),(n,d)共9种,∴P(A)=915=35.(1)频率分布直方图的绘制按照前面的要点预览的步骤进行.值得注意的是,在频率分布直方图中,纵轴表示“频率组距”,数据落在各小组内的频率用小矩形的面积表示,各小矩形的面积总和等于1.(2)由频率分布直方图估计样本的数字特征时:①众数为频率分布直方图中最高矩形的底边中点的横坐标,②中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;③平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.【互动探究】4.(2011年广东佛山质检)为提高广东中小学生的健康素质和体能水平,广东省教育厅要求广东各级各类中小学每年都要在体育教学中实施“体能素质测试”,测试总成绩满分为100分.根据广东省标准,体能素质测试成绩在[85,100]之间为优秀;在[75,85)之间为良好;在[65,75)之间为合格;在(0,60)之间,体能素质为不合格.现从佛山市某校高一年级的900名学生中随机抽取30名学生的测试成绩如下:85,90,77,86,81,83,82,82,64,79,