知识讲解_高考总复习:统计与统计案例

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

高考总复习:统计与统计案例【考纲要求】1.随机抽样(1)理解随机抽样的必要性和重要性;(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.2.用样本估计总体(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题.3.变量的相关性(1)会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系;(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).【知识网络】【考点梳理】考点一、随机抽样从调查的对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项统计图表用样本估计总体统计简单随机抽样数据的整理分析数据的数字特征分层抽样系统抽样变量的相关性指标做出推断,这就是抽样调查.调查对象的全体称为总体,被抽取的一部分称为样本.1.简单的随机抽样简单随机抽样的概念:设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.①用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取一个个体时,任一个体被抽到的概率为1N;在整个抽样过程中各个个体被抽到的概率为nN;②简单随机抽样的特点是:不放回抽样,逐个地进行抽取,各个个体被抽到的概率相等;③简单随机抽样方法体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.简单抽样常用方法:①抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本.适用范围:总体的个体数不多.优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.②随机数表法:随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码.2.系统抽样:当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先制定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.系统抽样的步骤:①采用随机的方式将总体中的个体编号,为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号等等.②为将整个的编号分段(即分成几个部分),要确定分段的间隔k.当Nn是整数时(N为总体中的个体的个数,n为样本容量),Nkn;当Nn不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数N能被n整除,这时'Nkn.③在第一段用简单随机抽样确定起始的个体编号l.④按照事先确定的规则抽取样本(通常是将l加上间隔k,得到第2个编号lk,第3个编号2lk,这样继续下去,直到获取整个样本).要点诠释:①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除再进行系统抽样.3.分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层.4.常用的三种抽样方法的比较:类别共同点不同点联系适用范围简单随机抽样抽样过程中每个个体被抽取的概率相等从总体中逐个抽取是后两种方法的基础总体个数较少系统抽样将总体均分成几部分,按事先确定的规则在各部门抽取在起始部分抽样时用简单随机抽样总体个数较多分层抽样将总体分成几层,分层进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成要点诠释:(1)各种抽样的个体被抽到的概率相等;(2)抽样过程中个体被抽到的概率相等.5.不放回抽样和放回抽样:在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样随机抽样、系统抽样、分层抽样都是不放回抽样考点二、用样本估计总体1.统计图表包括条形图、折线图、饼图、茎叶图.2.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差)(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布表3.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离,222121[()()...()]nsxxxxxxn(2)方差:2222121[()()...()]nsxxxxxxn(nx是样本数据,n是样本容量,x是样本平均数)要点诠释:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)5.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标6.频率分布直方图反映样本的频率分布(1)频率分布直方图中横坐标表示组距,纵坐标表示组距频率,频率=组距×组距频率(2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.(4)众数为最高矩形中点的横坐标.(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.考点三、变量的相关性1.散点图将两个变量所对应的点描在直角坐标系中,这些点组成了变量之间的一个图,称为变量之间的散点图.散点图形象地反映了各对数据的密切程度.粗略地看,散点分布具有一定的规律.如果变量之间存在某种关系,这些点会有一个集中趋势,这种趋势通常可以用一条光滑的曲线来近似表示,这样近似的过程称为曲线拟合.2.两个变量的线性相关(1)相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.(2)正相关在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(3)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(4)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.3.回归方程(1)最小二乘法求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程方程ybxa是两个具有线性相关关系的变量的一组数据1122(,),(,),(,),nnxyxyxy的回归方程,期中,ab是待定参数.1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx要点诠释:相关关系与函数关系的异同点:相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系;②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.考点四、统计案例1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用ybxae表示,其中a,b为模型的未知数,e称为随机误差.(3)样本点的中心在具有线性相关关系的数据1122(,),(,),(,),nnxyxyxy中回归方程的截距和斜率的最小二乘估计公式分别为:121()(),=-()niiiniixxyybaybxxx其中111,=,(,,)nniiiixxyxxyn称为样本点的中心.(4)相关系数①12211()()()()niiinniiiixxyyrxxyy②当0r时,表明两个变量正相关;当0r时,表明两个变量负相关.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常r大于0.75时,认为两个变量有很强的线性相关性.2.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()niiyy(2)残差数据点和它回归直线上相应位置的差异2()iiyy是随机误差的效应,称=iiieyy为残差.(3)残差平方和21()niiiyy.(4)相关指数22121()()niiiniiyyRyy2R的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,2R表示解释变量对预报变量变化的贡献率,2R越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为1122{,}{,}xyxy和,其样本频数列联表(称为2×2列联表)为2×2列联表1y2y总计1xabab2xcdcd总计acbdabcd构造一个随机变量22()()()()()nadbcKabcdacbd,其中abcd为样本容量.(3)独立性检验利用随机变量2K来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注:在独立性检验中经常由2K得到观测值k,则k=2K是否成立?(2K与k的关系并不是k=2K,k是2K的观测值,或者说2K是一个随机变量,它在a,b,c,d)取不同值时,2K可能不同,而k是取定一组数a,b,c,d后的一个确定的值.【典型例题】类型一、简单随机抽样【例1】某车间工人加工一种轴100件,为了了解这种轴的直径,要从中抽取10件轴在同一条件下测量,如何采用简单随机抽样的方法抽取样本?【思路点拨】简单随机抽样一般采用两种方法:抽签法和随机数表法.【解析】解法1:(抽签法)将100件轴编号为1,2,…,100,并做好大小、形状相同的号签,分别写上这100个数,将这些号签放在一起,进行均匀搅拌,接着连续抽取10个号签,然后测量这个10个号签对应的轴的直径.解法2:(随机数表法)将100件轴编号为00,01,…99,在随机数表中选定一个起始位置,如取第21行第1个数开始,选取10个为68,34,30,13,70,55,74,77,40,44,这10件即为所要抽取的样本.【总结升华】从以上两种方法可以看出,当总体个数较少时用两种方法都可以,当样本总数较多时,方法2优于方法1.举一反三:【变式】某大学为了支持奥运会,从报名的24名大三的学生中选6人组成志愿小组,请用抽签法和随机数表法设计抽样方案.【思路点拨】(1)总体的个体数较少,利用抽签法或随机数表法可容易获取样本;(2)抽签法的操作要点:编

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功