9.2用样本估计总体9.2.1总体取值规律的估计讲课人:邢启强2一个统计小故事的启示“”二战期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。然而统计学家沃德力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了。事实证明,沃德是正确的。800要求:综合材料内容及含意,选好角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不少于字。2018——全国二卷作文新课引入讲课人:邢启强3一个统计小故事的启示这位统计学家在分析问题的时候,能够做到不被表面现象所迷惑,在获取数据之后,择合适的工具对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据蕴含的信息,进而得到了正确的统计分析结果。新课引入收集数据是为了寻找数据中蕴含的信息,因为实际问题中数据多而且杂乱,往往无法直接从原始数据中发现规律所以需要根据问题的背景特点,选择合适的统计图表对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据中蕴含的信息,就可以用这些信息来解决实际问题了下面我们讨论对随机抽样获取的数据的处理方法.讲课人:邢启强41.随机抽样有哪几种基本的抽样方法?简单随机抽样、分层抽样.温故知新前面研究学习了两种抽样方法来收集数据,还知道了一些常见的获取数据的途径,数据收集后,必须从中寻找包含的信息,以使我们能通过样本的规律估计总体的规律,解决相应的实际问题。但由于数据多而杂,所以需要通过一定的方法去处理数据。可以通过表、图、计算方法来分析数据,进而对总体做出相应的估计。讲课人:邢启强5学习新知问题1我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,你认为需要做哪些工作?①全面调查(普查):时间、经费允许.②抽样调查:总体:该市的全体居民用户;个体:每户居民用户;调查的变量:居民用户的月均用水量.讲课人:邢启强6假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:1):学习新知9.013.614.95.94.07.16.45.419.42.02.28.613.85.410.24.96.814.02.010.52.15.75.116.86.011.11.311.27.74.92.310.016.712.012.47.85.213.62.422.43.67.18.825.63.218.35.12.03.012.022.210.85.52.024.39.93.65.64.47.95.124.56.47.54.720.55.515.72.65.75.56.016.02.49.53.717.03.84.12.35.37.88.14.313.36.81.37.04.91.87.128.010.213.817.910.15.54.63.221.6从这组数据你能发现什么信息呢?如果将这组数据从小到大排序,容易发现,这组数据的最小值是1.3t,最大值是28.0t,其他在1.3t至28.0t之间.讲课人:邢启强7学习新知1.2.分析数据的基本方法:用图将它们画出来:.用表提取信息、传递信息用紧凑的表格改变数据的排列形式,提供解释数据格:的新方式.我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表(frequencydistributiontable)和频率分布直方图(frequencydistributionhistogram)来整理和表示数据,与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图(1)求极差;(2)决定组距和组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.画频率分布直方图的一般步骤为:讲课人:邢启强8学习新知1.求极差:极差为一组数据中最大值与最小值的差.样本观测数据的最小值是1.3t,最大值是28.0t,极差为28.0-1.3=26.7这说明样本观测数据的变化范围是26.7t.非负数;它反映了一组数据的最大幅度,对极端值敏感;描述数据的离散程度.讲课人:邢启强9学习新知2.决定组距与组数:合适的组距与组数对发现数据分布规律有重要意义.数太多或太少,都会影响我们了解数据的分布情况.数据分组可以是等距的,也可以是不等距的,要根据数据的特点而定。有时为了方便,往往按等距分组,或者除了第一和最后的两段,其余各段按等距分组是指每个小组的两个端点之组距间的距离.=1.极差极差①若为整数,则组数;组距组距极差极差②若不为整数极差、组距、组数之,则间的关系距组距:组数组[].yxx注:取整函数,表示不超过的最大整数讲课人:邢启强10组距与与组数的确定没有固定的标准.数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多,当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”分组时可以先确定组距,也可以先确定组数,如果我们取所有组距为3,则26.78.93极差组距9即可将数据分为组;学习新知2思考:组距为4时分几组?26.7=6.74极差组距7.可以将数据分成组讲课人:邢启强11学习新知3.将数据分组:由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值,例如,可以取区间为[1.2,28.2],按如下方式把样本观测数据以组距3分为9组:[1.2,4.2),[4.2,7.2),...,[25.2,28.2].左闭通右开常对组内,最后一数据所在组取区间:闭区间.4.列频率分布表计算各小组的频率,例如第一小组的频率作出频率分布表23=0.23100第一组频数样本容量=小组频数频率样本容量.频率之和为1.讲课人:邢启强12学习新知讲课人:邢启强13横轴表示;纵轴表示频率月均用水量组距.月均用水量/t0.020.040.060.080.101.24.27.210.213.216.219.222.225.228.200.12频率/组距0.0770.1070.0430.0300.0300.0170.0100.0130.007==频率小长方形的面积组距频率.组距1各小长方形的面积和为.学习新知5.画频率分布直方图根据频率分布表画出如图所示的频率分布直方图频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度讲课人:邢启强14样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?第一步,画平面直角坐标系.第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.学习新知讲课人:邢启强15学习新知频率分布直方图与频数分布直方图有什么区别?通过调查或实验收集到的数据一般数量较大且无序,为了得到有用的信息,就需要对数据进行分类(组)整理,利用统计表(或图)表示数据的特征.数据是对客观现象计量的结果,按照计量的精确程度可以大致分为两类.第一类,只能对事物的属性进行分类.例如,性别分男、女,商品分不同品牌,等级成绩分为优、良、及格和不及格,民意调查中对某观点的态度分为同意、中立、不同意,视力情况分为正常、轻度近视、中度近视、重度近视等.各类别可以用字母表示或数字表示,对此类数据的整理就是列频数分布表,记录各类别出现的频数,计算百分比.用条形图直观表示各类数据的频数,用扇形图表示各类数据所占的百分比大小.第二类,计量结果表现为数值,例如,考试成绩,中学生的身高或体重,居民家庭的收入,居民家庭月用电量等.对这类连续数据的整理需要按数据个数的多少,进行适当的分组(不重不漏),统计各组的频数,计算百分比,用直方图表示数据的分布状况.讲课人:邢启强16学习新知观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?(1)从频率分布表中可以清楚地看出,样本观测数据落在各个小组的比例大小,例如,月均用水量在区间[4.2,7.2)内的居民用户最多,在区间[1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等.讲课人:邢启强17学习新知观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?(2)从频率分布直方图能直观的表明数据分布的形状和总体趋势.从上图容易看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”,这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在区间[1.2,7.2)最为集中,少数居民用户的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.有了样本观测数据的频率分布,我们可以用它估计总体的取值规律讲课人:邢启强18学习新知根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域.这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的.需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解.分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分市直方图.观察图形,你发现不同的组数对于直方图呈现数据分市规律有什么影响?讲课人:邢启强19学习新知分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分市直方图.观察图形,你发现不同的组数对于直方图呈现数据分市规律有什么影响?从图中可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同,会给人以不同的频率分布印象有时会影响人们对总体的判断当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,会依赖样本数据,稳定性差,由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.讲课人:邢启强20频率分布直方图的性质(1)因为小矩形的面积=组距×频率组距=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.(2)在频率分布直方图中,各小矩形的面积之和等于1.(3)频数相应的频率=样本容量.(4)在频率分布直方图中,各矩形的面积之比等于频率之比,各矩形的高度之比也等于频率之比.学习新知讲课人:邢启强21例某地区为了了解知识分子的年龄结构,随机抽样50名,其年龄分别如下:42,38,29,36,41,43,54,43,34,44,40,59,39,42,44,50,37,44,45,29,48,45,53,48,37,28,46,50,37,44,42,39,51,52,62,47,59,46,45,67,53,49,65,47,54,63,57,43,46,58.(1)列出样本频率分布表;(2)画出频率分布直方图;(3)估计年龄在32~52岁的知识分子所占的比例约是多少.典型例题讲课人:邢启强22(1)极差为67-28=39,取组距为5,分为8组.分组频数频率[27,32)30.06[32,37)30.06[37,42)90.18[42,47)160.32[47,52)70.14[52,57)50.10[57,62)40.08[62,67)30.06合计50