8.4 统计案例（精讲）（学生版）

lipingyoume
0 ℃
2024-04-29

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

8.4统计与统计案例（精讲）一．简单随机抽样1.定义：一般地，设一个总体含有N(N为正整数)个个体，从中逐个抽取n(1≤nN)个个体作为样本．如果抽取是不放回的，且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等，我们把这样的抽样方法叫做不放回简单随机抽样．放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样．(除非特殊声明，本章所称的简单随机抽样指不放回简单随机抽样)2.简单随机样本：通过简单随机抽样获得的样本称为简单随机样本．3.简单随机抽样的常用方法：抽签法和随机数法二．分层随机抽样1.分层随机抽样的概念一般地，按一个或多个变量把总体划分成若干个子总体，每个个体属于且仅属于一个子总体，在每个子总体中独立地进行简单随机抽样，再把所有子总体中抽取的样本合在一起作为总样本，这样的抽样方法称为分层随机抽样，每一个子总体称为层．2.分层随机抽样的平均数计算在分层随机抽样中，以层数是2层为例，如果第1层和第2层包含的个体数分别为M和N，抽取的样本量分别为m和n，样本平均数分别为x，y，总体的样本平均数为w，则w＝MM＋Nx＋NM＋Ny＝mm＋nx＋nm＋ny．三．总体百分位数的估计1.百分位数：一般地，一组数据的第p百分位数是这样一个值，它使得这组数据中至少有p%的数据小于或等于这个值，且至少有(100－p)%的数据大于或等于这个值．2.百分位数的意义：反映该组数中小于或等于该百分位数的分布特点．四．总体集中趋势的估计名称概念平均数如果有n个数x1，x2，…，xn，那么1n(x1＋x2＋…＋xn)就是这组数据的平均数，用x表示，即x＝1n(x1＋x2＋…＋xn)中位数将一组数据按从小到大或从大到小的顺序排列，处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)叫做这组数据的中位数众数一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数五．总体离散程度的估计总体(样本)方差和总体(样本)标准差假设一组数据是x1，x2，…，xn，用x表示这组数据的平均数，那么这n个数的1.标准差s＝1n[（x1－x）2＋（x2－x）2＋…＋（xn－x）2]；2.方差s2＝1n[(x1－x)2＋(x2－x)2＋…＋(xn－x)2]．六．相关关系1．变量的相关关系(1)相关关系：两个变量有关系，但又没有确切到可由其中的一个去精确地决定另一个的程度，这种关系称为相关关系．(2)散点图：每一个成对样本数据都可用直角坐标系中的点表示出来，由这些点组成了统计图．我们把这样的统计图叫做散点图．(3)相关关系的分类：正相关和负相关．(4)线性相关：一般地，如果两个变量的取值呈现正相关或负相关，而且散点落在一条直线附近，我们称这两个变量线性相关．2．样本相关系数(1)r＝∑ni＝1（xi－x）（yi－y）∑ni＝1（xi－x）2∑ni＝1（yi－x）2.(2)当r0时，称成对样本数据正相关；当r0时，称成对样本数据负相关．(3)|r|≤1；当|r|越接近1时，成对样本数据的线性相关程度越强；当|r|越接近0时，成对样本数据的线性相关程度越弱．3．一元线性回归模型参数的最小二乘估计(1)我们将y^＝b^x＋a^称为Y关于x的经验回归方程，其中b^＝∑ni＝1（xi－x）（yi－y）∑ni＝1（xi－x）2，a^＝y－b^x.七、独立性检验1．分类变量与列联表(1)分类变量：在讨论问题时，为了表述方便，我们经常会使用一种特殊的随机变量，以区别不同的现象或性质，这类随机变量称为分类变量．分类变量的取值可以用实数表示．(2)2×2列联表列联表：列出的两个分类变量的频数表，称为列联表．假设有两个分类变量X和Y，它们的可能取值分别为{x1，x2}和{y1，y2}，其2×2列联表为y1y2合计x1aba＋bx2cdc＋d合计a＋cb＋da＋b＋c＋d2.独立性检验(1)零假设：以Ω为样本空间的古典概型．设X和Y为定义在Ω上，取值于{0，1}的成对分类变量．H0：分类变量X和Y独立．通常称H0为零假设或原假设．(2)χ2公式假设我们通过简单随机抽样得到了X和Y的抽样数据列联表，如下表所示：XY合计Y＝0Y＝1X＝0aba＋bX＝1cdc＋d合计a＋cb＋dn＝a＋b＋c＋dχ2＝n（ad－bc）2（a＋b）（c＋d）（a＋c）（b＋d）.对于任何小概率值α，可以找到相应的正实数xα，使得下面关系成立：P(χ2≥xα)＝α.我们称xα为α的临界值，这个临界值就可作为判断χ2大小的标准．概率值α越小，临界值xα越大．(3)独立性检验基于小概率值α的检验规则是：当χ2≥xα时，我们就推断H0不成立，即认为X和Y不独立，该推断犯错误的概率不超过α；当χ2＜xα时，我们没有充分证据推断H0不成立，可以认为X和Y独立．这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验，读作“卡方独立性检验”，简称独立性检验．一．分层随机抽样1.抽样比＝该层样本容量n总样本容量N＝该层抽取的个体数该层的个体数.2.在分层随机抽样中，如果第一层的样本量为m，平均值为x；第二层的样本量为n，平均值为y，则样本的平均值为mx＋nym＋n.二．计算一组数据第p百分位数的步骤三．频率分布直方图的数字特征1.众数：众数一般用频率分布表中频率最高的一组的组中值来表示，即在样本数据的频率分布直方图中，最高矩形的底边中点的横坐标；2.中位数：在频率分布直方图中，中位数左边和右边的直方图的面积和应该相等；3.平均数：平均数在频率分布表中等于组中值与对应频率之积的和，即在频率分布直方图中，每个小矩形的面积乘以小矩形底边中点的横坐标之和．四．常用结论1.画散点图：点的分布从左下角到右上角，两个变量正相关；点的分布从左上角到右下角，两个变量负相关．2.相关系数：当r0时，正相关；当r0时，负相关；|r|越接近于1，相关性越强．3.经验回归方程：当b^0时，正相关；当b^0时，负相关．4．若x1，x2，…，xn的平均数为x，那么mx1＋a，mx2＋a，…，mxn＋a的平均数为mx＋a；5．若x1，x2，…，xn的方差为s2，那么ax1＋b，ax2＋b，…，axn＋b的方差为a2s2；6．s2＝1n∑ni＝1(xi－x)2＝1n∑ni＝1x2i－x2，即各数平方的平均数减去平均数的平方．考点一简单随机抽样及分层抽样【例1-1】（2023·贵州·校联考模拟预测）已知某班共有学生46人，该班语文老师为了了解学生每天阅读课外书籍的时长情况，决定利用随机数表法从全班学生中抽取10人进行调查．将46名学生按01，02，…，46进行编号．现提供随机数表的第7行至第9行：844217533157245506887704744767217633502583921206766301637859169556571998105071751286735807443952387933211234297864560782524207443815510013429966027954若从表中第7行第41列开始向右依次读取2个数据，每行结束后，下一行依然向右读数，则得到的第8个样本编号是（）A．07B．12C．39D．44【例1-2】（2023秋·湖南长沙·高三长郡中学校考假期作业）为了庆祝中国共产党第二十次全国代表大会，学校采用按比例分配的分层随机抽样的方法从高一1002人，高二1002人，高三1503人中抽取126人观看“中国共产党第二十次全国代表大会”直播，那么高三年级被抽取的人数为（）A．36B．42C．50D．54【一隅三反】1．（2023秋·云南·高三校联考阶段练习）要调查某地区高中学生身体素质，从高中生中抽取100人进行跳远测试，根据测试成绩制作频率分布直方图如图，现从成绩在120,140之间的学生中用分层抽样的方法抽取5人，应从120130,间抽取人数为b，则（）．A．0.025a，2bB．0.025a，3bC．0.030a，4bD．0.030a，3b2．（2023·西藏日喀则·统考一模）某市四区夜市地摊的摊位数和食品摊位比例分别如图1、图2所示，为提升夜市消费品质，现用分层抽样的方法抽取5%的摊位进行调查分析，则抽取的样本容量与B区被抽取的食品摊位数分别为（）A．210，24B．210，12C．252，24D．252，123．（2023·河南·襄城高中校联考三模）现有300名老年人，500名中年人，400名青年人，从中按比例用分层随机抽样的方法抽取n人，若抽取的老年人与青年人共21名，则n的值为（）A．15B．30C．32D．364．（2023·全国·高三对口高考）某学校为了调查学生的学习状况，由每班随机抽取5名学生进行调查.若一班有50名学生，将每一学生编号，从01到50为止，请从随机数表的第2行第11列（下表为随机数表的前5行）的42开始，依次向右，直到取足样本，则抽取样本的号码是.03474373863696473661469863716233261680456011141095977424676242811457204253323732270736075124517989731676622766565026710732907978531355385859889754141012568599269696682731050372931557121014218826498176555956356438548246223162430990061844325323830130305．（2022·全国·高三专题练习）总体由编号为01,02,,19,20的20个个体组成，利用下面的随机数表选取5个个体，选取方法是从随机数表第1行的第5列和第6列数字开始从左到右依次选取两个数字，则选出来的第5个个体的编号为．7816657208026314070243699728019832049234493582003623486969387481考点二统计图表【例2-1】（2023秋·陕西西安·高三校联考开学考试）某公司统计了2023年1月至6月的月销售额（单位：万元），并与2022年比较，得到同比增长率数据，绘制了如图所示的统计图，则下列说法正确的是（）注：同比增长率（今年月销售额去年同期月销售额）去年同期月销售额100%.A．2023年1月至6月的月销售额的极差为6B．2023年1月至6月的月销售额逐月递增C．2023年1月至6月的月销售额的中位数为9.5D．2022年5月的月销售额为8万元【例2-2】（2023·福建三明·统考三模）（多选）已知某地区中小学生人数如图①所示，为了解该地区中小学生的近视情况，卫生部门根据当地中小学生人数，用分层抽样的方法抽取了10%的学生进行视力调查，调查数据如图②所示，下列说法正确的有（）图①图②A．该地区的中小学生中，高中生占比为20%B．抽取调查的高中生人数为200人C．该地区近视的中小学生中，高中生占比超过40%D．从该地区的中小学生中任取3名学生，记近视人数为，则的数学期望约为0.81【一隅三反】1．（2023·全国·高三专题练习）Keep是一款具有社交属性的健身APP，致力于提供健身教学、跑步、骑行、交友及健身饮食指导、装备购买等一站式运动解决方案．Keep可以让你随时随地进行锻炼，记录你每天的训练进程．不仅如此，它还可以根据不同人的体质，制定不同的健身计划．小张根据Keep记录的2022年1月至2022年11月期间每月跑步的里程（单位：十公里）数据整理并绘制了下面的折线图．根据该折线图，下列说法错误的是（）A．月跑步里程逐月增加B．月跑步里程最大值出现在10月C．月跑步里程的中位数为5月份对应的里程数D．1月至5月的月跑步里程相对于6月至11月波动性更小2（2023秋·河北保定·高三校联考开学考试）（多选）某公司统计了2023年1月至6月的月销售额（单位：万元），并与2022年比较，得到同比增长率数据，绘制了如图所示的统计图，则下列说法正确的是（）注：同比增长率=（今年月