4统计抽样与抽样分布抽样的基本概念抽样方法抽样分布的概念样本均值的抽样分布本章的学习目的本章的学习目的是为了认识到通过样本推断总体的科学性。当总体元素非常多,或者检查具有破坏性时,需要进行抽样。抽样的目的是为了推断总体的数量特征,但这种推断必定伴有某种程度的不确定性,需要用概率来表示其可靠程度,这是推断统计的重要特点。案例1936年美国总统选举的预测,民主党罗斯福VS共和党兰登。《文摘》邮寄了1000万份调查表;收回240万份,预测兰登获得57%的选票获胜。而盖洛普研究所仅仅随机抽取了2000多选民,预测罗斯福将得到54%的选票获胜。选举结果是罗斯福获得62%的选票获胜。此后,盖洛普研究所每年用1000~1500人的样本快速准确的预测选举,误差在2%之内。抽样的基本概念抽样调查,按照随机原则从全部研究对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。随机原则:指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会。随机原则的实现抽签法,是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。随机数表法:将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单位。计算机模拟法:是将随机数字编制为程序存储在计算机中,需要时将总体中各单位编上号码,启用随机数字发生器输出随机数字。并非所有的抽样估计都按随机原则抽取样本,也有非随机抽样。总体随机样本非随机样本与总体分布特征相同与总体分布特征不同抽样的基本概念总体,要研究的调查对象的全体。个体,组成总体的每个元素。样本:从总体中随机抽取的部分个体。样本容量:样本中所含的个体数量。样本和总体(sample&population)视频教学抽样误差167CM169CM172CM160CM162CM167CM175CM180CM165CM167CM170CM175CM178CM180CM162CM173CM155CM160CM170CM165CM平均身高=169.8CM平均身高=174.6CM总平均身高=168.6CM抽样的基本概念抽样误差:用于抽样的随机性所带来的误差,是一种固有误差。非抽样误差:调查过程中发生的误差,以及由于主观因素破坏了随机性原则而产生的系统性偏差,是可以避免的。随机抽样设计不同的抽样方式,对抽样结果有很大影响,根据研究目的和要求,以及具体情况选择抽样方式;简单随机抽样、等距抽样、类型抽样、整群抽样、多阶段抽样等。抽样方法-概率抽样根据已知的概率选取样本简单随机抽样:完全随机抽取样本;分层抽样:总体分“层”,在每一层内进行抽样;整群抽样:将总体划分为若干群,将一组被调查者(群)作为一个抽样单位。(群内的个体存在差异,理想情况是每个群都是总体的一个缩影)等距抽样:在样本框中,每隔一定距离抽选一个被调查者。抽样方法-非概率抽样不是完全按照随机原则选取样本非随机抽样:由调查人员自由选取被调查者;判断抽样:通过某些条件过滤来选取被调查者;抽样分布在讨论抽样分布之前,需要回顾以下一些与概率分布有关的概念:随机变量、离散型随机变量及其概率分布、连续型随机变量及其概率分布。概率密度函数。随机变量(RandomVariable)随机变量是表征一个随机试验结果的变量,其数值由一次试验结果所决定,但是在试验之前是不确定的。随机变量的所有可能取值就是所有基本事件对应的值。通常用英文大写字母或希腊字母表示。离散型、非离散型、连续型。随机变量(RandomVariable)离散型随机变量:投掷骰子;非离散型随机变量:某路口24小时内经过的车辆;连续型随机变量:灯泡寿命。离散型随机变量离散型随机变量的取值域由有限个或可数多个数值或符号组成。其概率是指离散型随机变量(X)取一个具体数值(x)的概率,即P(X=x)。离散型随机变量的概率分布是指离散型随机变量取遍每一个实验结果x的概率的分布情况,常用列表表示,如下表。离散型随机变量X的取值x123456X的概率P(X=x)1/61/61/61/61/61/600.10.20.30.40.5123456连续型随机变量连续型随机变量的取值域为一个连续区间。只有在(连续的)区间上取值时,其概率才可能为正值,连续型随机变量在任何一点上的概率都为零。1)(021xXxP)(21xx0)()(21xXPxXP概率密度函数连续型随机变量的概率密度函数f(x)xduufxXPxF)()()()()(xFxf概率密度函数的含义:曲线f(x)下任何一个区间的面积,等于随机变量X在该区间取值的概率。最常见的连续型随机变量的概率分布正态分布(P40)。若随机变量X的概率密度函数,21)(222)(xexfx),(~2NX记为最常见的连续型随机变量的概率分布标准正态分布:1,02标准正态分布XZ标准正态分布的计算)(1)(zz)()()(abbZaP1)(2)(aaZ95.0)96.1(Z99.0)58.2(Z90.0)645.1(Z例:设随机变量XN(0,1),求下列概率:(1)P(X0);(2)P(X2.77);(3)P(X1);(4)P(-1.80X2.45).(1)查正态分布数值表,当x=0时,对应的(x)=0.5(2)查正态分布数值表,当x=2.77时,对应的(x)=0.9972,所以P(X0)=0.5所以P(X2.77)=0.9972(3)因为P(X1)=1-P(X1)=1-(1)查正态分布数值表,(1)=0.8413所以P(X1)=1-(1)=0.1587例:设随机变量XN(0,1),求下列概率:(1)P(X0);(2)P(X2.77);(3)P(X1);(4)P(-1.80X2.45).(4)因为P(-1.80X2.45)=(2.45)-(-1.80)=(2.45)-[1-(1.80)]查正态分布数值表,(2.45)=0.9929,(1.80)=0.9641,所以P(-1.80X2.45)=0.9929-[1-0.9641]=0.9570.正态分布的计算-例题某厂生产的某种节能灯管使用寿命服从正态分布,对某批次产品的测试结果,平均使用寿命为1050小时,标准差为200小时。求:1.使用寿命在500小时以下的灯管占多大比例?2.使用寿命在850~1450小时的灯管所占比例?3.以均值为中心,95%的灯管使用寿命的范围?什么是抽样分布?如果要估计总体的均值;是用样本平均值,还是用中位数m?还是掷骰子,总体均值第一次,2,2,6,m=2第二次,3,4,6,m=4,可见,不能仅仅根据一个样本去比较是和m样本统计量本身是随机变量,抽样分布就是由样本n个观察值计算的统计量的概率分布。x5.333.3x33.4xx样本均值的抽样分布一个总体1,2,3,4.重复抽样方法,先抽一个,放回,再抽一个。样本均值的抽样分布x样本均值的抽样分布有放回(withreplacement)抽样12341{1,1}1{2,1}1.5{3,1}2{4,1}2.52{1,2}1.5{2,2}2{3,2}2.5{4,2}33{1,3}2{2,3}2.5{3,3}3{4,3}3.54{1,4}2.5{2,4}3{3,4}3.5{4,4}4样本均值的抽样分布的取值的个数概率1.011/161.522/162.033/162.544/163.033/163.522/164.011/16xx样本均值的抽样分布1/161/83/161/43/161/81/1600.10.20.3x)(xP1.01.52.02.53.03.54.0中心极限定理中心极限定理:不论该总体服从何种分布,只要当样本容量足够大(),样本均值的分布都近似服从正态分布。视频:中心极限定理视频:样本均值的抽样分布30n),(~2nNX样本均值的抽样分布中心极限定理程序模拟视频:程序模拟n的不断增加样本均值的抽样分布与总体的关系总体分布正态分布非正态分布大样本小样本正态分布大样本小样本正态分布t分布抽样分布例题1某汽车电池的制造商声称其最好的电池寿命的均值是54个月,标准差为6个月。某消费组织决定购买50个该品种电池作为样本来检验电池寿命,1.假设该制造商所言为真实的,请描述这50个电池样本的平均寿命的抽样分布;2.假设该制造商所言是真实的,则消费组织的样本寿命小于或等于52个月的概率是多少?抽样分布例题11.运用中心极限定理推断:对于50个电池的样本来说,平均寿命的分布近似正态分布。因此,这个抽样分布的均值与抽样总体的均值是相同的,抽样分布的标准差由公式计算,得个月;个月5485.0506nx抽样分布例题12.假设制造商所言是真实的,则对于50个电池的样本来说,消费组织观察到电池的平均寿命小于或者等于52个月的概率,等于下图的阴影面积,计算标准正态分布z值求这个面积:)52(xP0094.09906.01)35.2(1)52(35.285.05452xPxzxx抽样分布例题1因此,假设制造商的声明是真实的,则消费组织观察到的样本均值(即电池平均寿命)小于或者等于52个月的概率仅为0.0094这么小的概率几乎是不可能发生的!那么,如果50个电池的平均寿命小于52个月,则说明该制造商所言是不真实的。抽样分布例题2美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保险以及与汽车相关的各项服务。1999年5月,AAA通过对会员调查得知一个4口之家出游中总体平均每日餐饮和住宿费用大约是213美元,标准差是15美元。假设选取49个4口之家,并对其在1999年6月期间的旅行费用进行记录。1).描述(样本家庭平均每日旅行消费)的抽样分布。x抽样分布例题21.运用中心极限定理推断:对于49个家庭的样本来说,平均每日旅行消费的分布近似正态分布。因此,这个抽样分布的均值与抽样总体的均值是相同的,抽样分布的标准差由公式计算,得美元;美元21314.24915nx5918.42x抽样分布例题22).对于样本家庭来说,平均每日消费大于217美元的概率是多少?3).在209美元和217美元之间的概率呢?031.09693.01)87.1(1)217(87.113.2213217xPxzxx938.0)87.1()87.1()217209(1.87z1.87-14.221321714.2213209xPzxzxx抽样分布例题3某酒店电梯标志注明最大载重为18人,1350kg。假定已知该酒店游客及其携带行李的平均重量为70kg,标准差是6kg。试问,随机进入电梯18人,总重量超重的概率是多少?(人的体重服从正态分布)抽样分布例题30002.0)5355.3(1)75(5355.318/67075xPxzxx超重的概率只有0.0002!抽样分布例题4视频:喝水的问题样本方差的抽样分布样本方差的抽样分布