§2.1简单随机抽样的几个基本定理§2.2简单随机抽样的实现§2.3简单估值法§2.4区间估计与样本量的确定§2.5比估计§2.6差估计与回归估计简单随机抽样的含义定义与符号几个基本定理简单随机抽样的含义“简单”的含义有关理论简单,抽样方式单纯、易操作随机抽样放回有序、放回无序、不放回有序、不放回无序放回无序、不放回有序通常没有使用价值;“放回有序”又称“放回简单随机抽样(SRSWR)”,所有可能样本数量最多,但理论结果简单;“不放回无序”又称“不放回简单随机抽样(SRSWOR)”,所有可能样本数量最少,操作最简单;本书的简单随机抽样指的是SRSWOR.定义与符号定义3从总体的N个单元中,一次整批地抽取n个单元,使任何一个单元被抽中的概率都相等,任何n个不同单元组成的组合被抽中的概率也都相等,这种抽样称为简单随机抽样。定义2按照从总体的N个单元抽取n个单元的所有可能不同组合构造所有可能的CNn个样本,从CNn个样本随机抽取1个,使每个样本被抽中的概率等于1/CNn,这种抽样成为简单随机抽样。定义1从一个单元数为N的总体中逐个抽取单元且无放回,每次都在所有尚未进入样本的单元中等概率地抽取直到n个单元抽完,这种抽样称为简单随机抽样。定义3定义2定义1定义与符号易于操作易于操作易于操作揭示本质易于操作综合两者定义与符号符号},,,{21NYYY有限总体,11NiiYNY总体均值niiyny11样本均值抽样的示性函数未被抽中个单元第,被抽中个单元第iiiYiYiD0,1指示了一个具体样本},,,{21NDDDD线性估计与非线性估计定义与符号不借助任何辅助变量,对总体进行直接估计,用样本特征的线性组合估计总体特征称为线性估计;而借助辅助变量,用样本特征的非线性组合表示总体特征,称为非线性估计。简单估计对简单随机抽样的线性估计有“简单线性估计(Simplelinearestimate)”之称,简称简单估计。yYyY为的为的如:SLE,SLE几个基本定理定理1对简单随机抽样,有:NjijiNNnnDDPNiNnDPjii,,2,1,,,)1()1(}1,1{,,2,1,}1{,Nn每一单元的入样概率为,)1()1(NNnn概率为任意两单元同时入样的不独立与jiDD定理2对简单随机抽样,有:(),var()1,1,2,,cov(,)1,,,1,2,,(1)iiijnnnEDDinNNNnnDDijijnNNN几个基本定理定理3;0)()1(YyE几个基本定理12121,,,{,,,}1||(=1,2,,)0,nNiNiiiyyyYYYYNMYMiNYYN设是来自总体的简单随机样本,有界,即存在一个与无关的数,使且则:;111)()2(22nOSNnyEY213231)2)(1()2)(()()3(nOYNNNnnNnNyENii221231432241)3)(2)(1()1)()(1(3)3)(2)(1(]6)16()[()()4(nOYNNNNnnNnNnYNNNNnnNnNnNyENiiNii几个基本定理.0较简洁了使定理形式不是本质条件,只是为Y几个基本定理有:一般情况下)0(Y;)()1(YyE22)1(111)var()2(YYSfnSNnny其中称1-f为有限总体校正系数(finitepopulationcorrectionfactor,fpc)抽样理论核心定理抽签法统计软件抽样随机数法其它方法抽签法做N个签,分别编上1到N号,完全均匀混合后,一次同时抽取n个签,或一次抽取一个签但不把这个签放回,接着抽第2个、第3个、……,直到抽足n个为止。缺点:(1)实施较麻烦,N较大时更不实用;(2)等概率性很大程度依赖于抽样个体是否摇匀。统计软件抽样例:某校为了解学生身体素质的基本情况,从全校学生总数N=1003人中抽选一个简单随机样本n=100人进行体检。开始抽样随机数法使用随机数表655473884476684793119584675837621803236105630542446344789809360560211226619962445345443644787409255805602113266199624476582257862763434560747959695072472695608869398045699293381257563236225869507247267793811661059778844329639916656082941925611039105848817760313431365698312620032735161117563158258790随机数表是数字0~9随机排列而成的,这些数字在表中的一位数、两位数、三位数等随机出现并有相同的概率。例:从N=345的总体中抽取一个n=15的简单随机样本。随机数法使用计算机随机数开始抽样使用随机数骰子92451580618243739067底视图顶视图永久随机数法抽样者给总体的第i个个体赋予一个[0,1]上的随机数Ri,Ri与第i个个体永久对应,抽样设计时,确定好抽样比f,Rif的对应单元入样。特点:(1)可保证多次抽样中有大量相同单元;(2)缺点是样本量不完全确定随机数法其他方法例如:某商店为了解顾客对商店服务的意见,在商店门口对走出商店的顾客进行调查,按时间顺序每五分钟抽选一顾客,当调查目标量与顾客离店时间完全独立时,这种按时间顺序系统抽出的样本可看作一个简单随机抽样。估值定理部分估计比例估计有限总体分布估计估值定理定理1的是总体设},,,{U,,,2121NnYYYyyyNiiNiiniiYYNSSNnnYyEyVyYNYynyn1222211.)(1111)()(.11其中即为方差)的均方偏差为(无偏时该估计的无偏估计是总体均值本均值的简单随机样本,则样一个样本量为估值定理系2211)(,SNnnNyNVYYyNNii为其均方偏差的无偏估计是总体定理2在简单随机抽样下,样本方差.)(11)(..)(1122122的无偏估计的均方偏差是估计量从而的无偏估计量是总体方差yVysNnnyvSyynsnii估值定理例题与练习例1调查某一社区居民用于食物消费的支出.若该社区有居民300户,共1100人.现简单随机抽样调查了其中的35户,得到数据如表所示,练习1为合理调配电力资源,某市欲了解5万户居民日用电量.用简单随机抽样抽取了300户进行调查,得到日用电量平均值为9.5kwh,样本方差为206.估计用电量平均值与该估计的均方偏差.(1)估计平均每月每户用于食物的支出;(2)若该社区居民总人数未知,估计该社区总人口数及该估计的标准差.(3)估计该社区人均月收入低于500的居民总的户月食物支出及该估计的均方偏差部分估计估计总体U中具有某一特征的“子总体”的数量参数,可令个个体不具有该特征第个个体具有该特征第iiYZii,0,)0,,0,,,,(),,(121,211nnNiiyyyzzzZZ本为样本作同样处理,则样的总值,对即具有该特征的子总体则部分估计111212122221)1()()(1111niniiiNiiynynnnNNzznNnnNsNnnN均方偏差的估计量为111niiniiynNznNzNZ的估计量为按简单估值法,NiiZZNNnnNZzN1222)(111)(E该估计的均方偏差为比例估计估计总体U中具有某一特征的个体单元的比例,可令个个体不具有该特征第个个体具有该特征第iiZi,0,1ZZNPNii11则nnzznpPnii111的无偏估计为按照简单估值法,比例估计)1(11111)(2ppNnnsNnnpv为均方偏差的无偏估计量)1()1(11)(V2PPNnnNSNnnp该估计的均方偏差为思考:总体具有某特征的个体总数该如何估计?练习2利用例1的数据估计该社区人均收入低于500元的户数N1,并估计其均方偏差。比例估计例2某大学有1万名本科生,现欲估计暑假期间参加了各类英语培训的学生所占比例,随机抽取了200名学生调查,得到p=0.35,估计全校参加培训学生比例P及该估的标准差。例题与练习例3从某地区15786位老人中,抽出一个含525位老人的简单随机样本,调查每位老人的性别及生活能否自理,结果如下:(1)估计该地区生活不能自理的老人人数及该估计的均方偏差;性别能否自理男女能211263不能3120(2)估计该地区生活不能自理的男性老人人数及该估计的均方偏差;有限总体分布估计了解有限总体指标量的分布情况,即要估计总体中具有某种特征的个体所占比例,可令tYtYYtiii当当,0;,1)(NiiYtNtF1)(1)(为则有限总体分布可表示的均值来估计的平均值,可用样本是量},,2,1),({)()(niytYttFii有限总体分布估计))(1)((111))((tFtFNnntFvnnn该估计的方差的估计为niinytntFtF1)(1)()(的估计量为Wald-Wolfowitz定理样本量的确定区间估计Wald-Wolfowitz定理,1),1()(1)(1,1),1()(1)(1N4,3),2,1}(,,{},,{1.4.212/12112/12111NiNiNrNiNNiNirNNiNiNiNrNiNNiNirNNiNNNNNNxNxOxxNxxNaNaOaaNaaNrNxxaa,有及大的满足:对两个实数序列的集合,是和设定理Wald-Wolfowitz定理.e21)var()(E,)()(11)var(,)E(,.),,(),,(z2112121112dtzLLLPNxxaaNLxaNLXaLxxXXN-t-NNNNiNNiNiNNiNNNNiNiNiNNNNN时,且则又令匀分布的随机变量的全部排列上均是取值为,对每一个区间估计1,14有界时,当估值法对简单随机抽样的简单NiiYN],[2121yvuyyvuyY的区间估计近似为一般n30就会有不错的近似.总值Y与比例P的区间估计是何形式?区间估计例1为合理调配电力资源,某市欲了解5万户居民日用电量.用简单随机抽样抽取了300户进行调查,得到日用电量平均值为9.5kwh,样本方差为206.求用电量平均值的置信度为95%的区间估计.例2某大学有1万名本科生,现欲估计暑假期间参加了各类英语培训的学生所占比例,随机抽取了200名学生调查,得到p=0.35,求全校参加培训学生比例P的置信度为95%的区间估计。样本量的确定按绝对精度决定样本量给定绝对精度d,在置信度1-α,要求1||dYyP1222/12222/1SuNdSun2222/1dSuS2未知时,可用察往法、预查法、类推法获得样本量的确定按相对精度决定样本量给定相对精度h,在置信度1-α,要求1hYYyP1222/12222/1CuNhCun2222/1hCu在缺乏总体的相关信息时,应该考虑取最大的n样本量的确定考虑费用决定样本量考虑