06-抽样分布与参数估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

统计学原理第六章抽样分布与参数估计抽样分布、参数估计和假设检验是推断统计的三个中心内容统计学原理第一节抽样分布统计学原理基本概念统计量:由样本构造出来,不依赖于任何总体参数的函数。参数:描述总体分布状况的数。统计学原理抽样分布抽样分布:统计量的分布形式统计量的分布依赖于总体的分布,同时与抽样方式也存在相关。一般讨论统计量的抽样分布时,总是基于有放回的简单随机抽样。o有放回简单随机抽样:从总体中抽出一个单位后,将其放回总体,再抽选下一个单位。o有放回简单随机抽样的各个样本单位之间是相互独立的。统计学原理抽样分布的实验使用1999年中国2159个县级行政区人口数资料进行实验。从所有县中,分别随机抽选10、30、100、200个县,计算其人口数的平均数。将同一实验反复进行200次,观察平均数的分布规律。o说明:为简化实验起见,在此进行的是无放回实验,结果与有放回的情况略有差异。统计学原理N=1072.767.762.657.652.547.542.537.432.427.322.3N=10时的抽样分布80706050403020100Std.Dev=10.08Mean=46.0N=200.00N=3072.569.666.663.760.757.854.951.949.046.043.140.137.234.231.328.425.422.5N=30时的抽样分布80706050403020100Std.Dev=6.47Mean=46.6N=200.00N=10072.770.067.464.762.159.456.854.151.548.846.243.540.938.235.632.930.327.625.022.3N=100时的抽样分布80706050403020100Std.Dev=3.14Mean=46.1N=200.00N=20070.6966.2761.8557.4453.0248.6044.1939.7735.3530.9426.5222.10N=200时的抽样分布806040200Std.Dev=2.23Mean=46.24N=200.00统计学原理样本均值的抽样分布特征N30时,样本均值服从正态分布。样本均值以总体均值为期望值样本均值的标准差为总体标准差除以样本量的平方根。n,XxEx)(统计学原理样本均值分布与中心极值定理正态总体中,样本均值的分布仍为正态分布。非正态总体,根据中心极值定理统计学原理样本均值抽样特征的推导统计学原理统计学原理统计学原理无放回条件下的简单随机抽样统计学原理无放回条件下抽样公式的简化)1(122222fnNnNnNnNnxxf=n/N,称为抽样比nNnfnxx2222)()1(若由上述的推导可见,在总体单位数特别大的情况下,有放回与无放回抽样的效果是相同的。统计学原理例题:关于扑克牌的游戏从一副扑克牌(52张)中,有放回地抽出30张,其平均点数的分布规律如何?如果以点数来赌胜负,什么区间的胜率是95%?统计学原理统计学原理第二节参数估计主要讨论总体平均数的参数估计统计学原理参数估计的一般问题参数估计:用样本统计量去估计总体的参数。估计量与估计值o用于估计总体参数的样本统计量的名称叫估计量;o根据一个具体样本计算出来的估计量的数值叫估计值。统计学原理点估计与区间估计点估计是用样本统计量的某个取值直接作为总体参数的估计值。区间估计(IntervalEstimate)是在点估计的基础上给出总体参数估计的一个区间范围。总体参数的估计区间,称为置信区间。统计学原理置信度如果将构造置信区间的步骤重复多次,置信区间中包含总体真值的次数所占的比例称为置信水平(ConfidenceLevel)。也可称为置信度或置信系数(ConfidenceCoefficient)。统计学原理置信度与置信区间的关系以正态分布为例,当置信度为P时,置信区间为[μ-tσ,μ+tσ]其中,μ为期望值,σ为标准差。T称为概率度,以下为对应关系概率度(t)概率值(p)概率度(t)概率值(p)1.2880%168.27%1.6490%295.45%1.9695%399.73%2.5899%统计学原理评价估计量的标准无偏性(Unbiasedness)o估计量的期望值等于总体参数值。有效性(Efficiency)o估计量的标准差最小。一致性(Consistency)o大样本获得的估计量比小样本更接近总体参数值。统计学原理有放回条件下的简单随机抽样依据:样本平均数的分布特征o1.样本量n>30时,样本平均数服从正态分布o2.样本平均数以总体平均数为期望值o3.样本平均数的方差为nx22统计学原理导入:估计样本平均数的范围某总体方差为100,平均值为40,抽出一个36个单位构成的样本,试在95%的置信度水平下,估计样本平均数的范围。统计学原理统计学原理从前例逆推已知某总体方差为100,其一个由36个单位组成的样本的平均数为50,试在95%的置信度水平下,估计总体平均数的置信区间。统计学原理统计学原理统计学原理总体标准差的替代对总体均值进行估计时,需要使用到总体标准差的数值。当总体标准差未知时,可以使用样本标准差作为总体标准差的替代。1)(2nxxsi统计学原理例题:估计总体平均数一次调查中获得了36个样本的数据如下233539273644364246433133425345544724342839364440394938344850343945484532试在95%的置信度水平下,估计总体平均数的置信区间。统计学原理计算结果计算样本平均数:X=39.5计算样本标准差:s=7.7736令:总体标准差=样本标准差,计算抽样误差为1.295695%置信度对应的T值为1.96得总体平均数的置信区间为:o上限:39.5+1.96×1.2956=42.04o下限:39.5-1.96×1.2956=36.96统计学原理对计算结果的说明严格地说,在这个例子中,不应当根据正态分布进行估计,而应当使用T分布进行估计。如果使用T分布,自由度为35,95%置信度的概率度(t)是2.03,而非1.96。计算出来的置信区间比正态分布的情况要略大一些。置信区间略大的原因,在于使用S替代总体标准差时,本身也包含了一定的误差。实践中,社会调查的样本量一般都比较大,正态分布与T分布的差异不明显,因此可以用正态分布进行近似分析。例如,当样本量为200时,T分布的95%概率度为1.9719,与正态分布的1.96已经没有太大区别了。统计学原理第三节常见的参数估计题型本章为选修内容,涉及到数理统计中较多知识,需要通过习题来加以掌握。统计学原理估计中的要点参数估计是从统计量的抽样分布入手,利用统计量的分布特征,倒推出总体参数的置信区间。o所有分布特征,都是基于统计量的抽样分布o总体参数是常数,统计量是随机变量。o在参数估计时,将统计量视为常数,总体参数视为变量。注意:这种说法是不严格的,因为总体参数是常数,不是随机变量统计学原理助记方法统计学原理一个总体参数—总体均值正态总体,方差已知;o或非正态总体,大样本,方差已知。22~(0,1)(,)XXXaaxzNnxzxznn置信区间:注意:Z取a/2的原因在于此时置信区间是最小的。统计学原理一个总体参数—总体均值正态总体,方差未知2~(1):axttnsnsxtn置信区间t分布以正态分布为渐近分布,一般当n大于30时,t分布与正态分布已经十分接近,可以使用正态分布来进行处理统计学原理总体比例的区间估计在大样本的情况下,样本比例P的抽样分布为正态分布。可以利用正态分布进行区间估计。统计学原理比例估计的标准差比例估计的情况下,如果未知总体方差,可以用样本方差替代。严格的计算公式应当为在实践中,经常直接使用p(1-p)作为近似。2(1)1nsppn统计学原理一个总体—总体方差正态总体的条件下,样本方差服从n-1个自由度的卡方分布。统计学原理两个总体参数—均值之差两个总体均值之差:独立样本,大样本统计学原理两个总体参数—均值之差两个总体均值之差:独立样本,小样本o两个总体的方差未知,但相等;o两个总体的方差未知,不相等,但样本量相等;o两个总体的方差未知,不相等,样本量不相等。均使用T分布,主要区别在于方差的计算方法和自由度。统计学原理两个总体均值之差:匹配样本一个样本中的数据与另一样本相对应,可以直接计算对应样本的差的分布。大样本情况下:两总体均值之差服从正态分布。小样本情况下:假定均值之差服从正态分布,使用样本标准差代替总体标准差,计算T分布。统计学原理两个总体参数—比例之差比例之差:大样本下,服从正态分布。在估计时使用样本标准差替代。统计学原理两个总体的方差比样本方差比的抽样分布为F分布。可得:221212122212122(1,1)(1,1)sFnnFnns222221211222122ssssFF统计学原理第四节样本量的计算统计学原理样本量的确定估计总体均值时样本量的确定统计学原理总体标准差的确定根据以往的经验数值推算通过试访问推算采用序贯抽样方法在比例估计时,使用p(1-p)的最大值替代。o比例估计时,方差为:p(1-p)o可知,p(1-p)的最大值为0.25。统计学原理比例估计时的样本量推算在校园内估计学生拥有手机的比例,希望在95%的置信水平下,估计的绝对误差不超过5个百分点(5%),求样本量22221.96,0.250.05385nMaxn取则有统计学原理思考题:收视率估计某电视台欲在95%的置信度水平下,对电视节目的收视率作为有效的估计,试考虑样本量应当为多少?问题:若确定估计绝对误差为5%,则样本为385户,是否可行?若考虑估计相对误差为10%,则样本量应当为多少?统计学原理其他样本量估计的情况估计样本比例时样本量的确定估计两个总体均值之差时样本量的确定估计两个总体比例之差时样本量的确定以上问题,均可通过参数估计的公式进行逆推求得。统计学原理第五节其他抽样方式的讨论统计学原理分层抽样kiiiinWx12W:各层单位数所占比重σ2:层内方差统计学原理整群抽样12RrRrxR与r:群的总数和样本群数量δ2:群间方差统计学原理多阶段抽样F:抽样比N和M:一级和二级单位的单位数S2:一级与二级单位的方差22221111SmnfSnfx统计学原理设计效应机抽样的方差相同样本无放回简单随的方差所考虑抽样设计估计量deff当deff因子小于1时,说明抽样设计的效率高于SRS。如果一个复杂抽样的deff因子可以估计,对应相同精度的简单随机抽样样本量n,复杂抽样设计的样本量n’为:N’=n×deff

1 / 55
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功