总体均值的区间估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

统计学-6统计推断:对总体参数的估计抽样:总体、样本、个体、样本容量统计量、参数抽样方法抽样分布:样本均值:中心极限定理;样本均值的标准化样本比例:np≥5和n(1-p)≥5,p~N(π,π(1-π)/n)χ2分布:xi2,χ2(n)~N(n,2n)t分布:趋近标准正态分布F分布:F(m,n),F=(X/m)/(Y/n)自由度(m,n)上章复习-内容概要ni1简单随机抽样RND(RV.UNIFORM(a,b)=ROUND(RAND()*(b-a)+a,0)系统抽样起点,距离n分层抽样先分类,再在每类中简单随机抽样整群抽样先分群,再随机抽群进行普查或简单随机抽样多级抽样总体-群-子群-子群的子群……,再普查或简单随机抽样上章复习-概率样本上章复习-抽样误差样本统计量和总体参数之间的差异成为样本误差。利用样本,可以估计总体,但不能保证完全准确。标准误:样本统计量的抽样分布的标准差,称为统计量的标准误(standarderror),标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度。如样本均值的标准误:σ/√n。当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误(standarderrorofestimation)。如样本均值的标准误:s/√n。上章复习-计算机软件的应用随机数的产生抽取随机样本随机生成正态分布样本样本均值抽样分布作图样本比例抽样分布随机模拟上章复习-作业课后练习引言推断统计两个重点:估计、假设检验估计:点估计区间估计样本量估计量:统计量是样本的(不含未知总体参数的)函数,用于估计的统计量称为估计量。估计值:若得到一组观察值,代入估计量得到具体的数值,成为参数的估计值。在不引起混淆的场合可统称为估计。点估计样本统计量估计总体参数。一致的最小方差的无偏的估计量^θ来估计总体参数θ。一致无偏有效如样本均值、方差、比例区间估计例:民意调查中说“支持率为85%加减5%的误差,其置信度为95%”。点估计85%,置信区间(80%,90%),80%置信下限,90%置信上限,置信度为95%,α(显著性水平)为0.05。区间估计置信度:重复构造置信区间,这些区间中包含总体参数真值得区间数所占的比率。1)每一个置信区间都是随机的,因样本不同而不同,不是所有的区间都包含总体参数的真值。2)实际问题中,往往只取一个样本,得到一个置信区间。无法确定这个区间是否包含总体参数真值,只能希望它是大量包含了总体参数真值得区间中的一个。例:对某班成绩进行多次抽样,有95%的样本得到的区间包含了全班学生的平均分,有5%的样本得到的区间没有包含平均分。其中一个样本得到的置信区间是60-80,能不能说60-80这个区间以95%的概率包含全班学生的平均分,或全班学生的平均分有95%的概率落在60-80之间?总体均值的区间估计-正态总体、方差已知样本均值的期望值:μ,样本均值的标准误:σ/√nZ(样本均值)=(样本均值-μ)/(σ/√n)μ=样本均值-Z(样本均值)(σ/√n)总体均值的区间估计-正态总体、方差已知例:某地区成年人的睡眠时间服从正态分布,总体的标准差为0.3小时。一项随机调查得到16个成年人的平均睡眠时间为7.3625小时。请给出该地区成年人平均睡眠时间的点估计和95%置信区间。?总体均值的区间估计-大样本、方差未知正态或非正态总体、方差未知、大样本当n≥30时,样本均值抽样分布趋近正态分布,并可以用s代替σ总体均值的置信区间为:例:为了解某企业员工平均收入,随机抽取80名员工为样本,得样本均值为2024.36元,样本标准差为435.705元,请问1)总体均值是多少?2)总体均值的一个合理范围是什么?3)结果表示什么?总体均值的区间估计-大样本、方差未知?T分布形态t分布自由度:n-1。总体均值的区间估计-正态总体、方差未知、小样本严格来说,选择Z值还是t值取决于总体标准差σ是否已知。一般假定总体服从正态分布。总体均值的区间估计-正态总体、方差未知、小样本例:某地区成年人的睡眠时间服从正态分布。一项随机调查得到16个成年人的平均睡眠时间为7.3625小时,样本标准差为0.4924小时。请给出该地区成年人平均睡眠时间的点估计和95%置信区间。?样本量、置信度、区间宽样本量确定,置信度增加,区间加宽;区间变窄,置信度降低。区间宽度固定,样本量增加,置信度增加置信度固定,样本量增加,区间变窄。软件计算:单个正态样本均值的区间估计正态总体、方差未知,按t值而非z值计算SPSSanalyze—descriptive—exploreAnanlyze-comparemeans-单样本t检验(和上面得到的结果一致)Excel工具-数据分析-描述统计-(按t值计算的结果)两个均值的区间估计两个独立正态总体μ1-μ2的区间估计假定样本量为m和n的独立样本x1,…,xm和y1,…,yn分别来自两个独立正态分布X~N(μ1,σ12)和Y~N(μ1,σ12)点估计:区间估计:两个均值的区间估计两个配对/相依正态总体μD=μ1-μ2的区间估计同一个人减肥前后的重量比较治疗前后的症状比较同样情况下对两种材料的某种性能的比较等(X,Y)代表配对样本,Di=Xi-Yi,假定D服从均值为μD=μ1-μ2的正态分布。软件计算:两个正态样本均值差的区间估计1)独立:SPSS:Analyze-comparemeans-independentsampleTTestsig如大于0.05,则没有证据认为这两个数据总体的方差不等。2)配对/相依SPSS:analyze—comparemeans—pariedsamplesTTest总体比例的区间估计求比例的置信区间,必须满足两个假定。满足二项分布的条件样本是计数的结果只有两种互斥的可能结果每次试验中,成功率保持不变每次试验室相互独立的np≥5和n(1-p)≥5。(保证中心极限定理的条件得到满足。)总体比例的区间估计样本比例标准误置信度为(1-a)的置信区间的公式:此公式仅适用于大总体,大样本。1)如此公式计算出来的区间包含了0或1,则说明样本量不够大。2)p越接近0或1,为了正态近似所需要的样本量就越大。总体比例的区间估计例:某企业调查职工流动原因,随机抽取200人为样本,其中140人表示他们离开企业的原因是因为无法和管理人员融洽相处。试分析基于这一原因离开企业的人员的真正比例,构造95%的置信区间。?解:p=140/200=0.7。总体很大,np=140≥5,n(1-p)=60≥5,样本量也足够大,p的抽样分布可以用正态分布近似。1-a=0.95,a/2=0.025,Z0.025=1.96总体比例之差p1-p2的区间估计可以证明,当n1和n2两者都很大,而且p1和p2不太接近0或者1时,p1和p2的抽样分布近似服从正态分布。总体比例的区间估计总体比例的区间估计例:某保险公司想比较在两个城市做广告的效果,从两个城市分别随机地调查了1000成年人,看过广告的比例分别为p1=0.26和p2=0.21,试求p1-p2的95%的置信区间。解:n=1000,大样本。p1和p2不太接近0或1。?估计总体均值时样本量的确定在重复抽样或无限总体抽样的条件下,取不小于结果的最小整数。三影响因素:1)希望达到的置信度(常选95%,Z值1.96,99%,Z值2.58);2)最大可容许误差E(如0.01);3)总体的变异程度,即总体的标准差。通常总体标准差未知:1)利用其它研究中的相同或类似样本的标准差代替;2)用极差估计:假定总体为近似正态分布,则越99.7%观测值都位于平均值加减3倍标准差之间,σ=R/6(参见第三章)3)进行预调查。正式调查前先选择一个初始样本,计算出其标准差,再用这一标准差计算出正式样本的容量。估计总体均值时样本量的确定估计总体均值时样本量的确定例:拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪的95%置信区间,希望估计误差为400元,应抽取多大样本??解:已知σ=2000,E=400,Za/2=1.96n=1.96220002/4002=96.04,取97。估计总体比例时样本量的确定在重复抽样或无限总体抽样的条件下,取不小于结果的最小整数。三个影响因素在π值未知的情况下1)利用其它研究中的相同或类似样本的标准差代替;2)进行预调查。3)通常取使π(1-π)最大的π值,即0.5。例:根据以往的生产统计,某产品的合格率为90%,现要求估计误差为5%,在求95%的置信区间时,应抽取多少产品为样本?估计总体比例时样本量的确定?解:已知π=0.9,E=0.05,Za/2=1.96。n=1.9620.9(1-0.9)/0.052=138.3,取139。作业课后练习

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功