第7章参数估计统计方法描述统计推断统计参数估计假设检验7.1参数估计1.用样本统计量去估计总体参数。2.估计量——用来估计总体参数的统计量估计值——一个具体样本计算出的统计量的数值参数估计的方法点估计区间估计二战中的点估计—德军有多少辆坦克?二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。N的另一个点估计公式是:N=m(1+1/k)-1,其中m是缴获到的最大的坦克编号,k是被俘虏坦克个数。假如你俘虏了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50-1=54。此处我们认为坦克的实际数略大于最大编号。从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!点估计含义:从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。1.点估计的可靠性用标准误差来衡量。2.一个具体的点估计值无法给出估计的可靠性度量区间估计含义:在点估计的基础上,给出总体参数估计取值的一个区间范围。样本统计量(点估计)置信区间置信下限置信上限区间估计的图示x95%的样本-1.96x+1.96x99%的样本-2.58x+2.58x90%的样本-1.65x+1.65xxxzx21.置信区间※由样本统计量对总体参数进行估计时的估计区间。在某种程度上确信置信区间中包含总体参数的真值2.置信水平(置信度、置信系数)※包含总体参数真值的置信区间占所有置信区间的比例。常用1-α表示置信水平。a.总体参数的真值是未知的、固定的,构造出的置信区间可能包含真值,也可能不包含真值;b.设置信水平为95%,则说明有95%的置信区间包含总体真值,有5%的置信区间不包含总体真值。练习题1.一个95%的置信区间是指()A总体参数有95%的概率落在这一区间内B总体参数有5%的概率落在这一区间内C在用同样方法构造的总体参数的多个区间中,有95%的区间包含该总体参数D在用同样方法构造的总体参数的多个区间中,有95%的区间不包含该总体参数2.根据一个具体的样本求出的总体均值的95%的置信区间()A以95%的概率包含总体均值B有5%的可能性包含总体均值C一定包含总体均值D要么包含总体均值,要么不包含总体均值置信水平αα/2Zα/290%95%99%0.100.050.010.050.0250.0051.6451.962.58常用置信水平的临界值(Zα/2值)评价估计量的标准1.无偏性2.有效性对同一总体参数的两个无偏估计量,标准差越小的估计量估计效果越好,称估计量越有效。3.一致性随着样本量的增大,点估计量的值越来越接近被估总体的参数。∧E(θ)=θ7.2一个总体参数的区间估计7.2.1总体均值的区间估计总体均值的置信区间=样本均值±边际误差•总体是否为正态分布•总体方差是否已知•样本是大样本还是小样本1.正态总体,方差已知或非正态总体、大样本2.分布未知,方差未知,大样本3.正态总体,方差未知,小样本~(0,1)/xzNn1.正态总体,方差已知或非正态总体、大样本样本均值X~N(μ,σ2/n)总体均值μ在1-α的置信水平下的置信区间为2xZn20.067.481.967.480.0247.45625xZn【例】某厂成批生产某种金属棒,其长度服从正态分布,标准差为0.06厘米,对一个由25根棒组成的随机样本进行了测量,平均长度为7.48厘米,求这批金属棒平均长度μ的置信度为95%的置信区间。解:总体服从正态分布,方差已知,置信度为95%则z0.025=1.96,20.067.481.967.480.0247.50425xZn在置信度为95%水平下,金属棒的平均长度在7.456~7.504厘米之间。【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36分钟)。解:虽然总体分布未知,但总体方差已知,样本量充分大,x=26,=6,n=100,Z/2=1.96176.27,824.24100696.126,100696.126,22nZxnZx在95%的置信水平下估计大学生平均每天参加锻炼的时间在24.824~27.176分钟之间。2.方差未知,大样本(n≥30)总体均值μ在1-α的置信水平下的置信区间为2sxZn【例】一家保险公司收集到由36位投保人组成的随机样本,他们的平均年龄为40岁,标准差为5岁,求这家保险公司的所有投保人的平均年龄在90%的置信水平下的置信区间。解:总体的分布未知,总体方差也未知,但所抽样本容量36为大样本,因此,求总体均值的置信区间可用样本标准差代替总体标准差置信区间为:25401.645401.3736sxZn则投保人平均年龄在90%的置信度下的置信区间为38.63岁-41.37岁。~(1)/xttnsn3.正态总体、方差未知、小样本用样本方差s2代替总体方差σ2样本均值经标准化处理后服从自由度为(n-1)的t分布总体均值μ在1-α的置信水平下的置信区间为2sxtn【例】某时装店的管理人员想估计其顾客的平均年龄,随机抽取了16位顾客进行了调查,得到样本均值为32岁,样本标准差为8岁,假定顾客的年龄近似服从正态分布,求该店全部顾客平均年龄在置信度为95%的置信区间。解:因为总体近似服从正态分布,方差未知,所抽样本为小样本,则总体均值的置信区间为0.025(161)0.025(161)8322.131324.26227.738168322.131324.26236.26216sxtnsxtn因此,有95%的把握估计全部顾客平均年龄在27.738至36.262之间。总体分布样本量σ已知σ未知正态分布大样本(n≥30)小样本(n≤30)非正态分布大样本(n≥30)2xZn2sxZn2sxtn2xZn2xZn2sxZn不同情况下总体均值的区间估计7.2.2总体比例的区间估计2(1)pn当样本为大样本时,样本比例p近似服从正态分布,(),Ep~(0,1)(1)/pzNn当总体比例π已知时,总体比例π在1-α置信水平下的置信区间为:/2(1)pzn实际情况中,π值是未知的,要被估计的,所以需要用样本比例p来代替π,则总体比例的置信区间为:/2(1)pppzn【例】某所大学想要了解应届毕业生在大四找到工作的学生中女生所占的比例,随机抽取了100名找到工作的应届毕业生,其中42人为女生。试以95%的置信水平估计该校找到工作的应届毕业生中女同学的比例的置信区间。解:已知n=100,zα/2=1.96,p=42/100=0.42/210.4210.420.421.96100pppzn0.420.097因此,该校找到工作的应届毕业生中女同学的比例为0.323-0.517【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。解:已知n=200,=0.7,n=1405,n(1-)=605,=0.95,Z/2=1.96ppp764.0,636.0200)7.01(7.096.17.0)ˆ1(ˆˆ2nppZp我们可以95%的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%~76.4%之间总体方差的区间估计1.估计一个总体的方差或标准差2.假设总体服从正态分布3.总体方差2的点估计量为s2,且4.总体方差在1-置信水平下的置信区间为1~1222nsn111122122222nsnnsn总体方差的区间估计221222总体方差的1的置信区间自由度为n-1的2总体方差的区间估计【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3解:已知n=25,1-=95%,根据样本数据计算得s2=93.212置信度为95%的置信区间为4011.12)24()1(2975.0212n3641.39)24()1(2025.022n39.18083.564011.1221.931253641.3921.9312522该企业生产的食品总体重量标准差的的置信区间为7.54g~13.43g一个总体参数的区间估计待估参数均值比例方差大样本小样本大样本2分布2已知2已知Z分布2未知Z分布Z分布Z分布2未知t分布7.3样本量的确定样本量、置信水平、置信区间三者的关系样本量置信水平置信区间不变不变扩大扩大提高降低不变提高扩大缩小缩小不变估计总体均值时样本量的确定2xZn边际误差2EZn22/22znE总体均值的置信区间为样本量圆整法则样本量与置信水平、总体方差、边际误差的关系样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本量越大;样本量与总体方差成正比,在其他条件不变的情况下,总体的差异越大,所需的样本量越大;样本量与边际误差的平方成反比,在其他条件不变的情况下,可以接受的边际误差的平方越大,所需的样本量越小;【例】某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要以95%的置信水平去估计每个顾客平均购物金额的置信区间,并要求边际误差不超过20元,应抽取多少个顾客作为样本?解:已知=120(元),Z/2=1.96,E=20(元)应抽取的样本容量为1392976.13820120)96.1(2222222EZn结论:应抽取139个顾客作为样本。【例】一家广告公司想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?解:已知2=1800000,=0.05,Z/2=1.96,E=500应抽取的样本容量为2866.27500)1800000()96.1(222222EZn估计总体比例时样本量的确定/2(1)pzn/2(1)Ezn总体比例在1-α置信水平下的置信区间为:边际误差样本量2/22(1)znE【例】一家市场调研公司想估计某地区有某品牌彩色电视机的家庭所占的比例。该公司希望对比例p