《管理统计学》谢湘生广东工业大学管理学院第5章总体分布、样本分布与参数估计提示•如何依据样本的信息推断总体的特征——参数估计问题样本总体样本统计量例如:样本均值、比例、方差有关概率概念的回顾通俗地说:概率是衡量某一特定事件的机会或可能性的数值度量。它可以用来度量如下一些问题中的可能性•如果提高产品的价格,则销售下降的“机会”有多少?•某种新的装配作业方法会在多大“可能性”上提高生产率?•某项工程按期完成的“可能性”有多大?•新投资赢利的“机会”有多大?概率在决策过程中起着重要作用,它提供了一种机制来衡量、表达和分析与未来事件相联系的不确定性。一些相关概念随机实验至少有两个或两个以上的结果但事先不知道会发生哪个结果的过程。随机事件(简称为事件)一个随机实验的可能结果称为基本事件。所有基本事件的集合称为总体(样本空间)。总体的子集称为随机事件。概率的定义(见教材p2)。任何满足定义中三个条件的函数P(A)都可以作为一种合适的概率分配方式。常用的概率分配方式有:古典法(抛掷硬币)、相对频数法(产品销路调查)和主观法(体育比赛结果预测)。5.1总体分布与样本分布本章的总体(PopulationorUniverse)是指研究对象的全体。并且先研究只有一个特征(指标或变量)的总体。这样表述总体特征的变量可以看成一个一维随机变量。例如我们在某个研究中关注广州市的某区居民的某年经济收入情况,我们在这个问题中的总体就是广州市某区居民的全体,但我们实际上关注的是该区居民该年的经济收入这样一个特征,我们可以用一个变量X来表征我们任意选取的一个该区居民该年的收入。则X是一个一维随机变量,而我们研究的总体实际上是这一随机变量取值的全体。因此,总体也可理解为一个随机变量取的值全体。5.1.1总体与总体分布更准确地说,一维随机变量是指反映某总体特征取值,且具有如下特点的变量X:(1)在同一条件下可以无限次重复取值;(2)取值的结果可能有多个,但不确定;(3)事先不知道取值结果(Outcome)。由此可知,随机变量可以理解为“随机实验(随机地抽取一个个体)”结果的数值性描述。随机变量取值的概率分布,就称为总体分布。一个随机变量取给定值或属于一给定值集合的概率所确定的函数称为该随机变量的概率分布。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布完全确定。Xx1x2…xn…P(X)p1p2…pn…无论是理论研究还是解决实际问题,知道一个随机变量取各种可能值的概率情况(概率分布)都是十分重要的。离散随机变量的概率分布。设X为取相异值x1,x2,…xn,…的离散随机变量,则函数iixXnixXPxf,0,,,2,1),()(称为X的概率分布或概率分布函数(probabilitydistributionfunction,PDF),其中P(X=xi)为离散随机变量X取xi值的概率。(1)离散随机变量的概率分布(2)连续随机变量的概率密度函数设X是连续随机变量,x是X取的值,若函数f(x)满足下列条件:)()(1)(0)(bxaPdxxfdxxfxfba则称f(x)为X的概率密度函数(probabilitydensityfunction,PDF),其中P(axb)表示X在区间(a,b]取值的概率。有时也称下式定义的函数为X的概率分布函数:xdxxfxF)()(连续型随机变量取给定值的概率为零。f(x)xab)()(bxaPdxxfba5.1.2随机样本与样本观察值从重复抽样的角度看“每次从总体中随机抽取个体”可理解为一个随机实验。随机样本:表征n次抽取个体的随机抽样的一组随机变量X1,X2,…,Xn.样本观察值(样本数据):n次随机抽样的结果:x1,x2,…,xn(称为随机变量X1,X2,…,Xn的样本观察值)。n称为样本容量。注:x1,x2,…,xn也可以看成随机变量X的n次重复抽样的结果。大写的英文字母:随机变量小写的英文字母:随机变量的观察值例抛掷一个均匀的骰子,假设骰子的六个面分别标有数字1,2,3,4,5,6。用X标识骰子落地后朝上一面的数字。则X是离散随机变量。对该随机变量进行一次抽样,其实就是掷该骰子一次。第i次抽样,就是第i次掷骰子,其结果的表示:事前事后Xixi易见,Xi其实就是X5.1.3样本分布函数设x1,x2,…,xn是随机变量X的样本观察值,将它们按大小顺序排列,排序后为x1x2…xn,ki为小于xi+1的样本值出现的累积频次,n仍为样本容量,则可得到样本累积频率分布函数如下xxxxxnkxxxFniiin当当当,1,/,0)(11样本累积频率分布函数又简称为样本(累积)分布函数,它是总体(累积)分布函数的近似,n越大,就越接近总体分布,如图。对于有限总体,其累积概率分布函数不连续,是阶跃式的。样本的累积分布函数也是阶跃式的。如图所示。样本(累积)分布函数是总体(累积)分布函数的近似,n越大,就越接近总体分布HighestYearofSchoolCompleted201918171615141312111098765430MissingCumulativePercent1201008060402001991年美国一般社会调查(1991U.S.GeneralSocialSurvey)数据中被调查对象”接受学校教育的最高年限”的样本累积分布图5.1.4格利文科(Glivenko)定理(样本分布与总体分布的关系)格利文科定理:当n趋于无穷大时,Fn(x)依概率1(关于x)均匀地收敛于总体分布F(x).格利文科定理的数学表达如下:1)0)()(suplim(xFxFPnxn格利文科定理是用样本特征推断总体特征的依据。这表明当n充分大时,样本分布Fn(x)是总体分布F(x)的一个良好近似。是连续随机变量若是离散随机变量若XdxxxfXpxxnxiiiPnii,)(,111是连续的若是离散的若XdxxfxXpxxxnsiiiPnii,)()(,)()(1122122122例如,利用格利文科定理可以证明:即样本均值依概率收敛于总体均值。即样本方差依概率收敛于总体方差。5.1.5随机样本的均值函数对于随机样本X1,X2,…,Xn,定义样本的均值函数(简称为样本均值)为niiXnX11由于式中Xi是随机样本(随机变量),因此作为随机样本函数的是随机变量X比较样本数据的均值niixnx11它可以看成是的观察值X5.1.6随机样本的方差函数对于随机样本X1,X2,…,Xn,定义样本的方差函数(简称为样本方差)为niiXXnS122)(11由于式中Xi是随机样本(随机变量),因此作为随机样本函数的S2是随机变量比较样本数据的方差niixxns122)(11它是S2的观察值5.2统计量与统计量的分布5.2.1统计量的定义统计量是不含未知参数的、随机样本X1,X2,…,Xn的函数注意统计量是随机样本X1,X2,…,Xn的函数,因而也是随机变量),,,(21nXXXf在上面定义的函数中将每个随机样本Xi用其观察值xi代替,计算的结果f(x1,x2,…,xn)称为统计量的值。也可以直接将f(x1,x2,…,xn)看成统计量的观察值。例子例如一项关于浙江省白领(收入为4000元-10000元)的职员的调查认为有60%白领患失眠症。样本1样本2样本3如果在这个调查中样本容量为100,则=(样本中失眠的人数)/(样本容量)是一个统计量。1.是某一样本统计量的全部可能取值的概率分布。2.现实中不可能抽出所有样本,因此统计量的抽样分布实际是一种理论概率分布。统计推断中,常用的理论概率分布:正态分布、2分布、t分布和F分布。3.提供了样本统计量稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。样本分布(samplingdistribution)5.2.2由标准正态分布的随机样本所引出的几个重要统计量的分布1.正态分布与标准正态分布设X服从均值为μ,方差为σ2正态分布,即X~N(μ,σ2),则其分布密度函数为222)(21)(xexf特别地,当μ=0,σ2=1时正态分布称为标准正态分布。任何一个正态分布X~N(μ,σ2),作变换XZ就可化成标准正态分布,即Z~N(0,1)。正态分布有许多特点:例如它是对称的。正态变量大约有68%的可能性在离均值一个标准差的范围内取值;大约有95%的可能性在离均值1.96倍标准差的范围内取值。几乎不在离均值3倍标准差以外的地方取值。68%95%99.7%例如设X~N(54,0.852),要计算P(X≤52)。则可以这样计算:0094.09906.01)35.2(1)35.2(1)35.2(85.0545285.0545285.054)52(ZPZPZPXPXPx(x)xx0.000.010.020.030.040.050.060.070.080.090.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.90.50000.53980.57930.61790.65540.69150.72570.75800.78810.81590.84130.86430.88490.90320.91920.93320.94520.95540.96410.97130.97720.98210.98610.98930.99180.99380.99530.99650.99740.99810.50400.54380.58320.62170.65910.69500.72910.76110.79100.81860.84380.86650.88690.90490.92070.93450.94630.95640.96480.97190.97780.98260.98640.98960.99200.99400.99550.99660.99750.99820.50800.54780.58710.62550.66280.69850.73240.76420.79390.82120.84610.86860.88880.90660.92220.93570.94740.95730.96560.97260.97830.98300.98680.98980.99220.99410.99560.99670.99760.99820.51200.55170.59100.62930.66640.70190.73570.76730.79670.82380.84850.87080.89070.90820.92360.93700.94840.95820.96640.97320.97880.98340.98710.99010.99250.99430.99570.99680.99770.99830.51600.55570.59480.63310.67000.70540.73890.77030.79950.82640.85080.87290.89250.90990.92510.93820.94950.95910.96710.97380.97930.98380.98740.99040.99270.99450.99590.99690.99770.99840.51990.55960.59870.63680.67360.70880.74220.77340.80230.82890.85310.87490.89440.91150.92650.93940.95050.95990.96780.97440.97980.98420.98780.99060.99290.99460.99600.99700.99780.99840.52