1第四章抽样分布与参数估计第一节频率、概率第二节概率分布第三节抽样分布2第一节频率、概率与概率分布一、随机事件与概率(一)随机试验与事件随机现象的特点是:在条件不变的情况下,一系列的试验或观测会得到不同的结果,并且在试验或观测前不能预见何种结果将出现。对随机现象的试验或观测称为随机试验,它必须满足以下的性质:(1)每次试验的可能结果不是唯一的;(2)每次试验之前不能确定何种结果会出现;(3)试验可在相同条件下重复进行。3例:投掷一粒均匀的六面体骰子,出现的点数有可能是1、2、3、4、5、6共六种。这六种结果是基本结果,不可以再分解成更简单的结果了,所以Ω={1,2,3,4,5,6}为该试验的样本空间。“出现点数是奇数”这一事件就不是简单事件,它是由基本事件{1},{3}和{5}组合而成的。我们通常用大写字母A,B,C,…来表示随机事件,例如,设A表示“出现点数是奇数”,则A={1,3,5};设B表示“出现点数是偶数”,则B={2,4,6}。4(二)概率1.概率的定义概率就是指随机事件发生的可能性,或称为机率,是对随机事件发生可能性的度量。随机事件A发生可能性大小称为事件A发生的概率,记为:P(A)=p。正确理解和计算随机事件的概率是进行统计推断和统计决策的基础按不同的观点和不同情的况,概率有古典概率、试验概率和主观概率三种不同的解释52.古典概率起源于17世纪很流行的赌博输赢的估计。设事件A是样本空间Ω中的一个随机事件,事件A的古典概率定义为:nmAAP数基本事件含的所数基本事件含的所6例:设一个袋子中装有白球2个,黑球3个。从中随机摸出1只球,问刚好是白球的概率有多大?解:由于摸出的任何1只球都形成一个基本事件,所以样本点总数为n=5。用A表示摸出的是白球事件,则A由两个基本点组成,即A={白球,白球},有利场合数m=2。因此,刚好摸出白球的概率为P(A)=m/n=2/5=0.473.试验概率古典概率在应用上受到两个条件的限制:一是随机试验的结果只有有限个,二是这些结果出现的可能性相同。如果采用试验概率,就不受上述条件的限制4.主观概率在实际问题中,有些试验是无法在相同的条件下重复进行。如:股价指数在未来一周内上升的可能性有多大。只能凭经验进行主观的估计。82.概率的基本性质性质11≥P(A)≥0。性质2P(Ω)=1。性质3若事件A与事件B互不相容,即AB=Ф,则P(A∪B)=P(A)+P(B)。推论1不可能事件的概率为0,即:P(Ф)=0。推论2P()=1-P(A),表示A的对立事件,即它们二者必有一事件发生但又不能同时发生。AA9第二节随机变量概率分布随机变量X是定义在样本空间Ω={ω1,ω2,…,ωn}上的一个函数,这个函数的取值随试验的结果不同而变化。这个函数还要求满足条件:对任意的实数x,Xx是随机事件。如果随机变量所有可能的取值是有限的,或可排成一列的,这种随机变量称为离散型随机变量;另一种情况是随机变量的取值范围是一个区间或整个数轴,这种随机变量称为连续型随机变量。1.离散型随机变量的概率分布设离散型随机变量X的所有可能取值为x1,x2,…,xn,…,相应的概率为p(x1),p(x2),…,p(xn),…。用表格统一表示出来是:10Xx1x2…xn…Pp(x1)p(x2)…p(xn)…这称为离散型随机变量X的概率分布。性质:(1)0≤p(xi)≤1(i=1,2,…);(2)定义:离散型随机变量X的期望值为性质:其中X1,X2都是随机变量,α,β是任意常数。iixp1IiixpxXE2121XEXEXXE11定义:离散型随机变量X的方差为方差的平方根σ称为标准差。方差σ2或标准差σ反映随机变量X相对其期望值的离散程度,σ2或σ越小,说明期望值的代表性越好;σ2或σ越大,说明期望值的代表性越差。性质:对于任意的α,D(αX)=α2D(X)成立iiixpxXEXD222)(122.连续型随机变量的概率分布设X是R.V.,x是一实数.记F(x)=P(Xx)。该函数就是随机变量X的分布函数。分布函数的导数称为密度函数,记作p(x)。性质(1)p(x)≥0(2)(3)1dxxpbaxxpbXapd)()(abxP(a≤xb)13定义:连续型随机变量X的期望值为方差为xxxpXEd)(xxpxXEXDd)(22214例:某大学英语考试成绩服从正态分布,已知平均成绩为70分,标准差为10分。求该大学英语成绩在60—75分的概率。)(.).()(6070707570101010105053286075XpZpXp15第三节抽样分布一、抽样的基本概念二、抽样分布(一)重复抽样分布(二)不重复抽样分布16一、抽样的基本概念抽样涉及的基本概念有:总体与样本(见第一章)样本容量与样本个数总体参数与样本统计量重复抽样与不重复抽样这些概念是统计学特有的,体现了统计学的基本思想与方法。17总体和样本(参见第1章)1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用N表示。2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用n表示。3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。18样本容量与样本个数样本容量:一个样本中所包含的单位数,用n表示。样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!)19总体参数和样本统计量总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量:根据样本分布计算的指标。是随机变量。20平均数标准差、方差成数参数、2p统计量S、S2P总体X21二、抽样分布概念:由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。(某一统计量所有可能的样本的取值形成的分布。)包括以下内容重置抽样分布不重置抽样分布22重置抽样分布--样本平均数的分布某班组5个工人的日工资为34、38、42、46、50元。=422=32现用重置抽样的方法从5人中随机抽2个单位构成样本。共有52=25个样本。如下图。23样本样本平均数X样本样本平均数X34,3434,3834,4234,4634,5038,3438,3838,4238,4638,5042,3442,3842,4242,4642,5034363840423638404244384042444646,3446,3846,4246,4646,5050,3450,3850,4250,4650,504042444648424446485024样本平均数的分布样本平均数X频数343638404244464850123454321合计2525验证了以下两个结论:抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用表示。()()XfEXXf42元()()()XXfXf22216元X()EX()nX22Xn26由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下正态分布从分布形式看,当总体为非正态分布时,样本均值的抽样分布随着样本容量的扩大而趋近于正态分布2(,)Nn27样本成数的分布总体成数p是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是N,总体中有该特征的单位数是N1。设x是0、1变量(总体单位有该特征,则x取1,否则取0),则有:1NpxN28样本成数的分布现从总体中抽出n个单位,如果其中有相应特征的单位数是n1,则样本成数是:P也是一个随机变量,利用样本平均数的分布性质结论,即有:1nPn()11EPpppppPnnn29不重置抽样分布样本均值的分布性质:样本成数的分布性质2()()1XEXNnXnN()11EPpppNnPnN30抽样分布总结样本平均数的分布样本成数的分布重复抽样不重复抽样()EX()nX1ppPn()EX()EPp2()1NnXnN()EPp11ppNnPnN31例1:求样本平均数的概率分布设某公司1000名职工的人均年奖金为2000元,标准差500元,随机抽取36人作为样本进行调查,问样本的人均年奖金在1900~2200元之间的概率有多大?2000,500,36n(19002200)(1.22.4)PXPZ11190020001.250036Xzn2220020002.450036z8768.02)4.2(2)2.1(FF1.22.400.10.20.30.40.5-4-3-2-101234(2.4)(1.2)(2.4)2FFF32例2:某地区职工家庭的人均年收入平均为12000元,标准差为2000元。若知该地区家庭的人均年收入服从正态分布,现采用重复抽样从总体中随机抽取25户进行调查,问出现样本平均数等于或超过12500元的可能性有多大?()nXn20001200020002540025,,,()()(.)pXpZpZ1250012000125001254001094.02)25.1(5.0F33例3某商场推销一种洗发水。据统计,本年度购买此种洗发水的有10万人,其中6万是女性。如果按不重复随机抽样方法,从购买者中抽出100人进行调查,问样本中女性比例超过50%的可能性有多大?(50%)?pP(1)0.60.4100()(1)(1)0.00489100100000ppnPnN()50%60%2.040.00489PpPz(50%)(2.04)pPpZ9793.05.02)04.2(F660%,()(1)10pppp