概率基础和抽样分布本章阐述的是统计推断(参数估计,假设检验)的理论基础第四章随机事件及其概率§1(免讲)随机现象:在一定条件下,可能发生,也可能不发生的现象称之。随机试验E:观察随机现象的,且具有如下特点的试验称为随机试验。1.试验具有明确的目的性;2.试验在相同条件下重复进行;3.试验的可能结果不止一个,而且所有可能结果都是可以事先确定和罗列出来的;4.每次试验的结果事前不能预知。一.随机试验随机事件随机事件:在随机试验E中,所有可能发生的结果都叫随机事件。随机事件的类型:1.基本事件(简单事件ei,ωi)2.复合事件(复杂事件)3.不可能事件(Ø)4.必然事件(Ω)二.事件的概率(一)古典概型nAPjiAAUAniAijinii1)(.3)(.2.1:),,2,1(1满足下列条件事件组(二)统计概率(经验概率)(三)主观概率A,B互相独立:P58↑12.,互不相容称BABA)()()()()()()(BPAPBA,PABABPBPAPBAP时当概率的加法公式)()()(,)()()()()(BPAPAB,PBABAPBPABPAPABP互相独立时当概率的乘法公式❖三.概率的加法公式与乘法公式:随机变量的概率分布§2概率论概括3个概念:互不相容、互相对立、互相独立2个公式:加法公式、乘法公式1个期望:广义的数学期望一.离散型随机变量的概率分布Xx1x2…xnPp1p2…pn10:iipp性质一.离散型随机变量的概率分布x012p0.250.50.25xxiixPxXPxF)()()(:分布函数【例4-1】P61表4-2120.250.751x)(xF0分布函数图像如下:❖二.连续型随机变量的概率分布21)()(1)(0)(:)(~:)(:21xxdxxfxXxPdxxfxfxfXxfX密度函数的性质记作的概率密度函数随机变量)()(:)()()(:xfxFdttfxXPxFx关系分布函数与密度函数的分布函数三.随机变量的数值特征(P64)(一)数学期望dxxfxpxXEii)()()()(:)()()()(:21iiniiXEXE,X,,XXnXEXEXXbXaEbaXE个独立的随机变量对于第二则第一数学期望的性质(二)方差)()()()]([()]([)(2222XEXEdxxfXExpXExXDiinXD,n,,iXDnXDXDnXXXDXDXX,X,,XXniiiiin22221)()21()()()()()(::当特别则第二则第一个独立的随机变量对于方差的性质)()(2XDabaXD抽样分布§3三种不同性质的分布1.总体分布2.样本分布3.抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)总体一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)样本样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的频率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本样本统计量的概率分布是进行推断的理论基础,也是抽样推断科学性的重要依据一.抽样分布(samplingdistribution)抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本例题分析设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxXNii25.1)(122NXxNii例题分析(1)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)(一)样本均值的抽样分布(例题分析1)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5(一)样本均值的抽样分布【例题1】分析625.0225.1)()(5.2)(22iixxiiixffxxDffxxE样本均值频数1.011.522.032.543.033.524.01样本均值的分布与总体分布的比较【例题1】分析=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x二.重复抽样条件下样本均值的抽样分布(数学期望与方差)1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/nnxD2)(XxE)(结论【例题2】分析现从总体中抽取n=2的简单随机样本,在不重复抽样条件下,共有4ⅹ3=12个样本。所有样本的结果为3,4─3,23,132,42,3─2,12─4,34,24,141,441,33211,2─1第二个观察值第一个观察值所有可能的n=2的样本(共12个)样本均值的抽样分布【例题2】分析325.1)1424(225.1)()(5.2)(22iixxiiixffxxDffxxE样本均值频数1.522.022.543.023.52三.不重复抽样条件下样本均值的抽样分布(数学期望与方差)1.样本均值的均值(数学期望)等于总体均值.2.样本均值的方差等于总体方差的1/n,再乘上修正因子.3.当N充分大时常以N代替(N-1))1()1()(22NnnNnNnxDXxE)(结论抽样分布的数字特征XxE)(nxD2)(重复抽样XxE)()1()1()(22NnnNnNnxD不重复抽样抽样平均误差:指的是样本统计量(样本均值,样本成数)的标准差,用字母μ表示.抽样平均误差计算公式:)1(22Nnnn重复抽样不重复抽样说明:1.2本应是总体的方差,当总体的方差未知时,用样本方差代替。n:样本容量N:总体单位数问题:抽样平均误差与那些因素有关?.,,.2计算抽样平均误差均按上式还是样本成数无论是样本均值px1.与样本容量有关,2.与总体的离散程度有关,3.与抽样方法有关,样本容量相同的情况下,小大n大大2不重复重复抽样平均误差与下列因素有关【例1】从一批产品中随机抽取100件,其中次品4件,求样本正品率的抽样平均误差.%96.110004.096.004.096.0)1(1004100::22nppp样本正品率解【例2】从10000件产品中按不重复抽样随机抽取1%,其中次品4件,求样本正品率的抽样平均误差.%95.1)01.01(10004.096.0)1(04.096.0)1(10041::22Nnnppp样本正品率解【例3】一批同型号产品由某厂两个车间按不同工艺生产,已知甲车间产品正品率为80%乙车间产品正品率为72%,现从该批产品中随机抽取100件,求样本正品率的抽样平均误差.06.010028.072.02.08.028.072.02.08.0:22n解正态分布§4二.正态分布的密度函数:(P73图4-7))(~21)(~2)(2122,xNXexfXxx简记为正态分布密度函数的性质:P73↓4..4.21)(.31)(0)(.2..12max只改变曲线的尖峭程度改变不变拐点轴平移图象沿不变改变对称图象关于直线,,xxxx,,xxfdxxfxfxxxxx❖三.正态分布函数及其标准化2)()1,0()10(~)(~:222xexfN,NxXY,xNX其密度函数称为标准正态分布则若定理11关于标准正态的分布函数dtezZPzZzPzFtzz2221)()()(注意!!此处F(Z)与P74式4.32不同!dtezZPzZzPzFtzz2221)()()(F(Z):在第五章中又称为置信度,Z称为概率度P75表4-8必须牢记的F(z)与Z对应表Z11.6451.9623F(Z)0.68270.900.950.95450.9973P76【例4-4】9545.0)2()22()1100900()10(~501000)501000(~:2FYPXP,NYXY,NX令产品寿命解P76【例4-5】68276827.010:6827.0)1()11()8.17.1()10(~05.075.1)05.075.1(~:42中号校服需裁制套数令身高解FYPXP,NYXY,NX1587.0)1(2121)1()7.1(1587.0)1(2121)1()8.1(FYPXPFYPXP15871587.010:4套数大号小号校服需各裁制)2()2()2,4(~2XPXPNX求已知8427.0)9973.06827.0(5.01)3(2121)1(2121)3()1()2()2()2()1,0(~24:FFZPZPXPXPXPNZXZ则令解1573.0))1()3((21)31()22()2(FFZPXPXP【例1】:)28()78()2,4(~2XPXPNX求已知04405.0)8664.09545.0(5.0)5.1(21)2(21)5.12()78()1,0(~24:FFZPXPNZXZ则令解8186.0)6827.09545.0(5.0))1()2((21)12()28(FFZPXP【例2】四.关于抽样分布的定理(一)正态再生定理已知2X正态总体抽样样本:容量为n)(~2nXNx当正态总体方差未知且样本容量n30(小样本),样本均值服从T分布.(一)正态再生定理=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)(二)正态逼近(中心极限定理)02X任意总体抽样样本:容量为n≥30))(2~nXNx近似(二)正态逼近中心极限定理(centrallimittheorem)X当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为σ2/n的正态分布一个任意分布的总体XxE)(xX中心极限定理(Lindeberg-Levy)nxnxdttxXxPxXDXXEXxxxniixnn21222112)2exp()(00)()(,,,,,lim其中则对于且都来自总体独立随机变量是一串设中心极限定理的意义:P