第三章配方设计中的数学方法1随机变量及其分布什么是随机变量,来看个例子:有一批产品共1000个,每个产品按质量可分为一等、二等和次品,分别用“1”“2”和“0”表示,那么我们说这1000个减速器的等级构成一个母体(也叫总体)每个产品的等级是个体。其中“1”是721个,“2”是213个,“0”是66个。从母体中随意取得的一个个体,叫随机变量,记为X。那么上例中,随机变量的概率分布列是:x120p721/1000213/100066/1000从这个分布列可看出,随机变量X的概率分布与母体分布是相同的。以后把母体分布就称为是相应随机变量X的概率分布。P用分布列、分布密度、分布函数具体表示母体分布的数字特征指的是相应随机变量的数字特征。实际中,我们不可能对所有的母体元素都进行统计,因此只能进行随机抽样检查或分析。就是说从母体取得一部分的个体,这部分个体叫子样。随机抽取子样有两种方法。一种是重复抽样,取一样品后又放回,这种抽法则每一个随机变量都是独立同分布,且与母体分布相同;另一种情况是取一样品不放回,如母体无限,随机变量仍是独立同分布,如母体有限,就并非如此。如子样容量为n,相对于母体容量N很小:n/N≤0.1如随机子样用X(X1,X2,…,Xn)表示,近似可看成独立同分布。同分布即指每一个随机变量分布都是母体分布,与母体分布相同。因此我们可通过研究子样的一些特点来推测或推导出母体函数分布的特征,以便于理解。2.子样分布类似于母体分布,有三种形式:频数分布和频率分布,经验分布函数和直方图。2.1.子样频数和频率分布:例:从橡胶车间取7种规格产品,检查每种规格的次品数得到子样(0,3,2,1,1,0,1)。把7个数从小到大依次排列,相同的数合并,得到下列频数表:上表称为子样频数分布。那么频率分布可用下表给出:X0123频数2/73/71/71/7X0123频数23112.2经验分布函数Rn*(x)定义:对任意实数x,子样值中小于或等于x的个数记为m(x),Rn*(x)=m(x)/n(n为子样容量),那么上例的经验分布函数表达式是:0,当x<02/7,当0≤x<1R7*(x)=5/7,当1≤x<26/7,当2≤x<31,当x≥3因此,Rn*(x)可表示n次试验事件{X≤x}发生的概率,它与分布函数具有相同的性质:非降性,右连续。Rn*(-∞)=0Rn*(∞)=1那么Rn*(x)与我们所关心的母体函数分布F(x)有何关系呢?按W.Glivenko定理,当n值很大时,Rn*(x)近似于F(x),所以我们可以用Rn*(x)来近似理解F(x)的性质。2.3直方图进行N次独立实验,事件A发生的次数≥0且≤N,母体的数量指标是离散量。前面所说的两种方法都适合于离散型随机变量的表达。对于连续量,可用分布密度来表示。相应的子样“密度”需用直方图来表示。在母体分布密度图中,用曲边梯形面积来表示此区间的分布几率,同样在直方图中,用子样在直方图中一个区间的面积代表此区间上的频率。举例测200个圆柱状橡胶件的直径,最小13.09,最大13.69。现把它们分成12个组,组距为0.05列表如下:各组范围组中值频数频率直方图纵坐标13.095~13.14513.1220.0100.213.145~13.19513.1710.0050.1……13.395~13.44513.42370.1853.7……13.645~13.69514.6720.0100.2为了使面积等于组频率,则纵坐标=频率/组距若n愈大,直方图越接近于子样分布密度函数f(x)的图像。那么分布密度f(x)的性质:1.f(x)≥02.P{a≤x≤b}=对开区间成立,或左闭右开,或左开右闭。()1fxdx()bafxdx子样的重要数字特征子样平均数:子样方差:11niixxnx2211()niisxxn作业:从母体中抽得容量为50的子样,其频数分布为X25710mi1612814计算x和s2。3.正态分布(高斯分布)的分布密度概率中其中σ>0,正态分布记为N(u,σ2)。举例:如u=0,σ=1,f(x)称为标准正态分布,记为N(0,1),其图像为过0轴,其分布函数记为Φ(x),数值可查表。2221()2xufxe正态分布性质有顶峰。有对称轴。x或x时y区间上的部分占总面积的68.3%区间上的部分占总面积的99.5%区间上的部分占总面积的99.7%证明可用积分计算,也可查表验证。023从上面的解释中我们可了解到,对一个随机变量来说,分布函数F(x)才是它最完善的描述。但在实际情况下,我们并不需要知道全部的概率性质,只需要知道这个随机变量x的几个特征数字,能反映该变量的变化值的集中位置和离散度就够了。其中最常用的数字特征是数学期望和方差。4.数学期望和方差4.1数学期望E(X)表示的是随机变量在数轴取值的集中位置,它说明随机变量x的值大多出现在哪里,可以说E(X)是随机变量的平均值,但这一平均值概念与算术平均值概念不同。离散型随机变量的E(X)连续型用分布密度f(x)代表E(X)()iiiEXxp()()EXxfxdxxX(1),X(2),…pP1,p2,…4.2方差用来衡量随机变量对E(X)的离散程度。DX=E〔X-E(X)〕2随机变量与E(X)之差的平方的数学期望。DX=E(X2)-〔E(X)〕2离散型:连续型:2()iiiXEXP2()()XEXfXdX数学期望的性质E(C)=C,其中C为常数。E(CX)=CE(X)E(X+Y)=E(X)+E(Y)推广X、Y相互独立,E(XY)=E(X)E(Y)11()()nniiiiiiECXCEX方差性质D(C)=0D(CX)=C2D(X)若X、Y相互独立,D(X+Y)=D(X)+D(Y)推广211()()nniiiiiiDCXCDX前面介绍了数学期望和方差的概念及性质,我们来看一下,正态分布的数学期望是什么?令,得E(X)=u同样可算出D(X)=σ222()21()2xufxe221()()()22xuEXxfxdxxdxxut()Y那么对于f(x),只要知道u,σ2,即E(X)和D(X),就可以画出其曲线。正态分布表示为,往往需要对其进行标准化。如令,则随机变量Y服从标准正态分布,表示为,N(0,1)。大家可计算E(Y)=0,D(Y)=1。如2(,)NuXuY2()01XuDXD5.三种重要抽样分布三种重要抽样分布——分布,t分布,F分布。它们在作统计判断时经常使用。先来看一下正态母体的子样平均数。5.1正态母体中的的分布:设x1,x2,…,xn是独立同分布随机变量,且每个随机变量服从正态分布,则平均数是否服从?2xx2(,)u11niixxn2(,)Nun大家可以用前面所学的计算一下:11()niinuExExunn222211()niinDxDxnnn5.2分布设x1,x2,…,xn是独立同分布随机变量,且每个随机变量服从标准正态分布N(0,1),则随机变量的分布密度是,x>00,x≤0是伽玛函数在处的值。这种分布称为自由度为n的分布,记为。2222212nXXX12221()2()2nxnfxxen()2n2n22()n性质设两个变量和相互独立。的自由度为n1,的自由度为n2。则是自由度为n1+n2的变量,那么定义中的是,自由度为1+1=2,总共为n。补充:自由度简单说就是试验观测个数减去加在上面的约束条件。如:子样方差只有一个约束条件,自由度为n-1。2En22Dn22122212222122221222221111()nniiiisxxxxnn11niixxn那么分布的密度图象是22()n可以看出n取不同值时有不同图像,若对于给定α(0<α<1)存在使。则称为的上侧分位数。以后在参数估计和假设检验中常用到。2()n2()()nfxdx2()n222pnnnα=0.9950.990.975…0.75120.0100.0200.0510.575…4550.98557.50561.656…73.166从横排看,α取值越大,越小。从纵排看,n越大,越大但是当n>45时,值从表中查不到。如何解决这一问题?先看一条性质。2()n2()nn由中心极限定理,当时,也就是说性质:设随机变量x服从自由度为n的分布,则对任意x有此性质证明当n很大时,近似服从标准正态分布,即自由度n很大的分布近似于正态分布N(n,2n)。再看当n>45时如何计算?22,Nu(0,1)2XnNn2221lim22txnxnpxedtn2xnn22()n按上侧分位数定义,因而,令若Y服从标准正态分布N(0,1),对于任意给定的α,式中的可以查表得到。为标准正态分布的上侧分位数。则例:要求,由α=0.05,查=1.645则2pxn222nnxnpnn2xnYnpYuuu22nunn20.05120u20.0512012021201.645145.55.3t分布设随机变量x服从标准正态分布N(0,1),随机变量Y服从自由度为n的分布,且X与Y相互独立,则的分布密度为这种分布称为自由度为n的t分布。记为t(n)2XTYn12212()1,2nntfttunn分布的密度图象为令tα(n)为t分布的上侧分位数。从图中可以看出当为标准正态分布,因此n<45的tα(n)可查表,n45时可查正态分布的值。untα(n)5.4F分布设X和Y分别服从自由度为n1,n2的分布,且与X与Y相互独立,则,分布密度为0,z≤0这种分布叫第一自由度为n1,第二自由度为n2的F分布,记为F(n1,n2)。212XnFYn11212122111122222()1,022nnnnnnnnfxzzznnnnn其分布密度图象:有一重要性质:F服从F(n1,n2)时,则服从F(n2,n1)1F参数估计我们进行一批实验,得到一些实验结果(数据)。如测一物体长度其得到五个值。假定测定长度服从正态分布很容易我们会想到用实测值的和s2来做为参数值u和σ2的估计值。估计方法有矩法估计、点估计、最大似然估计等等。这里不做逐一介绍,我们所关心的是我们所估计的值与这些参数到底相差多少,即检验它们的无偏性,先来下个定义:若参数θ的估计量满足,则称是θ的无偏估计量。而对于上例,和s2是否是u和σ2的无偏估计?2(,)NuxEx因此s2不是σ2的无偏估计按E(X)性质σ2无偏估计,记为s*2Es*2=σ2,这里可看到,当n很大时,s*2=s211111nniiiiExExExnuunnn222111niinEsExxnn22211nnEsnn即是2211*1niisxxn前面我们所说的估计可以说是点的估计,而数理统计中的未知参数往往需要依靠一定的概率在一定范围内进行估计,这即是区间估计,例:已知某橡胶试片的300%定伸强度在正常情况下服从正态分布,且标准差σ=0.108,现测五个试片,其300%定伸是4.28,4.40,4.42,4.35,4.37(MPa),试以概率95%对母体平均u作区间估计。解:母体X的分布为正态,已知(已知)从母体中随机抽样得