理论分布与抽样分布

pikachuzjl
3 ℃
2019-02-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第三章理论分布与抽样分布为了便于理解统计分析的基本原理，正确掌握和应用统计分析方法，本章在介绍概率论中最基本的两个概念－事件、概率的基础上，重点介绍科学研究中常用的几种随机变量的概率分布－正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。下一张主页退出上一张1事件与概率1.1事件1.1.1必然现象与随机现象在自然界与生产实践和科学试验中，人们会观察到各种各样的现象，把它们归纳起来，大体上分为两大类：下一张主页退出上一张必然现象：可预言其结果的，即在保持条件不变的情况下，重复进行试验，其结果总是确定的，必然发生的（或必然不发生）。这类现象称为必然现象（inevitablephenomena）或确定性现象（definitephenomena）。随机现象：另一类是事前不可预言其结果的，即在保持条件不变的情况下，重复进行试验，其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象，称为随机现象（randomphenomena）或不确定性现象（indefinitephenomena）。下一张主页退出上一张随机现象或不确定性现象，有如下特点：在一定的条件实现时，有多种可能的结果发生，事前人们不能预言将出现哪种结果；对一次或少数几次观察或试验而言，其结果呈现偶然性、不确定性；但在相同条件下进行大量重复试验时，其试验结果却呈现出某种固有的、特定的规律性——频率的稳定性，通常称之为随机现象的统计规律性。下一张主页退出上一张1.1.2随机试验与随机事件1随机试验通常我们把根据某一研究目的，在一定条件下对自然现象所进行的观察或试验统称为试验（trial）。当一个试验如果满足下述三个特性，则称其为一个随机试验（randomtrial），简称试验。下一张主页退出上一张（1）试验可以在相同条件下多次重复进行；（2）每次试验的可能结果不止一个，并且事先知道会有哪些可能的结果；（3）每次试验总是恰好出现这些可能结果中的一个，但在一次试验之前却不能肯定这次试验会出现哪一个结果。下一张主页退出上一张2随机事件随机试验的每一种可能结果，在一定条件下可能发生，也可能不发生，称为随机事件（randomevent），简称事件(event），通常用A、B、C等来表示。（1）基本事件我们把不能再分的事件称为基本事件（elementaryevent），也称为样本点（samplepoint）。下一张主页退出上一张例如，从编号为1、2、3、…、10的十个篮球中随机抽取1个篮球，有10种不同的可能结果：“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”，这10个事件都是不可能再分的事件，它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件（compoundevent）。如“取得一个编号是2的倍数”是一个复合事件，它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。下一张主页退出上一张（2）必然事件把在一定条件下必然会发生的事件称为必然事件（certainevent），用Ω表示。例如，一个大气压下，水加热到100C，水会沸腾；种瓜得瓜、种豆得豆下一张主页退出上一张（3）不可能事件在一定条件下不可能发生的事件称为不可能事件（impossibleevent），用ф表示。例如，在满足一定孵化条件下，从石头孵化出小鸡，就是一个不可能事件。必然事件与不可能事件实际上是确定性现象，它们不是随机事件，但是为了方便起见，我们把它们看作为两个特殊的随机事件。1.2概率1.2.1概率统计定义研究随机试验，仅知道可能发生哪些随机事件是不够的，还需了解各种随机事件发生的可能性大小，以揭示这些事件的内在的统计规律性，从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标，这个指标应该是事件本身所固有的，且不随人的主观意志而改变，人们称之为概率（probability）。事件A的概率记为P（A）。下一张主页退出上一张概率：刻划事件发生可能性大小的数量指标概率统计定义：在相同条件下进行n次重复试验，如果随机事件A发生的次数为m，那么m/n称为随机事件A的频率（frequency）；当试验重复数n逐渐增大时，随机事件A的频率越来越稳定地接近某一数值p，那么就把p称为随机事件A的概率。下一张主页退出上一张如此定义的概率称为统计概率（statisticsprobability），或者称后验概率（posteriorprobability）。表3-1抛掷一枚硬币发生正面朝上的试验记录下一张主页退出上一张例如为了确定抛掷一枚硬币出现正面朝上这个事件的概率，历史上有人作过成千上万次抛掷硬币的试验。在表3—1中列出了他们的试验记录。从表3-1可看出，随着实验次数的增多，正面朝上这个事件发生的频率越来越稳定地接近0.5，我们就把0.5作为这个事件的概率。在一般情况下，随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即P（A）=p≈m/n（n充分大）（3-1）下一张主页退出上一张1.2.2概率的性质（1）对于任何事件A，有0≤P（A）≤1；（2）必然事件的概率为1，即P（Ω）=1；（3）不可能事件的概率为0，即P（ф）=0。2概率分布事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验，则必须知道试验的全部可能结果及各种可能结果发生的概率，即必须知道随机试验的概率分布(probabilitydistribution)。为了深入研究随机试验，我们先引入随机变量(randomvariable)的概念。下一张主页退出上一张2.1随机变量下一张主页退出上一张2004年奶粉事件“大头娃”描述随机事件的变量称为随机变量。随机变量的取值在一次试验前不能确定，具有随机性。作一次试验，其结果有多种可能。每一种可能结果都可用一个数来表示，把这些数作为变量x的取值，则试验结果可用变量x来表示。【例】对10种品牌袋装奶粉进行质量检测，其可能结果是“0种合格”、“1种合格”、“2种合格”、“…”、“10种袋装奶粉都合格”。若用x表示袋装奶粉合格品牌数，则x的取值为0、1、2、…、10。【例】食品加工中高温杀菌可能结果只有两种，即“全部杀死细菌”与“未能全部杀死细菌”。若用变量x表示试验的两种结果，则可令x=0表示“未能全部杀死细菌”，x=1表示“全部杀死细菌”。【例】测定关中地区不同小麦品种的蛋白质含量，其蛋白质含量在9.3-13.5％之间，如用x表示测定结果，那么x值可以是这个范围内的任何实数。下一张主页退出上一张离散型随机变量：如果表示试验结果的变量x，其可能取值为可列个，且以各种确定的概率取这些不同的值，则称x为离散型随机变量(discreterandomvariable)；连续型随机变量：如果表示试验结果的变量x，其可能取值为某范围内的任何数值，且x在其取值范围内的任一区间中取值时，其概率是确定的，则称x为连续型随机变量(continuousrandomvariable)。下一张主页退出上一张试验结果和取此结果的概率可以一一列出。不能列出试验结果和取此结果的概率，只能给出一定范围和在此范围内取值的概率。2.2离散型随机变量的概率分布要了解离散型随机变量x的统计规律，就必须知道它的一切可能值xi及取每种可能值的概率pi。如果我们将离散型随机变量x的一切可能取值xi(i=1,2,…)，及其对应的概率pi，记作P(x=xi)=pii=1,2,…(3—3)则称（3—3）式为离散型随机变量x的概率分布或分布。常用分布列(distributionseries)来表示：下一张主页退出上一张x1x2…xn….p1p2…pn…从分布列可以一目了然看出随机变量X的可能取值及取这些值的概率。离散型随机变量的概率分布具有pi≥0和Σpi=1这两个基本性质。2.3连续型随机变量的概率分布连续型随机变量(如身高、体重等)的概率分布不能用分布列来表示，因为其可能取值是不可数的，不能一一列出。改用随机变量x在某个区间内取值的概率P(a≤xb)来表示。下面通过频率分布密度曲线予以说明。下一张主页退出上一张图4—1为数据资料的频率分布直方图，图中纵座标取频率与组距的比值。可以设想，如果样本取得越来越大(n→+∞)，组分得越来越细(i→0)，某一范围内的频率将趋近于一个稳定值－概率。这时，频率分布直方图各个直方上端中点的连线－频率分布折线将逐渐趋向于一条曲线。下一张主页退出上一张当n→+∞、i→0时，频率分布折线的极限是一条稳定的函数曲线。对于样本是取自连续型随机变量的情况，这条函数曲线将是光滑的。这条曲线排除了抽样和测量的误差，完全反映了数据资料的变动规律。这条曲线叫概率分布密度曲线，相应的函数叫概率分布密度函数，简称分布密度。下一张主页退出上一张(3—4)式为连续型随机变量x在区间[a,b）上取值概率的表达式。可见，连续型随机变量的概率由概率分布密度函数确定。若变量X概率分布密度函数记为f(x)，则x取值于区间[a,b）的概率为图中阴影部分的面积，即P(a≤xb)=(3-4)连续型随机变量概率分布的性质：1、分布密度函数总是大于或等于0，即f(x)≥0；2、当随机变量x取某一特定值时，其概率等于0；即(c为任意实数)所以，对于连续型随机变量，仅研究其在某一个区间内取值的概率，而不去讨论取某一个值（点）的概率。下一张主页退出上一张连续型随机变量某一点的概率为0。3、随机变量x取值在-∞＜x＜+∞范围内，所以下一张主页退出上一张(3-5)(3—5)式表示分布密度曲线与横轴所围成的区间全部面积为1。P(a≤xb)=4、随机变量X取〔a，b）区间值的概率为：3理论分布3.1二项分布3.1.1贝努利试验及其概率公式贝努利试验：对于n次独立的试验，如果每次试验结果出现且只出现对立事件A与之一，在每次试验中出现A的概率是常数p(0p1)，因而出现对立事件的概率是1-p=q，则称这一串重复的独立试验为n重贝努利试验，简称贝努利试验(Bernoullitrials)。下一张主页退出上一张重要的离散型分布只有两种可能结果的随机试验称为贝努利试验食品抽样中，产品合格或不合格，种子发芽或不发芽，施药后害虫死或活等等。贝努利试验的概率公式在贝努利试验中，事件A可能发生，也可能不发生，用随机变量x表示贝努利试验的两种结果，记A发生时取1，A不发生时取0。那么，贝努利试验的概率公式可以表示为：P（x＝1）＝pP（x＝0）＝q其中x＝1，A事件发生，成功0，A事件未发生，失败也称为两点分布（3-6）在n重贝努利试验中，事件A可能发生0，1，2，…，n次，现在我们来求事件A恰好发生k(0≤k≤n)次的概率Pn(k)。事件A在n次试验中正好发生k次共有种情况。由贝努利试验的独立性可知，A在k次实验中发生，而在其余n-k次试验中不发生的概率为下一张主页退出上一张3.1.2二项分布的定义及其特点一般，在n重贝努利试验中，事件A恰好发生k(0≤k≤n)次的概率为下一张主页退出上一张k=0,1,2…，n(3-7)若把(3-7)式与二项展开式相比较就可以发现，在n重贝努利试验中，事件A发生k次的概率恰好等于展开式中的第k+1项，所以也把(3-7)式称作二项概率公式。1.二项分布定义设随机变量x所有可能取的值为零和正整数：0,1,2,…，n，且有=k=0,1,2…，n其中p＞0，q＞0，p+q=1，则称随机变量x服从参数为n和p的二项分布(binomialdistribution)，记为x～B(n，p)。下一张主页退出上一张二项分布是一种离散型随机变量的概率分布。参数n称为离散参数，只能取正整数；p是连续参数，它能取0与1之间的任何数值(q由p确定，故不是另一个独立参数)。下一张主页退出上一张(3-10)（5）（3）（4）(3-8)(3-9)（m1m2）2.二项分布的特点具有概率分布的一切性质，即：（1）P(x=k)=Pn(k)≥0(k=0,1,…，n)（2）二项分布的概率之和等于1，即图3-1n值不同的二项分布比较（2）当p值趋于0.5时