统计学基础与数据分析2_理论分布与抽样分布(PPT89页)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第四章理论分布与抽样分布为了便于理解统计分析的基本原理,正确掌握和应用统计分析方法,本章在介绍概率论中最基本的两个概念-事件、概率的基础上,重点介绍科学研究中常用的几种随机变量的概率分布-——正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。21.1事件1.1.1必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:1事件与概率必然现象:事前可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生的(或必然不发生)。3随机现象:事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同(带有偶然性和不确定性)。有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的、特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。41.1.2随机试验与随机事件(1)随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。当一个试验如果满足下述三个特性,则称其为一个随机试验(randomtrial),简称试验。①试验可以在相同条件下多次重复进行;②每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;③每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。5(2)随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(randomevent),简称事件(event),通常用A、B、C等来表示。a基本事件不能再分的事件(elementaryevent),也称为样本点(samplepoint)。6例如,从编号为1、2、3、…、10的十个篮球中随机抽取1个篮球,有10种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件(compoundevent)。如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。7b必然事件在一定条件下必然会发生的事件(certainevent),用Ω表示。例如,一个大气压下,水加热到100C,水会沸腾;种瓜得瓜、种豆得豆。c不可能事件在一定条件下不可能发生的事件(impossibleevent),用ф表示。例如,在满足一定孵化条件下,从石头孵化出小鸡,就是一个不可能事件。必然事件与不可能事件实际上是确定性现象,它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。81.2.1概率统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这个指标应该是事件本身所固有的,且不随人的主观意志而改变,称之为概率(probability)。事件A的概率记为P(A)。概率:刻划事件发生可能性大小的数量指标1.2概率9统计概率定义:在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。如此定义的概率称为统计概率(statisticsprobability),或者称后验概率(posteriorprobability)。10例:为了确定抛掷一枚硬币出现正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。下表列出了他们的试验记录。可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即P(A)=p≈m/n(n充分大)111.2.2概率的性质(1)对于任何事件A,有0≤P(A)≤1;(2)必然事件的概率为1,即P(Ω)=1;(3)不可能事件的概率为0,即P(ф)=0。122.1随机变量描述随机事件的变量称为随机变量。随机变量的取值在一次试验前不能确定,具有随机性。做一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量x的取值,则试验结果可用变量x来表示。【例】对10种品牌袋装奶粉进行质量检测,其可能结果是“0种合格”、“1种合格”、“2种合格”、“…”、“10种袋装奶粉都合格”。若用x表示袋装奶粉合格品牌数,则x的取值为0、1、2、…、10。2、概率分布事件的概率表示一次试验某一个结果发生的可能性大小。必须知道随机试验的概率分布。13【例】食品加工中高温杀菌可能结果只有两种,即“全部杀死细菌”与“未能全部杀死细菌”。若用变量x表示试验的两种结果,则可令x=0表示“未能全部杀死细菌”,x=1表示“全部杀死细菌”。【例】测定关中地区不同小麦品种的蛋白质含量,其蛋白质含量在9.3-13.5%之间,如用x表示测定结果,那么x值可以是这个范围内的任何实数。14离散型随机变量:如果表示试验结果的变量x,其可能取值为可列个,且以各种确定的概率取这些不同的值(discreterandomvariable);连续型随机变量:如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的(continuousrandomvariable)。试验结果和取此结果的概率可以一一列出。不能列出试验结果和取此结果的概率,只能给出一定范围和在此范围内取值的概率。15要了解离散型随机变量x的统计规律,就必须知道它的一切可能值xi及取每种可能值的概率pi。离散型随机变量x的概率分布或分布,常用分布列(distributionseries)来表示:如果我们将离散型随机变量x的一切可能取值xi(i=1,2,…),及其对应的概率pi,记作P(x=xi)=pii=1,2,…(3—3)2.2离散型随机变量的概率分布从分布列可以一目了然看出随机变量X的可能取值及取这些值的概率。离散型随机变量的概率分布具有pi≥0和Σpi=1这两个基本性质。100听罐头净重的次数分布组限组中值(x)频率(f)频率/组距329.5-33110.003333332.5-33410.003333335.5-33760.02338.5-340210.07341.5-343320.106667344.5-346230.076667347.5-349120.04350.5-35220.006667353.5-35510.003333356.5-35810.003333图为数据资料的频率分布直方图,图中纵座标取频率与组距的比值。如果样本取得越来越大(n→+∞),组分得越来越细(i→0),某一范围内的频率将趋近于一个稳定值-概率。这时,频率分布直方图各个直方上端中点的连线-频率分布折线将逐渐趋向于一条曲线。频率分布密度曲线00.020.040.060.080.10.12331334337340343346349352355358频率/组距连续型随机变量(如身高、体重等)的概率分布不能用分布列来表示,因为其可能取值是不可数的,不能一一列出。改用随机变量x在某个区间内取值的概率P(a≤xb)来表示。2.3连续型随机变量的概率分布17当n→+∞、组距i→0时,频率分布折线的极限是一条稳定的函数曲线。对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。这条曲线排除了抽样和测量的误差,完全反映了数据资料的变动规律。这条曲线叫概率分布密度曲线,相应的函数叫概率分布密度函数,简称分布密度。18上式为连续型随机变量x在区间[a,b]上取值概率的表达式。连续型随机变量的概率由概率分布密度函数确定。badxxf)(若变量X概率分布密度函数记为f(x),则x取值于区间[a,b)的概率为图中阴影部分的面积,即P(a≤xb)=19连续型随机变量概率分布的性质:①分布密度函数总是大于或等于0,即f(x)≥0;②当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)所以,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值(点)的概率。ccdxxfcxP0)()(连续型随机变量某一点的概率为0。20③随机变量x取值在-∞<x<+∞范围内,所以1)()(dxxfxP上式表示分布密度曲线与横轴所围成的区间全部面积为1。badxxf)(P(a≤xb)=④随机变量X取〔a,b)区间值的概率为:213理论分布3.1二项分布3.1.1贝努利试验及其概率公式贝努利试验:对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与之一,在每次试验中出现A的概率是常数p(0p1),因而出现对立事件的概率是1-p=q,则称这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoullitrials)。A重要的离散型分布A只有两种可能结果的随机试验称为贝努利试验食品抽样中,产品合格或不合格,种子发芽或不发芽,施药后害虫死或活等等。22贝努利试验的概率公式在贝努利试验中,事件A可能发生,也可能不发生,用随机变量x表示贝努利试验的两种结果,记A发生时取1,A不发生时取0。那么,贝努利试验的概率公式可以表示为:P(x=1)=pP(x=0)=q其中x=1,A事件发生,成功0,A事件未发生,失败也称为两点分布23在n重贝努利试验中,事件A可能发生0,1,2,…,n次,现在我们来求事件A恰好发生k(0≤k≤n)次的概率Pn(k)。事件A在n次试验中正好发生k次共有种情况。由贝努利试验的独立性可知,A在k次实验中发生,而在其余n-k次试验中不发生的概率为3.1.2二项分布的定义及其特点knCknkqp24一般,在n重贝努利试验中,事件A恰好发生k(0≤k≤n)次的概率为knkknnqpCkP)(k=0,1,2…,n把(3-1)式称作二项概率公式。(3-1)25设随机变量x所有可能取的值为零和正整数:0,1,2,…,n,且有=k=0,1,2…,n其中p>0,q>0,p+q=1,则称随机变量x服从参数为n和p的二项分布(binomialdistribution),记为x~B(n,p)。)(kPnknCknkqp二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。(1)二项分布定义26nmkknkknnqpCmkPmxP)()((5)mkknkknnqpCmkPmxP0)()(21)()(2121mmkknkknnqpCmkmpmxmP(3)(4)(m1m2)(2)二项分布的特点具有概率分布的一切性质,即:(1)P(x=k)=Pn(k)≥0(k=0,1,…,n)(2)二项分布的概率之和等于1,即1)(0nnkknkknpqqpC27二项分布由n和p两个参数决定,其特点是:(1)当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称,如图所示;图n值不同的二项分布比较28图p值不同的二项分布比较(2)当p值趋于0.5时,分布趋于对称,如图所示;(3)对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。(4)在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。29(1)已知随机变量x~B(n,p),求x正好有k次发生的概率。【例】有一批食品,其合格率

1 / 89
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功