统计学STATISTICS第3章概率分布与抽样分布1统计学STATISTICS第3章概率分布与抽样分布3.1随机变量3.2正态分布3.3常用的抽样方法3.4抽样分布3.5中心极限定理的应用2统计学STATISTICS3.1随机变量(randomvariables)1.对随机事件的数值性描述--例如:抛硬币的结果,正面定义为1,反面定义为02.一般用X,Y,Z来表示3.根据取值情况的不同分为离散型随机变量:数轴上可列个孤立的点连续型随机变量:数轴上一个或多个区间3统计学STATISTICS离散型随机变量1.随机变量X取有限个值或所有取值都可以逐个列举出来x1,x2,…2.以确定的概率取这些不同的值3.离散型随机变量的一些例子试验随机变量可能的取值抽查100个产品一家餐馆营业一天电脑公司一个月的销售销售一辆汽车取到次品的个数顾客数销售量顾客性别0,1,2,…,1000,1,2,…0,1,2,…男性为0,女性为14统计学STATISTICS连续型随机变量1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值2.它取任何一个特定的值的概率都等于03.不能列出每一个值及其相应的概率4.通常研究它取某一区间值的概率5.用概率密度函数和分布函数的形式来描述试验随机变量可能的取值抽查一批电子元件新建一座住宅楼测量一个产品的长度使用寿命(小时)半年后工程完成的百分比测量误差(cm)X00X100X05统计学STATISTICS定义设X是一随机变量,X是任意实数,则实值函数F(x)=P{Xx},x∈(-∞,+∞)称为随机变量X的分布函数。有了分布函数定义,任意x1,x2∈R,x1<x2,随机变量X落在(x1,x2]里的概率可用分布函数来计算:P{x1Xx2}=P{Xx2}-P{Xx1}=F(x2)-F(x1).在这个意义上可以说,分布函数完整地描述了随机变量的统计规律性,或者说,分布函数完整地表示了随机变量的概率分布情况。分布函数的定义6统计学STATISTICS分布函数的性质1、单调不减性:若x1x2,则F(x1)F(x2);2、归一性:对任意实数x,0F(x)1,且;1)(lim)(,0)(lim)(xFFxFFxx)()(lim)0(000xFxFxFxx3、右连续性:对任意实数x,反之,具有上述三个性质的实函数,必是某个随机变量的分布函数。故该三个性质是分布函数的充分必要性质。7统计学STATISTICS例设随机变量X具分布律如下表解)(xFx0112)()(xXPxF=X012P0.10.60.3试求出X的分布函数。.2,1,21,7.0,10,1.0,1,0xxxx=8统计学STATISTICS连续型随机变量与概率密度,0)(.1xf,1)(.2dxxf有也可为也可为对于任意的,b,),(,ababa,)(}{.3badxxfbXaP则称X是连续型随机变量,f(X)称为X的概率密度函数,简称概率密度。注意f(x)不是概率设X是随机变量,如果存在定义在整个实数轴上的函数f(x),满足条件9统计学STATISTICS概率密度函数的性质1)0)(xf2)1)(dxxfaSb1xo)(xf这两条性质是判定一个函数f(x)是否为某个随机变量X的概率密度函数的充要条件3)X落入区间[a,b]内的概率=badxxf)(10统计学STATISTICS连续型随机变量的期望和方差1.连续型随机变量的数学期望2.方差xxxfXEd)()(22d)()()]([xxfXDXEx11统计学STATISTICS3.2正态分布(normaldistribution)1.正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家(CarlFriedrichGauss,1777—1855)和天文学家Moivre于1733年首次提出的,但由于Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布。2.描述连续型随机变量的最重要的分布3.许多现象都可以由正态分布来描述4.可用于近似离散型随机变量的分布例如:二项分布当n越来越大,越近似服从正态分布5.经典统计推断的基础正态分布是许多统计方法的理论基础:如t分布、F分布、χ2分布都是在正态分布的基础上推导出来的,此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。12统计学STATISTICSxxfx,eπ21)(X22212的概率密度函数为如果随机变量=正态随机变量X的均值=正态随机变量X的方差=3.1415926;e=2.71828x=随机变量的取值(-x)则称X服从参数为、的正态分布,记作X~N(,)正态分布13统计学STATISTICS正态分布函数的性质1.图形是关于x=对称钟形曲线,且峰值在x=处2.均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”3.均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭4.当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交5.正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于114统计学STATISTICS正态概率密度函数的几何特征;)1(对称曲线关于μx;π21)(,)2(σxfμx取得最大值时当;0)(,)3(xfx时当;)4(处有拐点曲线在σμx15统计学STATISTICS;,)(,,)6(轴作平移变换着只是沿图形的形状不变的大小时改变当固定xxfμσ;)5(轴为渐近线曲线以x16统计学STATISTICS.,,,,,)(,,)7(图形越矮越胖越大图形越高越瘦越小而形状在改变不变图形的对称轴的大小时改变当固定σσxfσμ17统计学STATISTICS00.10.20.30.40.50.6-4-3-2-101234Xf(X))1,0(2N)8.0,1(2N)2.1,1(2Nμ决定曲线的位置,σ决定曲线的“胖瘦”统计学STATISTICS正态分布下的概率计算tσxFxσμtdeπ21)(222)(}{xXP?方法一:利用统计软件计算方法二:转化为标准正态分布查表计算19统计学STATISTICS).1,0(,,1,0),(2NσμσμN记为态分布的正态分布称为标准正这样时中的当正态分布标准正态分布的概率密度表示为,,eπ21)(22xxx标准正态分布的分布函数表示为xtxxt,deπ21)(22标准正态分布(standardizethenormaldistribution))(1)(xxxx20统计学STATISTICS标准正态分布的图形21统计学STATISTICS查表标准正态分布函数表}.225.1{),1,0(~XPNX求已知解}225.1{XP)25.1()2(8944.09772.0例1.0828.022统计学STATISTICS解查标准正态分布表),5.02.0()1(XP),2.1()2(XP)34.0|(|)(XP求设练习)1,0(~NX)5.02.0()(XP)2.0()5.0(5793.06915.01122.0)2.1()2.1()(XP)2.1(11151.08849.011151.0}34.034.0{XP)34.0|(|)(XP)34.0()34.0()]34.0(1[)34.0(16331.021)34.0(22662.023统计学STATISTICS正态分布的转换1.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布)1,0(~NXZX-μ表示将一般正态分布的曲线平衡到标准正态分布的位置除以σ表示将一般正态分布的曲线形状转换为标准正态分布)()()(abbxaP)()(bbXP24统计学STATISTICS正态分布(例题分析)【例】定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?解:设=50,=10,X~N(50,102)02275.097725.01)2(1)105070(1)70(1)70(ΦΦXPXP6826.018413.021)1(2)1()1()105040()105060()6040(ΦΦΦΦΦXP25统计学STATISTICS求设练习),60,500(~2NX}{)(XP}{)1(XP解}{XP6050056060500XP605005601)1(11587.08413.0126统计学STATISTICS3.3常用的抽样方法3.3.1简单随机抽样3.3.2分层抽样3.3.3系统抽样3.3.4整群抽样27统计学STATISTICS简单随机抽样(simplerandomsampling)1.从总体N个单位中随机地抽取n个单位作为样本,使得每一个总体单位都有相同的机会(概率)被抽中2.抽取元素的具体方法有重复抽样和不重复抽样3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便但是当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率也称纯随机抽样,是应用最多、最基本的抽样方法之一28统计学STATISTICS简单随机抽样的优缺点优点:简单随机抽样是最符合随机原则的抽样方法,能保证总体的每个成员具有已知的且同等的被选为样本单位的机会,因此,产生的样本,不论其多大都是总体的一个有效代表。缺点:不论使用哪种抽样方法,都需要预先设定每个总体成员,要为每个总体成员提供一个标志值,而且要有一个完整的总体情况表,这往往是难以获得的。29统计学STATISTICS分层抽样(stratifiedsampling)1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本2.优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查更方便既可以对总体参数进行估计,也可以对各层的目标量进行估计分层或分类时,应使层内各单位的差异尽可能小,而使各层之间的差异尽可能大。30统计学STATISTICS系统抽样(systematicsampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位2.优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难也称等距抽样或机械抽样31统计学STATISTICS例3-1:从10000户中抽取200户进行抽样调查。①把10000户按一定标志(如家庭人口、收入水平、地址等)排列编号1—10000号;②求出抽样间隔k=N/n=10000/200=50③在第一个间隔1--50号内任意选取一个单位作为抽样起点,如38号;④从38号开始,每隔50户抽取一户38、88、138、188……9988,共200户。系统抽样(例题)32统计学STATISTICS整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接