第一章概率统计基础知识一、概率基础知识1.掌握随机现象与事件的概念随机现象:在一定条件下,并不总是出现相同的相同结果的现象称为随机现象。特点:1.随机现象的结果至少有两个;2.至于哪一个出现,事先并不知道;确定性现象:只有一个结果的现象。样本空间:随机现象一切可能样本点的全体称为这个随机现象的样本空间,记着认识随机现象首要的是罗列出它的一切可能的发生的基本结果。2.熟悉事件的运算(对立事件、并、交及差)事件:随机现象的某些样本点组成的集合称为随机事件,简称事件。常用大写字母A、B、C等表示。事件的特征:1.任一事件A是相应样本空间中一个子集;2.事件A发生当且仅当A中某一样本点发生;3.事件A的表示,可用集合,也可以用语言,但所用语言应是明白无误的;4.任一样本空间都有一个最大的子集,这个最大子集就是样本空间,它对应的事件称为必然事件;5.任一样本空间都有一个最小的子集,这个最小子集就是空集,它对应的事件称为不可能事件。随机事件之间的关系:1.包含--若事件A中任一个样本点必在B中,则称A被包含在B中,或B包含A。2.互不相容--事件A和B没有相同的样本点,称事件A与B互不相容。(A和B不可能同时发生);3.相等--事件A和B含有相同的样本点,称事件A与B相等。事件的运算:1.对立事件:样本空间中,不在事件A中的样本点的集合称为事件A的对立事件。,2.事件并:事件A和B中所有样本点的集合。并事件发生,意味着事件A或事件B至少一个发生。3.事件交:由事件A和B中公共的样本点组成的新事物称为事件A与B的交。交事件发生意味着A和B同时发生。4.事件差:由事件A中而不在B中的样本点组成的新事件称为A对B的差。事件的运算的性质:交换律:结合律:分配律:对偶律:3.掌握概率是事件发生可能性大小的度量的概念随机事件的发生与否是带有偶然性,但随机事件发生的可能性还是有大小之别,是可以度量的。一个随机事件A发生可能性的大小称为事件A的概率。P(A)表示。概率是一个介于0到1之间的数。概率越大,事件发生的可能性就越大。不可能事件的概率为0,必然事件的概率为1;4.熟悉概率的古典定义及其简单计算古典定义的要点如下:1.所涉及的随机现象只有有限的样本点,设共有n个样本点;2.每个样本点出现的可能性相同(等可能性);3.若被考察的事件A含有k个样本点,则事件A的概率为P(A)=k/n=A中所含样本点的个数/样本空间中样本点的总数排列:Prn=n(n-1)…(n-r+1)组合:(nr)=Prn/r!不放回抽样P(Am):共有N个,不合格品M个,抽n个,恰有m个不合格品的概率为:放回抽样P(Bm):共有N个,不合格品M个,抽n个,恰有m个不合格品的概率为:5.掌握概率的统计定义;;);()()();()()(;)()(;)()(;BABABABACABACBACABACBACBACBACBACBAABBAABBA第一章概率统计基础知识概率的统计定义要点如下:(1)与事件A有关的随机事件的现象是可以大量重复试验的;(2)在n次重复试验中,事件A发生的次数为kn次,则事件A发生的频率为:fn(A)=kn/n=/事件A发生的次数/重复试验次数fn(A)反映事件A发生可能性的大小。(3)频率fn(A)随着重复试验次数的增加趋于稳定,这个稳定值就是事件A的概率。6.掌握概率的基本性质性质1:非负性性质2:事件A与其对立事件概率之和为1;性质3:若A包含B,则P(A-B)=性质4:事件A与B的并的概率=P(A)+P(B)-P(AB)性质5:多个互不相容事件有:7.掌握事件的互不相容性和概率的加法法则8.掌握事件的独立性、条件概率和概率的乘法法则独立性:如果事件A的发生不影响另一事件B的发生与否,称事件A和事件B相互独立。条件概率:二、随机变量及其分布(一)随机变量及随机变量分布的概念1.熟悉随机变量的概念:表示随机现象结果的变量,常用X、Y、Z字母表示,其取值用相应的小写字母x、y、z表示。2.掌握随机变量的取值及随机变量分布的概念随机变量的取值是随机的,但内在还是有规律的。这个规律性可以用分布来描述。认识一个随机变量X的关键就是要知道它的分布。分布包含两点:(1)X可能取哪些值,或在哪个区间上取值;(2)X取这些值的概率各是多少,或X在任一区间上取值的概率是多少;(二)离散随机变量的分布1.熟悉离散随机变量的概率函数(分布列)2.熟悉离散随机变量均值、方差和标准差的定义均值用来表示分布的中心位置,用E(X)表示。方差用来表示分布的散布大小,用Var标准差:方差开平方。随机变量(或其分布)的均值与方差的运算性质:(1)设X为随机变量,a与b为任意常数,则有:(2)对任意两个随机变量X1与X2,有:E(X1+X2)=E(X1)+E(X2)。(3)设随机变量X1与X2独立,则有:Var(X1±X2)=Var(X1)+Var(X2)。方差的这个性质不能推到标准差场合,即对任意两个相互独立的随机变量X1与X2,σ(X1+X2)≠σ(X1)+σ(X2),而应该是σ(X1+X2)=SQRT(Var(X1)+Var(X2))。或者说,对相互独立随机变量来说,方差具有可加性,而标准差不具有可加性。3.掌握二项分布、泊松分布及其均值、方差和标准差以及相关概率的计算二项分布:(1)重复试验n次;(2)n次试验相互独立;(3)每次试验仅有两个可能的结果;(4)每次试验的成功率为p,失败率为1-p;当n=1的二项分布为二点分布。泊松分布:总与计点过程相关联,并且计点是在一定时间内,一定区域内,或特定单位内的前提下进行的。若。λ表示某特定单位内的平均点数(λ0),又令X表示某特定单位内出现的点数,则X取x值的概率为:第一章概率统计基础知识超几何分布:从一个有限总体中进行不放回抽样,常会遇到超几何分布。N个产品的总体,M个不合格品,从中随机抽取n个产品,则其中不合格品的个数X是一个离散随机变量,假如n≤M则X的可能取0、1、…n。若n>M,则X的可能取0、1、…M。则X=x的概率为h(n,N,M)(三)连续随机变量的分布1.熟悉连续随机变量的分布密度函数正态分布:标准正态分布:2.熟悉连续随机变量均值、方差、标准差的定义3.掌握连续随机变量在某个区间内取值概率的计算方法4.掌握正态分布的定义及其均值、方差、标准差,标准正态分布的分位数对概率等式P(U≤1.282)=0.9,有两种说法:(1)0.9是随机变量U不超过1.282的概率;(2)1.282是标准正态分布N(0、1)的0.9分位数,也称90%分位数或90百分位数,记着u0.95.熟悉标准正态分布表的用法6.了解均匀分布及其均值、方差与标准差均匀分布:E(x)=(a+b)/2;Var(x)=(b-a)2/127.熟悉指数分布及其均值、方差和标准差E(x)=1/λ;Var(x)=1/λ2;δ(x)=1/λ;8.了解对数正态分布及其均值、方差和标准差化学反应的时间,绝缘材料被击穿的时间,维修时间等分布均服从对数正态分布,其特点如下:(1)这些随机变量都在正半轴(0,∞)上取值;(2)大量取值在左边,少量取值在右边,并且分散,也叫“右偏分布”;(3)若随机变量服从对数正态分布,则经过对数变换Y=lnX后服从正态分布。;(4)若正态分布的均值为μy,方差为δy2,则对应对数正态分布的均值μx,方差为δx2,(5)为求对数正态变量X的有关事件概率,经过对数变换后可转化为求相应正态变量Y=lnX的相应事件。P(X<a)=P(lnX<lna)=P(Y<lna)=Φ((lna-μy)/δx)E(aX+b)=aE(X)+b,Var(aX+b)=a2Var(X)。第一章概率统计基础知识9.熟悉中心极限定理,样本均值的(近似)分布中心极限定理的重要结论:多个相互独立随机变量的平均值(仍然是一个随机变量)服从或近似服从正态分布。样本均值的分布:三、统计基础知识1.掌握总体与样本的概念和表示方法总体:在一个统计问题中,研究对象的全体为总体。个体:构成总体的每一个成员称为个体。总体是一个分布,统计学的主要任务就是:(1)研究总体是什么分布;(2)这个总体分布的均值,方差(标准差)是多少?样本:从总体中抽取部分个体组成的集合称为样本。(样本的个体有时也称样品)样本量:样本中所含的个体的个数叫样本量。随机样本的特点:(1)随机性,总体中每个个体都有相同的机会入样。(2)独立性,从总体中抽取的每个个体对其他个体的抽取无任何影响。2.熟悉频数(频率)直方图(1)找出这组数据中的最大值和最小值,计算它们的极差R=xmax-xmin;(2)根据数据个数即样品量n,决定分组数k和组距h;组距可以相等,也可不等;h为接近R/k的值(3)确定组县,即每个区间的端点及组中值;通常为左开右闭。(4)计算落在每组的数据的频数及频率;(5)作频数频率直方图;数据变换可以改变直方图的形状。3.掌握统计量的概念统计量:不含未知参数的样本函数称为统计量。4.掌握样本均值和样本中位数概念及其计算方法表示集中位置的统计量:样本均值,样本中位数,样本众数(1)样本均值:(2)样本中位数Me:(3)样本众数Mod,样本数据中出现频率最高的值。5.掌握样本极差、样本方差、样本标准差和样本变异系数概念及计算方法表示分散程度的统计量:样本极差,样本方差,样本标准差,样本变异系数。(1)样本极差R:R=X(max)-X(min)(2)样本方差:(3)样本标准差:(4)样本变异系数(相对标准差):〔在消除量纲影响后的样本分散程度的一种度量〕6.熟悉抽样分布概念抽样分布:统计量的分布。(抽样分布是进行统计推断的基础)1.刀具磨损。偏态型:偏左或偏右。1.剔除不合格品后作的图形;2.质量特性的单侧控制造成;孤岛型:表示出现异常情况。1.原料的变化;2.生产过程的变化;3.或有不熟练的工人替班。类型对称型:中间高两边低,左右对称。双峰型:两组不同数据的混合。1.不同精度的机器;2.不同操作水平的;3.不同材料的数据混合。例子锯齿型:1.测量方法不当;2.量具的精度较差;3.因分组不当引起平顶型:由缓慢变化的因素造成。第一章概率统计基础知识(1)每一个统计量都有一个抽样分布;(2)不同的统计量可得不同的分布;7.熟悉t分布、χ2分布和F分布的由来(三大抽样分布)样本方差未知时,正态均值的分布,t分布:当自由度超过30,t分布和标准正态分布的区别很小。可用N(0,1)代替t(n-1)正态样本方差的S2的分布,χ2分布:两个独立的正态样本方差之比的分布,F分布:四、参数估计(一)点估计1.熟悉点估计的概念根据样本对总体进行推断是数理统计的核心。参数估计和假设检验参数估计:根据样本和参数的统计含义选择适宜的统计量并作出估计。点估计:设θ是总体的一个未知参数,记与总体对应的随机变量X,从中抽取样本量为n的一个样本,X1,X2,…Xn根据这个样本,构造一个统计量θ2.掌握矩法估计方法样本均值和样本方差属于样本矩,总体均值和总体方差属于总体矩。(1)用样本矩去估计相应的总体矩;(2)用样本矩的函数去估计相应的总体矩的函数。样本均值对总体均值μ的估计是无偏的,样本方差对总体的方差δ2的估计也是无偏的。矩法估计不一定总是最有效的,而且有时估计也不是唯一的。3.熟悉点估计优良性的标准估计量优良性的标准:无偏性,有效性4.熟悉二项分布、泊松分布、指数分布、正态分布参数的点估计(1)正态均值μ的无偏估计有两个:一个是样本均值xbar,一个是样本中位数。(2)正态方差δ2的无偏估计只有一个:样本方差。(3)正态标准差δ的无偏估计有两个:一是对样本极差进行修偏而得的δR,一是样本标准差s进行修偏而得的δs。δR=R/d2δs=s/C4当n=2时,两个无偏估计相同,当n≥3时,后者比前者更有效。(二)区间估计1.熟悉区间估计(包括置信水平、置信区间)的概念点估计仅仅给出参数的一个具体的估计值,没有给出估计的精度,而区间估计是用一个区间来对未知参数进行估计。1-α置信