概率论与数理统计基础知识

yamazakihk
1 ℃
2020-07-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

概率论与数理统计基础概率论概述数学作为一门工具性学科在我们的日常生活以及科学研究中扮演着极其重要的角色。概率论与数理统计作为数学的一个重要组成部分，在生活中的应用也越来越广泛。概率论是研究随机现象数量规律的数学分支。在一定条件下，在个别试验或观察中呈现不确定性，但在大量重复试验或观察中其结果又具有一定规律性的现象，称为随机现象。亦即事前不可预言的现象，即在相同条件下重复进行试验，每次结果未必相同，或知道事物过去的状况，但未来的发展却不能完全肯定。如：以同样的方式抛置硬币却可能出现正面向上也可能出现反面向上；走到某十字路口时，可能正好是红灯，也可能正好是绿灯。研究这类现象的数学工具便是概率论和数理统计。随机试验：每次试验究竟出现哪个结果不能事先肯定，则称其为一个随机试验，简称试验，常用字母E表示.样本点：.在概率论中，把随机试验的每个可能的基本结果称为样本点(SamplePoint)，样本空间：把样本点的全体称为该试验的样本空间(SampleSpace)，事件的包含与相等如果事件A发生必然导致事件B发生，即A的每个样本点都是B的样本点，则称B包含A，记作．从事件的集合表示看，事件B包含事件A就是样本空间的子集B包含子集A对任何事件A，总有如果，同时，则称事件A和事件B相等，记为A=B，即，A与B含有相同的样本点ABAAB事件间的关系BA事件的互斥如果事件A和B不可能同时发生，即A与B没有公共样本点，则称A与B是互斥的（MutuallyExclusive）或互不相容的，换句话说，两个事件A与B互斥就是样本空间两个子集A与B不相交事件的互逆如果事件A和B中必有一个发生但又不可能同时发生，则称A与B是互逆（MutuallyInverse）或对立的，称B为A的逆事件（或对立事件），事件间的运算和事件对事件A和B，定义它们的和事件为=“A发生或B发生”=“A和B中至少有一个发生”积事件定义事件与的积事件为AB=“A和B同时发生”差事件定义事件A与B的差事件为“A-B=A发生且B不发生”=“A与同时发生”BAB随机事件的概率一个事件的概率（记为）就是能刻画该事件发生的可能性大小的一个数值.在大量的重复试验或观察中，事件发生的可能性却可呈现出一定的统计规律，并且随着试验或观察次数的增加，这种规律会表现得愈加明显.显然，在重复试验或观察中，要反映一个事件发生的可能性大小，最直观的一个量就是频率(Frequency)，其定义是：若在n次试验中，事件A发生了次，则A在n次试验中发生的频率：AnnnAFAn)(我们知道，频率越大（或小），事件A发生的可能性就越大（或小），即，A的概率就越大（或小）.可见，频率是概率的一个很好反映.但是，频率却不能因此作为概率，因为概率应当是一个确定的量，不应象频率那样随重复试验和重复次数的变化而变化.不过，即使这样，频率还是可以作为概率的一个估计，而且是一个有客观依据的估计，这个依据就是所谓的频率稳定性：当试验或观察次数n较大时，事件A发生的频率会在某个确定的常数p附近摆动，并渐趋稳定.根据频率稳定性，我们可以对概率给出一个客观描述，这就是概率的统计定义：一个事件A的概率就是该事件的频率稳定值p，即)(AFn)(AFn)(APpAP)(一、个体、母体与子样在统计分析中，构成研究对象的每一个最基本的单位称为个体。进行统计分析，通常是从母体中随机地选择一部分样品，称为子样（又称样本）。用它来代表母体进行观察、研究、检验、分析，取得数据后加以整理，得出结论例如，我们可将一个编号水泥看成是母体，每一包水泥看成是个体，通过随机取样（连续取样或从20个以上不同部位取样），所取出的12kg检验样品可称为子样，通过检验分析，即可判断该编号水泥（母体）的质量状况。常见的数理统计方式二、数据、计量值与计数值数据通过测试或调查母体所得的数字或符号记录，称为数据。计量值凡具有连续性或可以利用各种计量分析一起、量具测出的数据。如长度、质量、温度、化学成分、强度等，多属于计量值数据。计量值也可以是整数，也可以是小数，具有连续性。计数值凡不能用测量工具和一起进行测量，而是用计数的方法得到的非连续性数据。如合格率，废品个数等，数据计数值数据。计数值是不连续的、间断的，以离散状态出现。三、频数、频率与概率随机变量是一种随着机会而改变其数值并且具有一定规律性的变量。如测定水泥的强度，每一袋水泥的试验结果不可能完全相同，即使一袋水泥，抽取几组试样，其试验结果也不可能完全一致，但是在一定的范围内波动，这是由于水泥的均匀性及试验误差等因素的影响，使得每次试验结果都是一个随机变量。频数、频率测定的一组数据中某一数值重复出现的次数或在某一范围内数值重复出现的次数为频数。频率为频数占数据总数的百分比。概率概率的统计定义，就是把概率理解为频率的稳定值；在条件基本相同的大量重复试验中，随着试验总次数不断增加，频率总是在某一常数附近波动，相对地稳定下来，这就是频率的相对稳定性。这个常数表现为该频率的相对稳定值，称为概率。四、数据统计特征数算术平均值我们从总体抽了一个样本（子样），得到一批数据X1、X2、X3……Xn在处理这批数据时，经常用算术平均值X来代表这个总体的平均水平。统计中称这个算术平均值为“样平均值”。中位数把数据按大小顺序排列，排在正中间的一个数即为中位数。当数据的个数n为奇数时，中位数就是正中间的数值，当n为偶数时，则中位数为中间两个数的算术平均值。极差R极差就是数据中最大值和最小值的差，又称全距，用符号R表示。R=Xmax-Xmin式中Xmax—数据中的最大值Xmin—数据中的最小值标准偏差（子样S，母体O）标准偏差是人们总结和推导出来的一个衡量总体分散程度的度量值，又称为均方根差。其推导过程是：设有n个数据，先技术出算术平均值X，将总体中各个数据减去平均值，即得离差。离差可能是正数，也可能是负数或零。如果将全部离差相加，其代数和将会为零。为此先将各离差平方，计算出离差的平方和。并除以数据的个数n，则求得各离差平方的算是平均值（即方差）。子样的标准偏差用S表示，母样的标准偏差用O表示。变异系数CV用极差和标准偏差都只反映数据波动的绝对大小。当测量单位不同或测量单位相同，但不同组的平均数相差很大时，用标准偏差来衡量离散程度的大小是不合理的，必须用相对标准偏差（即变异系数）来表示离散程度。如在做水泥均匀性试验时，就要求计算变异系数，通过变异系数就可以比较不同企业的水泥质量波动情况。五、定量分析中的误差定量分析中，反省结果应具有一定的准确度，因为不准确的分析结果会导致产品报废，资源浪费，甚至得出错误的结论。但是在分析过程中，即使是技术很熟练的人，用同一方法对同一试样仔细地进行多次分析，也不能得到完全一致的分析结果，而是分析结果在一定的范围内波动。这就是说，分析过程中误差是客观存在的。因此要善于判断分析结果的准确性，查出产生误差的原因，进一步研究减小误差的方法，以不断提高分析结果的准确程度。准确度与误差准确度是分析结果与真实值相符合的程度，通过用误差的大小来表示。误差越小。分析结果的准确度越高。误差有两种表示方法：绝对误差和相对误差。绝对误差是测定值与真实值之差，相对误差是绝对误差在真实值中所占的百分率，即绝对值=测定值—真实值绝对误差相对误差=——————X100％真实值由于一般分析测定中误差的数值是相当小的，因此有时也用测定结果代替真实值，即相对误差近视地等于绝对误差与测定结果之比，再乘以100％精密度与偏差精密度是指在相同条件下几次平行测定的结果相互接近的程度。通常用偏差的大小来表示。偏差越小，分析结果的精密度越高。偏差也有绝对偏差和相对偏差之分。测定结果（Xi）与平均值（X）之差为绝对偏差（d），即个别测定的绝对偏差;绝对偏差在平均值中所占的百分率为相对偏差（dr），即个别测定的相对偏差。因此绝对值=测定值–n次测定值的算术平均值绝对偏差相对偏差=———————X100％算术平均值误差的来源根据误差的性质，可将误差分为两类。即系统误差和偶然误差。系统误差系统误差又称可定误差或可测误差。这是由于测定过程中某些经常性的原因所造成的误差，它影响分析结果的准确度。偶然误差偶然误差又称非确定误差或随机误差。这是由一些难以控制的偶然因素所造成的误差，没有一定的规律性。虽然操作者仔细操作，外界条件也尽量保持一直，但测得的一系列数据仍有差别，并且所得数据误差的正负不定、大小不定。产生这类误差的原因常常难于觉察，可能是由于室温、气压、温度等检验条件的偶然波动所引起；或是因使用的砝码偶然缺损，试剂质量或浓度改变所造成；也可能由于个人一时辨别的差异使读书不一致。减少系统误差的方法选择合适的分析方法。这是减少系统误差的根本途径。对不同种类的试样应采取不同的分析步骤，防止不明成分的干扰。采用对比检验方法。即用标样进行对比分析或用标准方法进行对比分析。利用标准样来检查和校正分析结果消除系统误差的方法，在实际工作中应用得较为普遍。通常应取用与分析样品的组成比较接近的标准样进行对比分析。记录及计算上的错误等等。都会对检验结果带来严重影响，必须避免。但操作错误不是误差，如果已发现错误的测定结果，应予剔除，不得报出或参加平均值的计算.实例1抛掷骰子,观察出现的点数.,3)3(,2)2(,1)1(XXX,6)6(,5)5(,4)4(XXX).6,5,4,3,2,1(,61}{iiXPS={1，2，3，4，5，6}样本点本身就是数量（不需要数量转化）恒等变换且有eeX)(则有随机变量的定义,{}.,(),()(),.ESeeSXeXXeeS设是随机试验它的样本空间是如果对于每一个有一个实数与之对应这样就得到一定义在上的单值实值为随数称函机变量个定义实例2随机变量X为“测量某零件尺寸时的测量误差”.则X的取值范围为(a,b).随机变量的分类(1)离散型随机变量所取的可能值是有限多个或无限可列个,叫做离散型随机变量.(2)连续型随机变量所取的可能值可以连续地充满某个区间,叫做连续型随机变量.随机过程的基本概念及分类例1用X(t)表示某手机在大年初一早上从8:00开始经过t时刻收到的短信数。例2设质点Q在一直线上移动，每单位时间移动一次，且只能在整数点上移动。用X(t)表示t时刻该质点所处的位置。随机过程的定义(,F,P)为一概率空间，T(,+)为参数集。若对任一tT，有一个定义在(,F,P)随机变量X(t,)(或Xt()),,与之对应,则称{X(t,),tT}为随机过程(StochasticProcesses)。简记{X(t),tT}(或{Xt,tT})(s.p.)。或者X(t,)是一个二元函数：固定t，X(t,)是一个随机变量；(随机过程在t时刻的状态)固定，X(t,)是一个实值函数；(随机过程的样本函数或样本曲线、现实或轨道)随机变量（randomvariable）：简单的随机现象，如某班一天学生出勤人数，是静态的。随机过程（stochasticprocess）：随机现象的动态变化过程。动态的。如某一时期各个时刻的状态样本及抽样分布一、总体与样本一个统计问题总有它明确的研究对象.1、总体与个体研究对象的全体称为总体，总体中所包含的个体的个数称为总体的容量.总体中每个成员称为个体2、样本总体中抽出若干个体而成的集体,称为样本。样本中所含个体的个数，称为样本容量。抽样分布1.统计量不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.几个常见统计量样本平均值niiXnX11它反映了总体均值的信息样本方差niiXXnS122)(11它反映了总体方差的信息niiXnXn12211样本标准差niiXXnS12)(11nikikXnA11它反映了总体k阶矩的信息样本k阶原点矩样本k阶中心矩nikikXXnB1)(1k=1,2,…它反映了总体k阶中心矩的信息二、统计三大抽样分布分布2).(~,)1,0(,,,2221221nnXNXXni