概率论数理统计基础概率论从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.概率论到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.概率论数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.概率论数理统计的特点是应用面广,分支较多.社会的发展不断向统计提出新的问题.计算机的诞生与发展,为数据处理提供了强有力的技术支持,数理统计与计算机的结合是必然的发展趋势.概率论数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析.由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来.只允许我们对随机现象进行次数不多的观察试验,也就是说,我们获得的只是局部观察资料.但客观上概率论数理统计的任务就是研究怎样有效地收集、整理、分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论.概率论由于推断是基于抽样数据,抽样数据又不能包括研究对象的全部信息.因而由此获得的结论必然包含不肯定性.在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断.概率论下面我们以一例进行说明:概率论某种子公司A,栽种了几种类别的鲜花,收获了大量的花籽,并把每25粒花籽扎成一小包出售.一个零售商批发了若干包,并向顾客保证:在每包25粒花籽中至少有22粒将能发芽,否则的话可免费调换另一包.每包要是有3粒不发芽,马上免费退换!每包25粒概率论每包25粒中至少有22粒将发芽所有的包都如此吗??这种类型的不肯定性,即不知道种子公司出售的小包中可接受的比例,它是由于对总体的真实状态(天然状态)无知所引起的不肯定性.零售商面临如下两种类型的不肯定性:(1)他对种子公司出售的小包中可接受(即至少有22粒花籽将发芽)的包数所占比例是不清楚的.AP这是第一类不肯定性.概率论(2)由于种子公司出售的花籽的货单上,这类花籽共有一百万包,而零售商只购买了200包,那些包是可接受的呢??这就是尽管他知道了一百万包可接受的比例,但对他所购买的200包,其中可接受的比例仍旧没有“把握”.AP从中购买200包共100万包因此他又面临着另一类不肯定性;概率论零售商购买的200包仍有可能“碰巧”是从不可接受的一万包中选取的.那些包是可接受的呢??即使是0.99,即种子公司出售的一百万包中有99万包是可接受的,AP这样他就要损失一笔资金.从中购买200包共100万包概率论这一类不肯定性是由于“随机性”所引起的.在已知的条件下,这种不肯定性的程度已在概率论部分作过讨论.AP下面我们回到第一类不肯定性:零售商对种子公司出售的小包中可接受(即至少有22粒花籽将发芽)的包数所占比例是多少没有把握.AP概率论零售商能够根据试验的方法(请公司进行发芽试验)来改善他的处境.根据试验他能作出天然状况是多少的决策.AP这就是抽取部分种籽进行发芽试验,通过这部分中发芽数所占比例(频率)来对的真值进行推断.AP概率论(1)怎样设计试验,决定观察的数目;(2)怎样利用试验观察的结果作出一个“好”的推断等.这都是数理统计所要研究的问题.虽然他不能精确地和肯定地确定,但可以期望获得一个(在某种意义下)比较好的推断.AP这就涉及到概率论第一个问题是怎样进行抽样,使抽得的样本更合理,并有更好的代表性?这是抽样方法和试验设计问题:最简单易行的是进行随机抽样.第二个问题是怎样从取得的样本去推断总体?这种推断具有多大的可靠性?这是统计推断问题.本课程着重讨论第二个问题,即最常用统计推断方法.概率论概率论是数理统计的基础,而数理统计是概率论的重要应用.但它们是并列的两个学科,并无从属关系.可见,在数理统计中必然要用到概率论的理论和方法.因为随机抽样的结果带有随机性,不能不把它当作随机现象来处理.由此也可以说,概率论统计方法具有“部分推断整体”的特征.在结束本节之前,我们需要强调说明一点:因为我们是从一小部分样本观察值去推断该全体对象(总体)情况,即由部分推断全体.这里使用的推理方法是“归纳推理”.概率论这种归纳推理不同于数学中的“演绎推理”,它在作出结论时,是根据所观察到的大量个别情况,“归纳”起来所得,而不是从一些假设、命题、已知的事实等出发,按一定的逻辑推理去得出来的.概率论例如,在几何学中要证明“等腰三角形底角相等”只须从“等腰”这个前提出发,运用几何公理,一步一步推出这个结论.而一个习惯于统计思想的人,就可能想出这样的方法:做很多大小形状不一的等腰三角形,实地测量其底角,看差距如何,根据所得资料看看可否作出“底角相等”的结论.这样做就是归纳式的方法.概率论现在要问:从局部观察要对总体下结论有没有片面性呢?结论是否可靠?显然这里不仅依赖于进行局部观察的“样本”是否具有总体的代表性,也依赖于对从这些样本得到数据的合理加工、分析并得出论断.概率论我们对每个经过合理手续选取的一个样品也应看到它所具有的两重性:一方面它具有特殊性,因为它毕竟是个别观察值,不能反映总体的全面性质,有片面性.因而统计上往往不采用由一次抽取的样品来下结论.概率论在这个基础上再加上科学的推断方法,对总体下的结论同样也是可靠的.另一方面也要看到“普遍性即存在于特殊性之中”,即每个样品的情况又必然反映总体的一些普遍性.当样品有一定数量时总体的普遍性是可以得到比较真实的反映的.概率论但此时还应记住毕竟是由“局部”推断“整体”,因而仍可能犯错误,结论往往又是在某个“可靠性水平”之下得出的.这种矛盾的特殊性与普遍性的辩证统一在统计学中贯穿始终,是我们应该记住的基本思想.概率论第二节样本及抽样分布统计量与经验分布函数统计三大抽样分布几个重要的抽样分布定理课堂练习小结布置作业概率论由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.1.统计量这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.一、统计量与经验分布函数概率论定义.),,,(,,,),,,(,,,21212121个统计量称是一中不含未知参数,则的函数,若是的一个样本,是来自总体设nnnnXXXggXXXXXXgXXXX请注意:.),,X(),,(,,,,,,X21212121的观察值计量也是统则是一个样本的观察值的一个样本是来自总体设nnnnXXgxxxgxxxXXX概率论几个常见统计量样本平均值niiXnX11它反映了总体均值的信息样本方差niiXXnS122)(11它反映了总体方差的信息niiXnXn12211样本标准差niiXXnS12)(11概率论nikikXnA11它反映了总体k阶矩的信息样本k阶原点矩样本k阶中心矩nikikXXnB1)(1k=1,2,…它反映了总体k阶中心矩的信息概率论统计量的观察值,2,1)(11,2,11;)(11)(11;111121212kxxnbkxnxxnsxxnsxnxnikiknikikniiniinii概率论2.经验分布函数.,,,)(,,,2121的随机变量的个数中不大于表示的一个样本,用是总体设xxxxxxsFXXXnnxxsnxFn)(1)(经验分布函数为定义2,121,321,0)()(21133xxxxFxFF若若若的观察值为,则经验分布函数,,具有一个样本值设总体例概率论)1,,2,1(,1,,,0)()(.,,,)()1()()1()()2()1(21nkxxxxxnkxxxFxFxxxnxxxnkknnnn若若若的观察值为则经验分布函数如下:将它们按大小次序排列值的样本是总体的一个容量为一般,设概率论二、统计三大抽样分布)(~22n记为2分布1、定义:设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的分布.nXXX,,,21222212nXXX22分布是由正态分布派生出来的一种分布.概率论2分布的密度函数为000)2(21);(2122xxexnnxfxnn来定义.其中伽玛函数通过积分0,)(01xdttexxt)(x注.2,2~.2,21~),1(~.2,21)1(1222222nXXXniiii可加性知再由即由定义分布就是已知概率论),,(2N1.设相互独立,都服从正态分布nXXX,,,21则)(~)(121222nXnii).(~21221nnXX则),(~),(~222121nXnX这个性质叫分布的可加性.2分布的性质2,),(~22充分大时则当nn3.若的分布nnX2近似正态分布N(0,1).(应用中心极限定理可得)2.设且X1,X2相互独立,概率论E(X)=n,D(X)=2n.,),(~.222分布的数学期望与方差若4n1)()(),1,0(~2iiiXDXENX故事实上,由213)]([)()(2242iiiXEXEXD.2)()(,)()(122122nXDDnXEEniinii概率论分布的分位点2.5)(222)()(ndyyfnP,10,对于给定的正数称满足条件.382.34)25()(.)()(20.1222可通过查表求,例如图所示分位点,分布的上为的点nnn)(2n概率论概率密度函数为:tntnnnthn212)1()2(]2)1[()(定义:设X~N(0,1),Y~,且X与Y相互独立,则称变量nYXt所服从的分布为自由度为n的t分布.)(2n2、t分布).(~ntt记为分布的分布又称为学生氏分布)(.ntt概率论分布的性质:t)2()2()(,0)(),(~.1nnntDtEntttn与方差为:其数学期望分布的具有自由度为.21)(lim,.0.222tnethntt函数的性质有由再分布概率密度的图形,其图形近似于标准正态充分大时当对称分布的密度函数关于).1,0(~Ntn近似足够大时,即当概率论..)()(如图所示分位点分布的上为的点ntnt)(nt)()()(ntdtthnttp称满足条件,对于给定的分布的分位点,10.3t概率论)(nt)()(1ntntt分位点的性质:分布的上.1315.2)15()(025.0tntt求得,例可查表分位点分布的上zntn)(45的值,可用正态近似时,对于常用的当概率论由定义可见,3、F分布121nUnVF~F(n2,n1)),(~),(~2212nVnU定义:设U与V相互独立,则称随机变量服从自由度为n1及n2的F分布,n1称为第自由度,n2称为第二自由度,记作21nVnUFF~F(n1,n2).概率论即它的数学期望并不依赖于第一自由度n1.0001)()()()()()(2222221211211212121yyyyynnnnnnnnnnnn1.F分布的数学期望为:2)(22nnFE若n22若F~F(n1,n2),F的概率密度为分布的性质F概率论),(21nnF2.F分布的分位数称满足条件,对于给定的,10