数理统计华南农业大学理学院应用数学系StatisticsAppliedMathematicDepartment,CollegeofSciences,SCAU引言随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。引言例如:某公路上行驶车辆的速度服从什么分布是未知的;电视机的使用寿命服从什么分布是未知的;产品是否合格服从两点分布,但参数——合格率p是未知的;数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。从第五章开始,我们学习数理统计的基础知识。数理统计的任务是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性作出合理的推断.数理统计所包含的内容十分丰富,本书介绍其中的参数估计、假设检验、方差分析、回归分析等内容.第五章主要介绍数理统计的一些基本术语、基本概念、重要的统计量及其分布,它们是后面各章的基础。学习的基本内容样本与统计量总体与样本在数理统计中,把研究对象的全体称为总体(population)或母体,而把组成总体的每个单元称为个体。抽样要了解总体的分布规律,在统计分析工作中,往往是从总体中抽取一部分个体进行观测,这个过程称为抽样。样本与统计量子样子样是n个随机变量,抽取之后的观测数据称为样本值或子样观察值。12,,,nxxx12,,,nXXX在抽取过程中,每抽取一个个体,就是对总体X进行一次随机试验,每次抽取的n个个体,称为总体X的一个容量为n的样本(sample)或子样;其中样本中所包含的个体数量称为样本容量。12,,,nXXX随机抽样方法的基本要求独立性——即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽样结果的影响。满足上述两点要求的子样称为简单随机子样.获得简单随机子样的抽样方法叫简单随机抽样.代表性——即子样()的每个分量与总体具有相同的概率分布。12,,,nXXXiXX从简单随机子样的含义可知,样本是来自总体、与总体具有相同分布的随机变量.12,,,nXXXXX简单随机抽样例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中,则这是一个简单随机抽样。但实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成是简单随机抽样。统计量定义设()为总体X的一个样本,为不含任何未知参数的连续函数,则称为样本()的一个统计量。12,,,nXXX12(,,,)nfXXX12(,,,)nfXXX12,,,nXXX则例如:设是从正态总体中抽取的一个样本,其中为已知参数,为未知参数,123(,,)XXX2(,)N1233XXX21233XXX123XXX2123XXX是统计量不是统计量几个常用的统计量样本均值(samplemean)设是总体的一个样本,12(,,,)nXXXX11niiXXn样本方差(samplevariance)22111niiSXXn样本均方差或标准差它们的观测值用相应的小写字母表示.反映总体X取值的平均,或反映总体X取值的离散程度。几个常用的统计量niiXXnS1211设是总体的一个样本,12(,,,)nXXXX子样的K阶(原点)矩几个常用的统计量设是总体的一个样本,12(,,,)nXXXX11nkkiiAXn子样的K阶中心矩11nkkiiBXXn它包括两个方面——数据整理计算样本特征数数据的简单处理为了研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。数据的简单处理是以一种直观明了方式加工数据。计算样本特征数:数据的简单处理数据整理:将数据分组计算各组频数作频率分布表作频率直方图(1)反映趋势的特征数样本均值11niiXXn中位数:数据按大小顺序排列后,位置居中的那个数或居中的两个数的平均数。众数:样本中出现最多的那个数。数据的简单处理(2)反映分散程度的特征数:极差、四分位差极差——样本数据中最大值与最小值之差,RMm四分位数——将样本数据依概率分为四等份的3个数椐,依次称为第一、第二、第三四分位数。第一四分位数Q1:10.25PXQ第二四分位数Q2:20.5PXQ第三四分位数Q3:30.75PXQ例1为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,求随机变量X的分布状况。8788111917370929810594999198110989790839288869410299891049494929687949286102887590908084918294991029196949485888083816995809792961099180809410280869190838491879576909177103898885959210492958386818691898396867592第一.整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息.步骤如下:1.找出数据中最小值m=69,最大值M=111,极差为M-m=422.数据分组,根据样本容量n的大小,决定分组数k。一般规律30≤n≤405≤k≤640≤n≤606≤k≤860≤n≤1008≤k≤10100≤n≤50010≤k≤20数据分组数参考表数据数40~60100150200400600800100015002000500010000分组数6~87~910~15162024273035395674一般采取等距分组(也可以不等距分组),组距等于比极差除以组数略大的测量单位的整数倍。57.4969111kmM本例取k=9.本例测量单位为1厘米,组距为3.确定组限和组中点值。注意:组的上限与下限应比数据多一位小数。当取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:一般根据算式:各组中点值组距=组的上限或下限12[67.5,72.5)[72.5,77.5)[77.5,82.5)[82.5,87.5)[87.5,92.5)[92.5,97.5)[97.5,102.5)[102.5,107.5)[107.5,112.5)组中值分别为:7075808590951001051104.将数据分组,计算出各组频数,作频数、频率分布表组序区间范围频数fj频率Wj=fj/n累计频率Fj1[67.5,72.5)20.020.022[72.5,77.5)50.050.073[77.5,82.5)100.100.174[82.5,87.5)180.180.355[87.5,92.5)300.30.656[92.5,97.5)180.180.837[97.5,102.5)100.10.938[102.5,107.5)40.040.979[107.5,112.5)30.031.00作频率直方图5.作出频率直方图以样本值为横坐标,频率/组距为纵坐标;以分组区间为底,以为高15jjjjjWWYXX从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势,——随机变量分布状况的最粗略的信息。在频率直方图中,每个矩形面积恰好等于样本值落在该矩形对应的分组区间内的频率,即频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。11jjjjjjjWSXXWXX样本方差样本标准差Q1Q3极差四分位差68.69098.28885.2595424.875第二.计算样本特征数1.反映集中趋势的特征数:样本均值、中位数、众数等样本均值MEAN中位数MEDIAN众数2.反映分散程度的特征数:样本方差、样本标准差、极差、四分位差等上述差异特征统计量的值越小,表示离散程度越小.90.3X9191,94MTBsetc1DATA8788111917370929810594999198DATA1109897839083928886941029989104DATA94949296879492861028875909080DATA84918294991029196949485888083DATA8169958097929610991808094102DATA80869190838491879576909177103DATA8988859592104929583868186918983DATA96867592MTBendMTBdescribec1例1DOS状态下的MINITAB操作显示:NMEANMEDIANTRMEANSTDEVC110090.30091.00090.3228.288SEMEANMINMAXQ1Q3C10.82969.000111.00085.25095.00011niiXXn中位数211()1niiSXXnSn第一四分位数第三四分位数MTBCODE(67.5:72.49)70(72.5:77.49)75(77.5:82.49)80(82.5:87.49)85(87.5:92.49)90(92.5:97.49)95(97.5:102.49)100(102.5:107.49)105(107.5:112.49)110C1C2MTBTALLYC2;SUBCALL.将C1数据列重新编码,并保存到C2数据列显示各列数据的频数、累计频数、频率、累计频率C2COUNTSCUMCNTSPERCENTSCUMPCENTS(频数)(累计频数)(频率)(累计频率)120.020.02570.050.0710170.100.1718350.180.3530650.300.6518830.180.8310930.100.934970.040.9731000.031.00显示结果作业习题五P1112;3;4预习第三节统计量的分布