《数理统计学》——研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。——研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。数理统计的分类描述统计学推断统计学第六章数理统计的基本概念参数估计(第七章)假设检验(第八章)回归分析(第九章)方差分析(第九章)推断统计学第六章统计量及其分布§6.1总体与样本§6.2样本数据的整理与显示§6.3统计量及其分布§6.4三大抽样分布例6.0.1某公司要采购一批产品,每件产品不是合格品就是不合格品,但该批产品总有一个不合格品率p。由此,若从该批产品中随机抽取一件,用x表示这一批产品的不合格数,不难看出X服从一个二点分布B(1,p).但分布中的参数p是不知道的。一些问题:•p的大小如何;•p大概在什么范围内;•能否认为p满足设定要求(如p0.05)。总体——研究对象全体元素组成的集合总体的三层含义:1.研究对象的全体2.数据3.分布总体和样本§6.1总体与个体§6.1例6.1.1考察某厂的产品质量,以0记合格品,以1记不合格品,则总体={该厂生产的全部合格品与不合格品}={由0或1组成的一堆数}若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:X01P1pp比如:两个生产同类产品的工厂的产品的总体分布:X01p0.9830.017X01p0.9150.085样本——从总体中抽取的部分个体.称为总体X的一个容量为n的样本观测值,或称样本的一个实现.),,,(21nxxx),,,(21nXXX用表示,n为样本容量.个体——组成总体的每一个元素样品、样本、样本量:样本具有两重性•一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,…,Xn表示;•另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值。此时用小写字母x1,x2,…,xn表示是恰当的。例6.1.2啤酒厂生产的瓶装啤酒规定净含量为640克。由于随机性,事实上不可能使得所有的啤酒净含量均为640克。现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:641,635,640,637,642,638,645,643,639,640这是一个容量为10的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。这样的样本称为完全样本。例6.1.3考察某厂生产的某种电子元件的寿命,选了100只进行寿命试验,得到如下数据:表6.1.2100只元件的寿命数据表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。寿命范围元件数寿命范围元件数寿命范围元件数(024]4(192216]6(384408]4(2448]8(216240]3(408432]4(4872]6(240264]3(432456]1(7296]5(264288]5(456480]2(96120]3(288312]5(480504]2(120144]4(312336]3(504528]3(144168]5(336360]5(528552]1(168192]4(360184]155213独立性:样本中每一样品的取值不影响其它样品的取值--X1,X2,…,Xn相互独立。要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:随机性:总体中每一个个体都有同等机会被选入样本--Xi与总体X有相同的分布。---也称代表性,同分布性。样本的要求:简单随机样本若总体X的样本满足:),,,(21nXXX一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是nXXX,,,21(1)与X有相同的分布nXXX,,,21(2)相互独立),,,(21nXXX则称为简单随机样本.简单随机样本N/n10.总体中个体总数样本容量设总体X的分布函数为F(x),则样本niinxFxxxF121)(),,,(总若总体X的密d.f.为f(x),则样本niinxfxxxf121)(),,,(总的联合d.f.为),,,(21nXXX的联合分布函数为6.2.1经验分布函数§6.2样本数据的整理与显示设X1,X2,…,Xn是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为x(1),x(2),…,x(n),则称X(1),X(2),…,X(n)为有序样本,用有序样本定义如下函数(1)()(1)()0,()/,,1,2,...,11,kknnxxFxknxxxknxx1()()[()]1()()nniiFxPXxEIXxFxIXxn大数定律的应用则Fn(x)是一非减右连续函数,且满足Fn()=0和Fn()=1由此可见,Fn(x)是一个分布函数,并称Fn(x)为经验分布函数。例6.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重(单位:克)351347355344351x(1)=344,x(2)=347,x(3)=351,x(4)=354,x(5)=355这是一个容量为5的样本,经排序可得有序样本:其经验分布函数为由伯努里大数定律:只要n相当大,Fn(x)依概率收敛于F(x)。0,x3440.2,344x347Fn(x)=0.4,347x3510.8,344x3471,x355更深刻的结果也是存在的,这就是格里纹科定理。定理6.2.1(格里纹科定理)设X1,X2,…,Xn是取自总体分布函数为F(x)的样本,Fn(x)是其经验分布函数,当n时,有PsupFn(x)F(x)0=1格里纹科定理表明:当n相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。1601961641481701751781661811621611681661621721561701571621546.2.2频数--频率分布表样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。例6.2.2为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品的数量,数据如下(1)对样本进行分组:作为一般性的原则,组数通常在5~20个:K=1+3.3log(n)(2)确定每组组距:近似公式为组距d=(最大观测值最小观测值)/组数;(3)确定每组组限:各组区间端点为a0,a1=a0+d,a2=a0+2d,…,ak=a0+kd,形成如下的分组区间---含下不含上[a0,a1),[a1,a2),…,[ak-1,ak)对这20个数据(样本)进行整理,具体步骤如下:其中a0略小于最小观测值,ak略大于最大观测值.(4)统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表。表6.2.1例6.2.2的频数频率分布表组序分组区间组中值频数频率累计频率(%)1[147,157)15230.15152[157,167)16290.45603[167,177)17250.25854[177,187)18220.10955[187,197)19210.05100合计2016.2.3样本数据的图形显示一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:二、茎叶图数值分开茎和叶11211|211和2例5.2.3某公司对应聘人员进行能力测试,测试成绩总分为150分。下面是50位应聘人员的测试成绩(已经过排序):64677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图,见下页。图5.2.3测试成绩的茎叶图64770246698012235689112333566779100024667881122468991223568133在要比较两组样本时,可画出它们的背靠背的茎叶图。甲车间62056乙车间87775554211667788877664421722455556668898766532801133344466778732109023585300107注意:茎叶图保留数据中全部信息。当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。6.3.1统计量与抽样分布§6.3统计量及其分布当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。定义6.3.1设X1,X2,…,Xn为取自某总体的样本,若样本函数T=T(X1,X2,…,Xn)中不含有任何未知参数。则称T为统计量。统计量的分布称为抽样分布。设是取自总体X的一个样本,),,,(21nXXX),,,(21nrrrg),,,(21nxxxg为一实值连续函数,且不含有未知参数,),,,(21nXXXg则称随机变量为统计量.),,,(21nxxx若是一个样本值,称),,,(21nXXXg的一个样本值为统计量定义统计量例是未知参数,22,,),(~NX若,已知,则为统计量是一样本,),,,(21nXXXniiniiXXnSXnX122111,1是统计量,其中),(~2NXi则但niiX1221不是统计量.常用的统计量niiXnX11)1(为样本均值niiXXnS12211)2(为样本方差niiXXnS1211为样本标准差),,,(21nXXX设是来自总体X的容量为n的样本,称统计量nikikXnA11)3(为样本的k阶原点矩nikikXXnB11)4(为样本的k阶中心矩例如21222111nniiSXXnSnnBXA(5)顺序统计量与极差设),,,(21nXXX为样本,),,,(21nxxx为样本值,且**2*1nxxx当(1)(2)()(,,,)nXXX取值为12***(,,,)nxxx时,定义r.v.nkxXkk,,2,1,*)(则称统计量)()2()1(,,,nXXX为顺序统计量.其中,}{max},{min1)(1)1(knknknkXXXX称)1()(XXDnn为极差(6)样本分位数与样本中位数样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:更一般地,样本p分位数mp可如下定义:通常,样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。(7)五数概括与箱线图次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值:最小观测值xmin=x(1),最大观测值xmax=x(n),中位数m0.5,第一4分位数Q1=m0.25,第三4分位数Q3=m0.75.所谓五数概括就是指用这五个数:xmin,Q1,m0.5,Q3,xmax来大致描述一批数据的轮廓。Rcode:Summary(),boxplot()注样本方差与样本二阶中心矩的不同2nS2SniniiniiXXXX12112222122XnXnXnii212XnXnii)(22XAn故22221)(1nSnnXAnnS222XAB