第六章 样本及抽样分布

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

什么是统计学?统计学是一门关于数据资料的收集、整理、分析和推断的科学。但人们常常将统计这一概念误解为大量数据资料的收集以及对这些数据作一些简单的运算(如求和、求平均值、求百分比等)或用图表、表格等形式把它们表示出来;其实这些工作仅是统计学工作的非主要部分。统计学还包括怎样设计试验、采集数据以及怎样对获得的数据进行分析推断等其它许多工作。随着研究随机现象规律性的科学——概率论的发展,应用概率论的结果更深入地分析研究统计资料,通过对某些现象的频率的观察来发现该现象的内在规律性,并作出一定精确程度的判断和预测;将这些研究的某些结果加以归纳整理,逐渐形成一定的数学概型,这些组成了数理统计的内容。数理统计的方法及考虑的问题不同于一般的资料统计,它更侧重于应用随机现象本身的规律性来考虑资料的收集整理和分析,从而找出相应的随机变量的分布律或它的数字特征。由于大量的随机试验能呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来,但是实际上所允许的观察永远只能是有限的,有时甚至是少量的。因此我们所关心的问题是怎样有效地利用有限的资料,便能去掉那些由于资料不足所引起的随机干扰,而把那些实质性的东西找出来。一个好的统计方法就在于能有效地利用所获得的资料,尽可能作出精确而可靠的结论。在数理统计里,不是对所研究的全部对象进行观察,而是抽取其中的部分进行观察、获得数据(即采样),并通过这些数据来对所研究的全体进行推断。由于推断是基于采样数据,而采样数据又不能包含研究对象的全部信息,因此由此所获得的结论必然会包含不定性,概率是这种不定性的度量。造成不定性的原因可分为两类:(1)由于采样数据的随机性所引起的不定性;(2)由于我们对系统真实状态的“无知”造成的不定性。数理统计工作者的任务就是要分辨这两种不定性。下面举一例来说明。某元件厂生产了一批三极管,共一百万只,每十只装成一盒,共得十万盒。现有某仪器厂需向该元件厂购买此三极管一百盒,准备安装在某种仪表上。每台仪表需用此三极管十只,恰好是一台仪表需一盒三极管,一百盒可供装一百台,但是该仪表对三极管有一定的质量要求,要求十只中至少有八只是—级品,其余的可以是二级品,否则仪表不能稳定工作。此时仪表厂对这批三极管就面临两种不定性需要分辨:(1)元件厂生产的十万盒三极管,对仪器厂来说是满意的(即一盒中至少有八只是一级品)盒子所占比例p是多少?(2)由于有十万盒三极管,现在仅购买其中的一百盒,因而就面临着另一种不定性。即假使已知此十万盒中,满意的盒子所占的比例为p,又怎样能确定买来的一百盒中,满意的占多少比例呢?例如p=0.99,即十万盒中大约有九万九千盒是满意的,这个比例对仪器厂来说应该是很好了,但也有可能发生这样的意外,即仪器厂所购买的一百盒全部落在不满意的大约一千盒之中。第一种不定性是不知道p,是我们对系统真实状态的“无知”;而后一种不定性是由于所谓“随机性”造成的。为了改善这不定性,仪器厂可要求元件厂对这批三极管的质量进行测试,也就是要求抽取部分三极管进行测试,通过这部分中一级晶所占的比例(频率)来对p的真实值进行推断,当然我们不能完全精确地决定p,但是我们可以希望获得一个(在某种意义下)比较好的判断,这就涉及到怎样设计试验,决定观察的数目.和怎样利用试验观察的结果作出一个好的“推断”等,这些都是数理统计所要研究的问题。至于在已知p的条件下,第二种不定性的程度已在概率论基础部分作过讨论。数理统计研究的内容随着科学技术和生产的不断发展而逐步扩大。但概括地说可以分为两大类:(1)试验的设计和研究,即研究如何更合理更有效地获得观察资料的方法;(2)统计推断,即研究如何利用一定的资料对所关心的问题作出尽可能精确、可靠的结论。本课程只讨论统计推断。概率论的基本概念数理统计的基本概念抽样分布返回退出本章小结习题数理统计的基本概念总体和样本统计量顺序统计量和经验分布函数返回继续我们今后所讨论的统计问题主要属于下面这种类型:从一个集合中选取一部分元素,对这部分元素的某些数量指标进行测量,根据测量获得的这些数据来推断这集合中全部元素的这些数量指标的分布情况。在统计学中,我们把所研究的全部元素组成的集合称为母体,或总体。而把组成母体的每个元素称为个体,例如在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了母体,而其中每个灯泡就是个体。但是在统计里,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或某几项数量指标X和该数量指标X在总体中的分布情况。在上述例子中X是表示灯泡的寿命,就此数量指标X而言,每个个体所总体、个体、样本、样本容量、样本值取的值是不同的。在试验中,抽取了若干个个体就观察到了x的这样或那样的数值,因而这个数量指标X是一个随机变量,而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X可能取值的全体组成的集合等同起来,所谓总体的分布也就是指数量指标x的分布。为了对总体的分布律进行各种研究,就必须对总体进行抽样观察,一般说来,我们还不止进行一次抽样观察,而是进行几次观察。通过观察就得到总体指标X的一组数值(x1,x2,…,xn),其中每个xi是一次抽样观察的结果。即某一个被观察总体、个体、样本、样本容量、样本值的个体的X指标值,(x1,x2,…,xn)称为容量为n的样本的观察值。由于我们是利用样本观察来对总体的分布进行推断,因而从总体中抽取样本进行观察时必须是随机的。所以对于随机抽样来说,对其某一次观察结果而论,是完全确定的一组值,但它又是随每次抽样观察而改变的,由于我们要依据这一观察结果进行分析推断,并研究比较各种推断方法的好坏,因而一般考虑问题时,就不能把看为确定的数值,而应该看作为随机向量X=(X1,X2,…,Xn),称它为容量是n的样本,因而对样本也有分布可言。总体、个体、样本、样本容量、样本值我们抽取样本的目的是为了对总体的分布律进行各种分析推断,因而要求抽取的样本能很好地反映总体的特性,这就必须对随机抽样的方法提出一定的要求。通常提出下面两点:①代表性:要求样本的每个分量Xi与所观察的总体X具有相同的分布F(x);②独立性:X1,X2,…,Xn为相互独立的随机变量,也就是说,每个观察结果既不影响其他观察结果,也不受其它观察结果的影响。满足上述两点性质的样本称为简单随机子样。在今后如不作特殊声明,所说的样本将理解为简单随机样本,对于简单随机样本X=(X1,X2,…,Xn),其分布可以由总体X的分布函数F(x)简单随机样本(或概率密度f(x))完全决定,X的分布函数为简单随机样本))(()(11niiniixfxF或概率密度为在数理统计中,研究对象的全体称为总体;组成总体的每个元素称为个体。从总体中抽取的一部分个体,称为总体的一个样本;样本中个体的个数称为样本的容量。从分布函数为F(x)的随机变量X中随机地抽取的相互独立的n个随机变量,具有与总体相同的分布,则X1,X2,…,Xn称为从总体X得到的容量为n的随机样本,简称样本。一次具体的抽取记录x1,x2,…,xn是随机变量X1,X2,…,Xn的一个观察值。总体与样本例1A厂生产的某种电器的使用寿命服从指数分布,参数为未知,为此抽查了n件电器,测量其实际寿命。是确定本问题的总体,样本及样本的分布。其它为,所以样本的联合密度总体相互独立,且来自同一的使用寿命,因为件电器中各件电器表示抽取的样本,其概率密度为是一件电器的使用寿命总体解,00,,,,),,,(,,,,,,0,00,)(21)(21212121nxxxnnnnxxxxexxxfXXXXnXXXxxexfXn样本是总体的代表和反映,但在我们抽取样本之后,并不直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本所包含的关于我们所关心的事物的信息集中起来,这便是针对不同的问题构造出样本的某种函数,这种函数在统计学中称为统计量。引进统计量的目的是为了将杂乱无序的样本值归结为一个便于进行统计推断和研究分析的形式,集中样本所含信息,使之更易揭示问题实质,从而解决问题。统计量中应该不含有未知参数,如果统计量中仍含有未知参数,就无法依靠样本观测值求出未知参数的估计值,因而失去利用统计量估计未知参数的意义,这是违背我们引进统计量的初衷的。统计量概念的引入来自总体X的样本X1,X2,…,Xn的函数g(X1,X2,…,Xn),若是连续的且不含任何未知参数,则称为一个统计量。统计量却都是统计量。们含有未知参数,而都不是统计量,因为它是未知参数,则,维样本,其中抽取的一个的正态总体中是从具有分布密度为若设例2221111212221,3,,)(212),(,][XXXXXXXNXX常用的统计量niiniiniiniinnXXnSSXnXnXXnSXnXxxxXXXX12221212212121)(11)3()(11)(11)2(11,,,,,,样本标准差样本方差)样本平均值(样本的观察值,定义是这一的一个样本,是来自总体设常用的统计量,2,1,)(1)5(,2,1,1)4(11kXXnBkkXnAknikiknikik阶(中心)矩样本阶(原点)矩样本常用统计量的性质nXDXEXxFXXXXxFXXEEXXEXDEXkknkkkkkkkk221222)()(),,,(),(1)(,)()(,,有均值本的二阶矩存在,则对样样本,如果中抽得的一个简单随机是从该总体服从分布设总体定理。)时,假定它是存在的(或并且约定,在我们用到阶中心矩,即记表示总体的阶原点矩,总体的表示表示总体的方差,表示总体的均值,以下约定:常用统计量的性质nADEAAkkxFnnnnnSDESxFkkkkkknn2222322422242242222)(2)(33)2(21)()(2,有阶原点矩阶矩存在,则对样本的的如果定理其中本方差,有的四阶矩存在,则对样如果定理定理1的证明nXEnXEnXnEXEXDnXEnXnEXEniiniiniininiinii2212212212111)(1)]([1)1()()(1)(1)1()(证明定理2的证明2122212222442322422242242222222212221122])()([])([)()1(,)(,03)2(21)(})1(()1(11}{)1(11})()1(111{niiniiniiiiinjijiniiniiniinXnXXXSnEYYDEYXYnnnnnSDnnnnnnnXXXEnnnnXnnXnEES,且有,则记证明定理2的证明224224242222422222214221422221441221122122122)1)(32()12(])1(3[1])1([2)1()()1()23(1)(2)()(1))((2)(](nnnnnnnnnnnnnnnnSEnYYYYYYYYYYnYYYYYYnYYYYnYYnYYnYnlkjikjijikjijinjjkjijikniijijijijiniinjjnjjniiniinii对上式两边取期望得:定理2的证明得证。由于22222)()()(nnnESSESD定理3的证明nnnnnXXnXnEXnEEAEAADXEnXnEEAkkkkk

1 / 64
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功