数理统计初步

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十一章数理统计初步•第一节基本概念•第二节参数的点估计•第三节参数的区间估计•第四节参数的假设检验•第五节一元线性回归这就是一个典型的统计思维过程。数据归纳结果数理统计就是一个归纳推断的过程。问题从宿舍到教室需要花费多少时间?相信大家在心里都有一个大概的“数”了你是怎么得到这个“数”的?数理统计是以概率论为基础,关于实验数据的收集、整理、分析、推断的一门科学与艺术。科学试验,或对某事物、现象进行观察获得的数据称为实验数据。——可以通过某种概率分布老描述问题什么是实验数据?特点数据受随机因素的影响。数据收集、整理、分析、推断《数理统计》就是围绕着四个过程来进行研究的.问题实验数据的处理过程?第一节基本概念1.总体、样本、统计量2.几种常用统计量的分布总体、样本1引例1某工厂为检测出厂的100000只灯泡的寿命,随机抽取了1000只灯泡进行检测.引例2为了解某城市职工的年收入情况,随机抽取一少部分职工进行调查统计.引例3某电器公司开发一种使用新型灯丝的灯泡,为了了解新型灯丝灯泡的使用寿命,可抽取200只新型灯丝灯泡,测试其使用寿命.上面这些例子都有一个共同的特点,就是为了研究某个对象的兴致,只研究对象包含的一部分元素,而不是研究对象包含的所有元素,通过这部分元素的研究,推断对象全体的性质,这就引出了总体、个体、和样本的概念.将试验的全部可能的观察值称为总体(也称为母体),每一个可能的观察值称为个体.总体中所包含的个体的个数称为总体的容量.容量为有限的总体称为有限总体,容量为无限的总体称为无限总体.在数理统计中,人们一般通过从总体中抽取一部分个体,根据获得的数据来对总体分布进行推断,从总体中抽出的这一部分个体组成的集合称为样本(也称子样),样本中样品的个数称为样本容量(也称样本量).2样本从总体中抽取样本时,通常满足两个要求:要求每个个体都有相同机会被选入样本,这便意味着每一样本与总体有相同的分布.要求样本中每个样品取什么值不受其它样品取值的影响,这意味着相互独立.2.独立性1.代表性满足上述两条的样本称为简单随机样本,获得简单随机样本的抽样方法称为简单随机抽样.在今后,如果不作特殊声明,所说的样本将理解为简单随机样本.统计量3定义1在对样本进行观察时,每个个体的取值结果都是一个随机变量.如果样本包含n个个体,则这n个个体的指标可视为n个变量,常用来表示.样本观察的结果就是这些随机变量的取值,称为样本值,常用来表示.123()nXXXX,,,,123()nxxxx,,,,设是总体的样本,是样本的函数,如果其中不包括总体的任何未知的参数,那么称为一个统计量。在引例1中,我们希望知道全体灯泡的平均寿命,一个简单的方法就是用样本的平均寿命去估计总体的平均寿命.在此过程中,称为统计量.1231000()XXXX,,,,12310001000XXXX12310001000XXXX设总体,其中已知,未知,是的一个样本,则:是统计量不是统计量设总体,其中未知,已知,是的一个样本,则:不是统计量是统计量几个常用的统计量设是来自总体的一个样本,是这个样本的一组观测值.样本均值:几个常用的统计量设是来自总体的一个样本,是这个样本的一组观测值.样本方差:几个常用的统计量设是来自总体的一个样本,是这个样本的一组观测值.样本标准差:1设总体服从正态分布,即,是X的一个样本,则称2~()XNμσ,123()nXXXX,,,,~(01)XμNσn,为U统计量其中,μ为总体均值,为总体方差.2σ设,对给定的,称满足条件~(01)XN,(01)αα()αPXUα(7)()1αPXUα„(8)或的点Uα为标准正态分布的上α分位点或上侧临界值,简称上α点.在统计学中,常用到标准正态分布的上α分位点这个概念,介绍如下:2(||)αPXUα的点为标准正态分布的双侧分位点或双侧临界值,简称双α点,其几何意义如图2所示.2αU图1图2在统计中,Uα可直接根据式(8)查书后附录一(正态分布表)求得;可由查表求得.2αU2()2ααPXU已知某单位职工的月奖金服从正态分布,总体均值为200,总体标准差为40,从该总体中抽取一个容量为20的简单随机样本,求这一样本的均值介于190~210的概率.例1解:因为,所以故,所以,样本均值介于190~210的概率是0.7372.2~(20040)20XNn,,22402008020σμn,~(20080)XN,190200200210200(190210)808080xPxP2(1.118)10.8686210.73722设,是X的一个样本,则称为统计量,且2~()XNμσ,123()nXXXX,,,,22(1)ns2χ2222(1)(1)nsχχn类似于标准正态分布,对于给定的,满足条件(01)αα2222122{[(1)][(1)]}ααPχχnχχnα的点,为分布的双侧α分位点或双侧临界值,自由度n-1.212(1)αχn22(1)αχn2χ密度函数的图形分布2t设,是X的一个样本,则称2~()XNμσ,123()nXXXX,,,,Xμsn为分布其中,且~(1)Xμttnsn类似于标准正态分布,对于给定的,满足条件(01)αα2{(1)}αPttnα的点为t分布的双侧α分位点或双侧临界值,自由度n-1.2(1)αtn第二节参数的点估计1.点估计的方法2.估计量的评选标准引例工厂生产一批铆钉,铆钉头的直径是一个随机变量,现在要问这批铆钉头部的平均直径是多少?根据经验知道,服从正态分布,但参数和未知,而铆钉头部的平均直径就是参数,因此需设法估计的值.通常我们从中抽取若干铆钉进行直径的测定,以这些测定量的平均值作为整批铆钉头部直径的平均值的近似值点估计是以样本的某个函数值来估计总体的未知参数;参数估计区间估计点估计区间估计则是用一个区间来估计总体未知参数所在的范围,即把未知参数值估计在某两个界限之间.估计中常用的方法是:用一个样本的统计量估计总体的参数,并称它为估计量,其具体值称为估计值.θθ用一个数值来估计某个参数,称为参数的点估计.现有一批支援灾区的衣裤,共500箱,每箱内放的衣裤数量差不多,估计这批衣裤有多少件.例1解:为估计衣裤总数,随机抽查其中30箱,清点的数量如下:10110498111103971109999100,,,,,,,,,10397104102961029810196105,,,,,,,,,10598102101107971049610394,,,,,,,,,样本的平均数是.以此为总体平均数的估计值,也就是说,每箱平均有衣裤101.1件,500箱共计50550件衣裤,也可以说,这批支援灾区的衣裤大约有5万件.3033101.13030xx估算例1的标准差.例2解:所以,总体标准差的估计值为4.147.2()4.1471xxSn数字特征法1用样本的数字特征来估计相应总体的数字特征的方法称为数字特征法.在实际问题中常需要对总体的数学期望和方差进行点估计。设是来自总体的一个样本,即:总体均值的估计量就可以选择样本均值,同样样本方差也可以作为总体方差的估计量。即:()D某厂生产一批铆钉,现在检验铆钉头部的直径,从产品中抽取12只,测得直径(单位:mm)分别为:例2解:13.30,13.38,13.40,13.32,13.43,13.4813.51,13.31,13.34,13.47,13.44,13.50设铆钉头部直径总体,其中和未知,用数字特征法估计和。和的估计量分别为222222222222221ˆ[(13.3013.41)(13.3813.41)(13.4013.41)12(13.3213.41)(13.4313.41)(13.4813.41)(13.5113.41)(13.3113.41)(13.3413.41)(13.4713.41)(13.4413.41)(13.5013.41)]0.0053s顺序统计量法2估计总体参数除数字特征法之外,还有顺序统计量法.将样本的一组观察值),,,(21nxxx,按大小顺序排列为**2*1nxxx,取最大值*nx与最小值*1x之差为R,则称R为样本的极差;取居中的一个数(若n为偶数,则取居中两数的平均值)为x~,则称x~为样本的中位数,记作统计量x~和R称为顺序统计量,构成顺序统计量的方法称为顺序统计量法.对于正态总体,用x~来估计,用R来估计是较适宜的,这时,x~与ˆ,R和ˆ有以下关系:x~ˆ(1)Rdn1ˆ(2)其中2111nndn(2≤n≤10)设某种灯泡寿命总体服从),(2N,其中2,未知,今随机取得6只灯泡,测得寿命(单位:h)为1400,1502,1453,1367,1650,1660用顺序统计量法估计和2的值.例3解:按顺序排列为:136714001453150216501660,所以5.1477)15021453(21~ˆx(h)16601367293R11111160.39086262ndˆ0.3908293114.52()h设某种灯泡寿命总体服从),(2N,其中2,未知,今随机取得6只灯泡,测得寿命(单位:h)为1400,1502,1453,1367,1650,1660用顺序统计量法估计和2的值.例3解:在例2中,同样可以用数字特征法来估计和2.ˆ1505.3()xhˆ113.89()h这样,对同一正态总体的均值和方差2,用不同的方法就得到不同的估计值,这就要求我们选一种较好的估计方法.估计量是随机变量,对不同的样本观察值它有不同的估计值,这些估计值在未知参数的真值附近波动.我们希望估计值的数学期望等于未知参数的真值,并且希望的方差越小越好.下面给出估计量的两个评选标准.无偏性1定义1设12ˆ(,,,)nXXX是未知参数的一个估计量,若12ˆ(,,,),nEXXX对所有成立,则称12ˆ(,,,)nXXX为的无偏估计量,否则称12ˆ(,,,)nXXX为的有偏估计量.有效性2定义2设1ˆ,2ˆ均为未知参数的无偏估计量,若12ˆ()()DD,则称1ˆ比2ˆ有效.区间估计的具体做法是:构造两个统计量112n()θXXX,,,21212()()nθXXXθθ,,,和用区间来估计未知参数的可能取值范围,要求落在区间内的概率尽可能大.12()θθ,θθ12()θθ,通常,我们事先给定一个很小的数α(,常取5%或1%),按概率1-α估计总体参数可能落在区间内的概率.1-α称为置信度或置信水平,α称为检验水平(估计不成功的概率),区间称为置信度为1-α的置信区间.01αθ12()θθ,12()θθ,正态总体数学期望的区间估计11标准差已知时,均值μ的区间估计σ对于正态分布总体(对其他分布的总体,当样本容量≥30时,可近似看成正态分布),如果已知总体标准差为,样本均值为,则在置信度为1-α下,总体均值μ的置信区间为Xσ22()αασσXUXUnn,(1)其中,为标准正态分布的双侧α分位点,n为样本容量.2αU在上面的置信区间中,为点估计值.置信区间实际上是以为中心,以两倍为长度的区间,称为边际误差.XX2ασUn2ασUn解:例3某旅行社为调查当地旅游者的平均消费额,随机访问了100名旅游者,得知平均消费额元.根据经验,已知旅游者消费服从正态分布,且标准差元.求该地旅游者平均消费额μ的置信度为95%的置信区间.80X12σ由给定的置信度可得10.950.050.0252ααα,,查标准正态分布表,将数据代入式(1)得的置信度为95%的置信区间为0.0251.96U0.02510080121.96nXσU,,,(77.682.4)

1 / 78
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功