作出精确而可靠的结论.数理统计可以分为两大类:一类是如何科学地安排试验,-------描述统计学如:试验设计、抽样方法。另一类是研究如何分析所获得的随机数据,对所研究的问题进行科学的、合理的估计和推断,尽可能地为采取一定的决策提供依据,-------推断统计学,如:参数估计、假设检验等。以获取有效的随机数据。第1章数理统计的基本概念100个样品进行强度测试,于是面临下列几个问题:例如某厂生产一型号的合金材料,用随机的方法选取1、估计这批合金材料的强度均值是多少?(参数的点估计问题)2、强度均值在什么范围内?(参数的区间估计问题)3、若规定强度均值不小于某个定值为合格,那么这批材料是否合格?(参数的假设检验问题)4、这批合金的强度是否服从正态分布?5、若这批材料是由两种不同工艺生产的,那么不同的工艺对合金强度有否影响?若有影响,那一种工艺生产的强度较好?(分布检验问题)(方差分析问题)6、若这批合金由几种原料用不同的比例合成,那么如何表达这批合金的强度与原料比例之间的关系?(回归分析问题)我们依次讨论参数的点估计、区间估计、假设检验、方差分析、回归分析下面引入一些数理统计中的术语。二、统计量一、总体与样本抽样和抽样分布三、几个常用的分布四、正态总体统计量的分布1.总体研究对象的某项数量指标值全体称为总体(母体)个体——总体中每个成员(元素)研究某批灯泡的质量总体…考察国产轿车的质量总体一总体和样本破坏性的试验更是不允许对整个总体进行考察.考察某工厂生产的灯泡寿命考察某型号手机的质量考察吸烟和患肺癌的关系在实际问题中,要考察整个总体往往是不可能的,因为它需要耗费太多的资源和太多的时间.有些2.样本样本中所包含的个体数目称为样本容量.从国产轿车中抽5辆进行耗油量试验。样本容量为5。为了推断总体分布及各种特征,一个可行的办法是从该总体中按一定的规则抽取若干个个体进行观察和试验,以获得有关总体的信息.这一抽取过程称为“抽样”,所抽取的部分个体称为样本.方法.由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体,必须考虑抽样统计中,采用的抽样方法是随机抽样法,即子样中每个个体是从母体中随意地取出来的。(1)重复(返回)抽样分量Xk与所考察的总体有相同的分布.从总体中抽取个体检查后放回,母体成分不变(分布不变).,,2,1nk相互独立的随机变量.12,,,nXXX12,,,nXXX对无限母体而言做无返回抽取,并不改变母体的成分独立且同分布于母体12,,,nXXX(2)非重复(无返回)抽样12,,,nXXX取出样本后改变了母体的成分,所以12,,,nXXX对有限母体,不相互独立,(2)独立同分布性它要求抽取的样本满足下面两点:(1)代表性(随机性):最常用的一种抽样方法叫作“简单随机抽样”。其中每一个分量Xk与所考察的总体有相同的分布.每一个个体被抽到的可能性相同。从总体中抽取样本的每一个分量Xk是随机的,.,,2,1nk是相互独立的随机变量.12,,,nXXX若不特别说明,就指简单随机样本.简单随机样本是应用中最常见的情形,今后当说到“X1,X2,…,Xn是取自某总体的样本”时,简单随机样本可以用与总体独立同分布的n个相互独立的随机变量若总体X的分布函数为,xF联合分布函数为knknnnxFxFxFxFxxxF12121,,,*)=(若总体X的分布密度函数为,xf表示.12,,,nXXX则其简单随机样本的则其简单随机样本的联合密度函数为离散总体)()(~)()(iixXPxPX则样本的分布列kNknnxPxxxP121,,,*)(niinxfxxf11*)(),,(22()21(),2xfxexniinxfxxf11*)(),,(2211212niinxe样本的联合概率密度为(2)总体X的概率密度为例1对下列总体分别求出样本的联合分布);,1(~)1(pbX),(~)2(2NX我们只能观察到随机变量取的值,而见不到随机变量.3.总体、样本、样本值的关系事实上我们抽样后得到的资料都是具体的、确定的值.如我们从某班学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不是样本.因而可以由样本值去推断总体.总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,去推断总体的情况--总体分布F(x)的性质.样本是联系二者的桥梁统计是从手中已有的资料--样本值,4.样本的分布1)样本的频数分布将n个样本值按从小到大排列,把相同的数合并,并指出其频数(样本中各数出现的次数)x频数频率1)样本的经验分布函数样本值样本值小于或等于x的个数,作---样本的经验分布函数给出了在n次独立重复试验中,事件出现的频率,具有分布函数的一切性质。如:非降,右连续;由频数分布知若样本为n维r.v,那么对于每一样本值就可作一个经验分布函数,故是随机变量---n次独立重复试验中,事件发生的频率。由伯努利大数定律,这就是我们可以由样本推断总体的基本理论依据.格列汶科进一步证明了:当n→∞时,Fn(x)以概率1关于x一致收敛于F(x),即这就是著名的格列汶科定理.1}0|)()(|suplim{xFxFPnxn定理告诉我们,当样本容量n足够大时,对所有的x,Fn(x)与F(x)之差的绝对值都很小,这件事发生的概率为1.五、直方图(1)离散情况Xkp1x2x1p2pkxkp(2)连续情况其中为未知。如何估计?ipip设总体X为连续型随机变量,如何估计未知的密度函数f(x)?定义1设),,,(21nXXXgnXXX,,,21是来自总体X的一个样本,为一实值连续函数,其不包含任何未知参数,则称),,,(21nXXXg为一个统计量。),,,(21nxxxg为),,,(21nXXXg的观测值。注:),,,(21nXXXg是随机变量的函数仍为随机变量。),,,(21nxxxg便是一个数。注:统计量是随机变量。二统计量1.统计量例1为来自总体的样本未知,已知,判断下列函数哪些是统计量。2.几个常见的统计量样本均值样本方差niiXnX11niiXXnS122)(11它反映了总体均值的信息nXX,,1是来自总体X的一个样本,它反映了总体方差的信息niiXXnSS122)(11样本标准差21)(niiXXniiXnX122证左边=2212niiiXXXXniniiiXnXXX12122niiXnXXnX1222niiXnX122重要公式222111niiSXnXn样本k阶原点矩样本k阶中心矩nikikXnA11nikikXXnB1)(1它反映了总体k阶矩的信息它反映了总体k阶中心矩的信息,2,1k常见统计量的性质)()()1(XEXE)1()(1niiXnEXE)(11niiXEn()EX)(XEnXDXD)()()2()1()(1niiXnDXD)(112niiXDn21()nDXn()DXn)()()3(2XDSE22111niiEXnXn2ES2211nEXnEXn221nDXEXDXEXn1DXnDXnnDX是来自总体例2设的一样本,总体的阶矩存在,证明(1)(2)证独立且与同分布独立且与同分布由辛钦大数定律,知统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”.常用的有三.抽样分布2分布,正态分布,t分布,F分布(1)标准正态分布~0,1XNX的上α(0α1)分位点zPXz1PXz1z)(~22n记为nXXX,,,21222212nXXX2设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的分布.22()分布2分布的密度函数为000)2(21);(2122xxexnnxfxnn0,)(01dttet其中伽玛函数)((1)()(1)1),,(2N相互独立,都服从正态分布nXXX,,,21则)(~)(121222nXnii)(~21221nnXX),(~),(~222121nXnX且X1,X2相这个性质叫分布的可加性.2(1)设(2)设互独立,则性质)1,0(~,1,0NXDXEXiii证:niEXEXDXiii,2,1,213)(2242.)(12122nEXXEEniinii所以.2)(12122nDXXDDniinii,12iEX应用中心极限定理可得,若则当n充分大时,)(~2nXnnX2的分布近似正态分布N(0,1).(4)22,2EnDn(标准化)(3)对于给定的正数称满足条件为分位点.分布的上的点分布的分位点2上分位点。双侧分位点。当时双侧分位点一般的分布表只列到n=45,n45时,由记为T~t(n).服从自由度为n的t分布.(3)t分布设X~N(0,1),Y~则称变量,且X与Y相互独立,当n充分大时,其图形类似于标准正态分布密度函数的图形。t分布的密度函数关于x=0对称性质(1)具有自由度为n的t分布的随机变量T的当n充分大时,其图形类似于标准正态分布密度0);(limnxfx(2)t分布的密度函数关于x=0对称,且2.性质数学期望和方差为:E(T)=0;D(T)=n/(n-2),对n2函数的图形.很大.不难看到,当n充分大时,t分布近似N(0,1)分布.但对于较小的n,t分布与N(0,1)分布相差3、t分布的分位点对于给定的正数称满足条件的点为分位点”。分布的“上例查t分布表,附表3取当时分布上侧α分位点分布下侧α分位点分布双侧α分位点t的分布的双侧α分位点为满足(4)F分布),(~),(~2212nYnX的F分布,n1称为第一自由度,21nYnXF设X与Y相互独立,则称统计量服从自由度为称为第二自由度,记作2n),(~21nnFF由定义可得121nXnYF性质21,nn),(~12nnFF分布的分位点对于给定的正数称满足条件为分布的的点上分位点即它的数学期望并不依赖于第一自由度n1.(2)X的数学期望为:2)(22nnXE若n22(1)由定义可见,121nXnYF~F(n2,n1)2.性质(3)F分布的分位点对于给定的正数称满足条件的点为分位点分布的上F分布的性质表中所给的都是很小的数,如0.01,0.05等当表中查不出,由性质(2)较大时,如0.95,例1设随机变量求的分布。解随机变量与独立因而由于由定理3得由题可知四.正态总体抽样分布定理的样本,则有21)~,XNn)1,0(~)2NnX定理1(样本均值的分布)设X1,X2,…,Xn是来自正态总体定理2(样本方差的分布)设X1,X2,…,Xn是取自正态总体分别为样本均值和样本方差.则有(2)X的样本,和相互独立。2S(3)~(1)XtnSn21()1,nkkXXn有个自由度因为只有一个约束条件1()0nkkXX分别是这两个样本的均值,且X与Y独立,是取自X的样本,样本,分别是这两个样本的样本方差,则有是取自Y的定理3(两总体样本均值差的分布))1,1(~)12122222121nnFSS12例2一个样本,求设是来自正态总体的(1)(2)由定理2知解例2一个样本,求设是来自正态总体的(1)(2)查表可得思考与练习是来自正态总体的样1.设本,则有(A);;(B);(C);(D))(2n)1(