抽样误差和t分布荀鹏程Samplingerrorandtdistribution抽样误差的概念由抽样引起的样本统计量与总体参数间的差异两种表现形式–样本统计量与总体参数间的差异–样本统计量间的差异抽样研究个体变异抽样误差产生的条件均数的抽样误差及标准误表现一:样本均数与总体均数之差值表现二:多个样本均数间的离散度中心极限定理(centrallimittheorem)从均数为、标准差为的总体中独立随机抽样,当样本含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为。XnX标准误(standarderror,SE),样本统计量的标准差称为标准误,用来衡量抽样误差的大小。样本均数的标准差称为标准误。此标准误与个体变异成正比,与样本含量n的平方根成反比。实际工作中,往往是未知的,一般可用样本标准差s代替:因为标准差s随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。nssX中心极限定理表明,即使从非正态总体中随机抽样,只要样本含量足够大,样本均数的分布也趋于正态分布,见图3.1。图3.1描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事实上,任何一个样本统计量均有其分布。统计量的抽样分布规律是进行统计推断的理论基础。标准差与标准误的联系和区别联系–都是变异指标。S反映个体观察值的变异;反映统计量的变异。–当n不变时,标准差↑,标准误↑nssX区别sXs意义描述原始数据的离散程度,衡量均数对原始数据的代表性反映抽样误差的大小,衡量样本均数估计总体均数的可靠性计算直接法、加权法nssX与均数的关系s越小,X对样本数据的代表性好Xs越小,X估计的可靠性大与n的关系n→∞,s→n→∞,Xs→0应用表示观察值波动的大小表示抽样误差的大小用于计算变异系数用于均数的假设检验计算标准误结合样本均数和正态分布的规律,估计参考值范围结合样本均数和正态分布的规律,估计参数的可信区间标准差与均数结合,用于描述观察值的分布范围,如医学参考值范围的估计;标准误与均数结合,用于估计总体均数可能出现的范围,如参数估计的置信区间。t分布设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为和s,设:则t值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在《生物统计》杂志上发表该论文时用的是笔名“Student”,故t分布又称Studentt分布。XnsXsXtXf(t)=∞(标准正态曲线)=5=10.10.2-4-3-2-1012340.3图3.2自由度分别为1、5、∞时的t分布t分布的特征t分布为一簇单峰分布曲线t分布以0为中心,左右对称t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。t0.05,10=2.228,表明,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。P(t≤-2.228)+P(t≥2.228)=0.05或:P(-2.228t2.228)=1-0.05=0.95。請問SD與SE的差別。多除了一個n有什麼差別。我查過了課本,他說有時候SD會等於SE那是在什麼情況下阿。感覺有一點點奇怪,除非n很小不然SE會比SD小回答者:統計老兵yhliu回答時間:2008-01-1520:06:34如果SE=SD/√n,怎可能SE=SD?除非n=1.實際上SD(標準差,standarddeviation)與SE(standarderror)說起來頗複雜...複雜的原因是:因為它們都代表了不只一個量!簡單地說,每一個資料分布,不管是群體或樣本,基本上都可以算出一個標準差(當然,就理論上的群體分布而言,是有可能不存在標準差.)從群體抽樣,可以計算樣本平均數,樣本標準差等等.但這些由樣本算出的量,所謂統計量(statistic),本身也有個機率分布,稱為這統計量的抽樣分布(samplingdistribution).舉個簡單的例子,群體數據是{1,2,3,4,5,6}.你可以計算這群體的平均數,標準差,中位數,四分位數等等一堆量.現在從這群體去抽樣,假設n=3.如果不重複(抽出後不放回,或一次抓3個),可能抽到(1,2,3),也可能抽到(1,3,6).有20種不同組合.每一種組合就是一個可能的樣本.以(1,3,6)這樣本來說,樣本平均數是10/3=3.33;但以(1,2,3)這個樣本來說,樣本平均數是2.有20種不同樣本組合,就有20個或相等或不等的樣本平均數.這20個樣本平均數當做資料,它也構成一個分布,就是從{1,2,3,4,5,6}這群體隨機抽取n=3之樣本的樣本平均數抽樣分布.(好長的名詞!)這個分布本身也有個標準差.現在問題來了!名詞從這裡開始有點混亂.還是簡單地說.我說名詞混亂,是因為有新舊不同說法.[以前]如上述樣本平均數抽樣分布的標準差,就稱為樣本平均數的標準誤.類似地,我們可以有樣本比例的標準誤,樣本標準差的標準誤.[現在]新的說法對上述樣本平均數等統計量之抽樣分布的標準差,就只說是某統計量(如樣本平均數)的標準差!而因這個理論的標準差通常不知;因此會用樣本資料估計.統計量的標準差,只有利用樣本資料估計出來的結果,才叫標準誤(thestandarderrorofastatistic).以樣本平均數為統計量之例.設群體標準差是σ,一個樣本的標準差以s表示.則樣本平均數抽樣分布的標準差=σ/√n;以前稱樣本平均數的標準誤.而現在把s/√n稱為樣本平均數的標準誤,以前稱為樣本平均數的標準誤的估計或估計的標準誤.(3)方差(VAR)方差是描述个体值间的变异,即观察值的离散度,方差较小,表示观察值围绕均数的波动较小,反之亦然。方差计算公式是(4)标准差(SD)描述个体值间的变异,即观察值的离散度,标准差较小,表示观察值围绕均数的波动较小,当观察值呈正态分布或近似正态分布时可将均数及标准差同时写出,如平均值±SD,计算公式。(5)标准误(SE)描述统计量的抽样误差,即样本统计量与总体参数的接近程度,标准误小,表示抽样误差小,则统计量较稳定并与参数较接近,可将统计量及其标准误同时写出,如样本均数及其标准误可写为平均值±SE,计算公式。(6)变异系数(CV)又称离散系数,即标准差与均数之比用百分数表示,,它反映计量资料的变异程度,变异系数无单位。方差反映变量的变异程度,但由于取了平方值,使得与原始数据的单位不一样,因此将方差开平方,这个值就是标准差(standarddeviation,Sd).标准差分为总体标准差(σ)和样本标准差(s).实验中由于我们都是取样测量,所以一般用样本标准差(s).当计算样本平均数的标准差时,结果叫:标准误(standarderror)(这个不好理解)举例说明一下什么时候该用标准差,什么时候该用标准误.一个小样方(同样的处理)有5株幼苗,每株高度分别为(单位cm):22.22.32.42.5这五个数据用样本标准差(s)来计算.如果有五个这样的小样方(同样的处理),每个小样方的平均值是22.22.32.42.5那么要用标准误来计算.因为上面的值是平均值,源数据可能是下面的(每行一个小样方,平均值对应上面的五个数值),1.8,1.9,2.0,2.1,2.2;2.0,2.1,2.2,2.3,2.4;2.1,2.2,2.3,2.4,2.5;2.2,2.3,2.4,2.5,2.6;2.3,2.4,2.5,2.6,2.7;