第07章抽样分配-1

lizewj528
1 ℃
2016-12-17

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

``````1分成估计与检定两大领域，估计又分成点估计与信赖区间两种，2生态学家认为南极海域的蓝鲸存量滨临绝种边缘，因此想知道现在的蓝鲸存量有多少？在这个问题中，蓝鲸存量就是我们感兴趣的『参数』3参数(蓝鲸存量)是多少?可能方法之一是将南极海域的水抽光后，数一数就可数出有多少尾蓝鲸较可行的方式是透过统计的手法获得资料再做推估4南极海域蓝鲸捕获量愈来愈少捕鲸协会想研究南极的蓝鲸存量有多少？捕獲量17018019020021022023024035404550556065707580年代5捕获量比较法如第一次捕捉到270尾，第二次捕捉到243尾，少了10%。则估计为原有270/0.1=2700尾，但现在则有2187尾。6設被捕的機率相同，皆為p，而第一次捕捉時的鯨魚存量是x，則xp=270(7.1)(xxp)p=243(7.2)(7.1)式除以(7.2)式得24327011p所以101p，而由(7.1)式得px270，因此估計鯨魚存量為270101=2700尾，也就是現在鯨魚存量為2700270243=2187尾7记号法设第一次捕捉到鲸鱼150尾，做记号后放回。第二次再捕100尾，其中有6尾有记号。则估计鲸鱼存量为：6100150=2500尾8想像一袋中有紅球150個，白球N150個，從袋中抽出100個球，其中紅球6個，如果每一個球抽中機率均等，則抽到紅球的機會是1506，抽到白球的機會是15094N，兩者相等。因此)(100150941506NN解之得N=1006150=25009估計值=參數+方法偏差+抽樣誤差↓↓↓↓樣本資料母體真正不當抽樣方法抽樣對象不所推估的特性所造成同所造成10某大学共有学生6672人，某教授想了解此大学中男生所占的比例。便在某角落观察经过的学生，看到100位中有40位女生、60位男生，因此他估计全校男生比率是0.6。11事实上，全校学生中有男生3091人、女生3581人，因此母体参数男生比例是=3091/66720.46，而此教授估计男生的比例是0.6。12其差距0.14有二种来源:一是由于抽样误差造成，如在同一角落多看几次(每次都是100人)，所得男女生比例也会有不同。这种由于样本抽样所造成的误差，称之为“抽样误差”，是“随机性”，也是先天存在的。要获得抽样误差的数据，这要重覆做很多次(如几千次、几万次才能得到)。13假设此教授后来又观察了10天，每天都在同一角落观察100位学生，如果看到10次的男生人数分别如下：58506261465055525351由此10次算出平均数是54人，所以估计男生比例是0.54它与我们原先估计的男生比例是0.60，两者相差，0.60-0.54=0.06即为抽样误差。14此教授在这个角落观察过往的学生，这种抽查方式也有可能造成偏差，也许这个角落离男生宿舍较近，男生经过的比例偏高，此为偏差的来源。如果每位学生(不论男女生)经过此角落机会均等，则看到男生的比例应是母体的比率0.46。事实上，因男生经过此角落的机会较大故造成看到男生的比例为0.54。此两者的差异0.54-0.46=0.08，即为方法偏差。150.60(估计值)=0.46(参数)+0.08(方法偏差)+0.06(抽样误差)16随机抽样得到一组资料x1,...,xn后，我们最常计算的两个统计量是样本平均数样本标准差S虽然资料是从同一母体抽样，但每次抽出的n个样本会不同，因此算出的样本平均数、标准差S也会不一样，所以我们称、S是“随机变量”XX17既然每次抽样算出的、S不同，我们有必要了解、S的抽样分布长象是如何?XX18若抽樣自二項分配，且當樣本數很大時，=會接近常態分配，故=也會接近常態分配19編號身高(單位：公分)116821733164......59999981715999999166600000017120母體平均數是=(168+173+164+...+171+166+171)/6000000=169.5變異數2222168169517316951641695[(.)(.)(.)...(.)(.)(.)]171169516616951711695222/6000000=42.25所以母體標準差=6.5。21圖7.2全國成年男人身高分佈0100200300400500600700800900144148152156160164168172176180184188192次數(單位：千人次)22編號身高(x)325611723164......258643117048562716823样本平均数=168.8，标准差s=6.3。如果以这样的结果做母体平均数的估计，则估计误差是=169.5168.8=0.7(公分)XX24編號身高(x)65483616538647169......521771287516325样本平均数=171.3，标准差s=6.8。如果以第二组抽样的平均数=171.3，当做所有全国成年人平均身高的估计，则估计误差为=169.5171.3=1.8XX26由上面两次抽样结果，我们知道每次抽样的资料会变动(故称xi为“随机变量”)而得到的样本平均数也随之变动(故也是随机变量)因此估计误差也是不确定的X27XN(169.52,(0.653)2)第幾次抽樣xs1168.86.32171.26.8.........10000167.86.228图7.3全国成年男人抽样100位平均身高X的分布010020030040050060070080090010001100120013001400166.4166.8167.2167.6168.0168.4168.8169.2169.6170.0170.4170.8171.2171.6172.0172.4次数29(1)此直方图应像对称的钟形(即常态分配)。(2)此直方图的中心点(也就是直方图最高的部份)仍然是在169.5附近。(3)此直方图比原先600万位身高所画直方图更集中在中心点附近，即这些的标准差较原先母体Xi的标准差小。(4)这10,000个平均数的标准差是0.653比原先的母体(600万人的身高)的标准差6.5小很，大约是原来的1/10。30)()15.169(65.0165.05.169XPXP=P(|z|1.5385)=0.876抽样误差31PXPX(..)()....169513169506513065=P(|z|2)=0.954抽样误差32PX().1095PXnn().././65165095但，z0025196..，故165196./.n所以n(..).1966516231632信赖度33010020030040050060070080090010001100136140144148152156160164168172176180184188192196200次数(单位：千人次)34图7.5全国成年人身高分布01002003004005006007008009001000110012001300136140144148152156160164168172176180184188192196200所有成年人的平均身高是=164.21，标准差=7.8831。次数(单位：千人次)35圖7.8全國成年人抽樣100位平均身高X分佈010020030040050060070080090010001100161.2161.6162.0162.4162.8163.2163.6164.0164.4164.8165.2165.6166.0166.4166.8次數36nX37常态分配在理论上有很多好的结果，统计学上常假设资料是常态分配，例如常听到常态分班、常模、常态曲线等等这些假设的依据是什么呢？就是中央极限定理的功劳38設X1,...,Xn隨機取樣自某母體，當n很大時，則總和nXXX...21的分佈會接近常態，而其平均數X的分佈也會接近常態，這就是統計學的基本定理稱為中央極限定理39),(~2nNXn40不管母体资料是连续型或离散型、对称或不对称、右偏或左偏，甚至是单峰或多峰都无所谓，只要样本数n“足够大”，分配就会变成像钟形的常态分配。X41(2)抽样样本数不论是多少个，代表资料“中心点”的样本平均数的期望值与原母体分配的期望值都相同42X的標準差稱為標準誤(StandardError)nXXSSE43n=1n=2n=8n=16n=32440.00.51.01.50246810n=1n=2n=6n=30450.00.10.20.30.40.50.60.70.8-5-3-1135n=1n=2n=6n=30460.00.5-0.20.51.20.00.3-0.20.51.20.00.2-0.20.51.20.00.1-0.20.51.2n=1n=2n=10n=30471)(2/zPnX1)(2/nzXP482)(2/ezne=nz2/491633.1622)15.696.1(2)(6.5196.105.020.0595.01)5.6,5.169(~:2/025.02ezneZNXX表全國成年男生的身高506502.6492)5.05.696.1(2)(6.55.096.105.020.0595.01)5.6,5.169(~:2/025.02ezneZNXX表全國成年男生的身高51(1)误差要求愈小，则所需样本数就要愈大。如上例中误差e=1，当要求误差降低到e=0.5，则样本数需要增加到4162.3=650位。(2)信赖度愈大(即愈小)，则样本数也要愈多。(3)标准差愈大，则要求的样本数也愈多。52(4)实务上，通常是不知道的。因此需要用其他方式对做大约的估计。例如以主观估计=7.2，或是由主观认为全国最高为200公分，最低150公分，全距是50公分，但全距大约是8，因此由8=50，得=6.25。另外也可先抽几个样本(例如10个)，算出样本标准差S，以此做的估计，然后再由(7.9)式，求出样本数n。5354圖7.10全國成年男人抽樣100位身高變異數S2分佈010020030040050060070080090010001820222426283032343638404244464850525456586062646668707274767880次數55設X1,X2,...Xk是隨機取樣自標準常態分配N(0,1)，則YXXXk12222...7.4)的分佈就稱為自由度為k的“卡方分配”，寫成Yk2，也就是自由度k的“卡方分配”，是由k個自由活動(互不干擾、互相獨立)的標準常態“平方和”(卡方的來源)所組成。562212/221)(xkexxfkk5758是否也是卡方配呢？59不是60X1,X2,...Xn是隨機取樣自N,2則Xiin21不是卡方分配，但Xini221～n261niXXi122是否仍為卡方分配呢？62其自由度变成n1，这是因为参数被估计值取代，因此牺牲了一个自由度63另一種講法是X1-X,X2X,...,XnX這n個數並不能完全自由活動，事實上提供X1X,X2X,...,Xn-1X就能知道XnX，因此稱之為自由度n1。64()nS122n1265圖7.12標準常態母體次數02004006008001000120014001600180020002200-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.53.03.54.04.566如果从标准常态母体中每次抽4个，得x1,x2,x3