非参数统计翻译7-8章

guiguang
1 ℃
2020-02-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第七章中位数和百分位数的置信区间7.1旧方法：以t分布为基础计算均值置信区间我们知道如何用t公式找出平均值u的95％的置信区间。nstx025.0利用R中t检验函数很容易计算该置信区间。然而，当以假设为基础的常规理论不被满足时，我们可以转而寻找总体中位数M的95％的置信区间来替代非参数。这不是简单的任务，但如果你能遵循置信区间构造逻辑，它是可行的。此外，该程序可以很容易地推广到除中位数外的百分数（例如，我们可以找到四分之一分位数置信区间，%80分位数置信区间等）。7.2中位数M的非参数置信区间回顾构造置信区间的基本概念：利用95％的置信区间来估计一些总体非参数，我们需要找到两个常数1c和2c，使得)(21ccp95.0.区间),(21cc被认为是非参数在%95的置信度下的置信区间。在总体均值M下，我们想要找到中位数的上极限LM和下极限UM使得95.0)(ULMMMp.假设我们的样本包括n个变量值nXXX..,.........2,1.我们知道任何一个变量值下降高于或（低于）中位数M的概率为5.0。我们已经建立了，它的样本值都在中位数以上，T统计量将是一个随机变量并且服从Bx~)50.0,(n二项式抽样分布。从寻找中位数M边界置信区间开始，由于5.0p，所以我们可以充分利Bx~)50.0,(n二项式抽样分布是对称分布这一事实，任何变量值高于中位数M或低于中位数M概率都是相同的。（如果5.0p，则不满足）。为了说明这一点，这里有三种5.0p的不同的二项式抽样分布，将变量值)()2()1(,........,nXXX按从小到大的顺序排列（即)()3()2()1(.......nXXXX）。由于对称性，但这些数据按顺序放置时，在每个端点处，中位数M的置信区间的端点的数值相同。因为只有观察有限数量的样本，这将导致考虑在可能的间隔内的有限数量。所以对于)(,ULMM可能的函数值有),()()1(nxx，),()1()2(nxx，),()2()3(nxx，....下面我们来看一个例子。例：睡眠模式。关于阿格纽睡眠模式的研究。通过测量16个年龄在50岁和60岁之间身心健康的男性在0级睡眠的时间占总睡眠时间的百分比。以下是相关数据：0.070.691.741.901.992.413.073.083.103.533.714.018.118.239.1010.16找到在0级睡眠时间真实中位数百分比的%95的置信区间。我们将输入的数据转换成一个R向量，然后储存它：x-c(0.07,0.69,1.74,1.90,1.99,2.41,3.07,3.08,3.10,3.53,3.71,+4.01,8.11,8.23,9.10,10.16)x.sorted-sort(x)x.sorted[1]0.070.691.741.901.992.413.073.083.103.533.714.01[13]8.118.239.1010.16M置信区间可能取值有(0.07,10.16)，(0.69,9.10)，(1.74,8.23)等。剩下的唯一要做的是找到与这些区间关联的置信度水平。我们希望为我们的答案，找到最窄的置信区间。逻辑。为了展示这是如何工作，我们考虑区间（0.07，10.16）。这是最大的置信区间，如果M不在数据的范围之内，它将无法覆盖M。如果发生这种情况，那么要么所有的样本值都高于M或都低于M，所以超过M随机样本的变量值必须满足T=0（都不满足）或者T=16（都满足）。因为T服从二项分布Bx~（16,0.5），所以概率为dbinom(0,16,.5)+dbinom(16,16,.5)[1]3.051758e-05因此“未能覆盖”的概率，覆盖概率，或置信水平是1-(dbinom(0,16,.5)+dbinom(16,16,.5))[1]0.9999695区间（0.07，10.16）是M的99.99695％的置信区间。这实现了我们所期望的95％的置信水平，但是该区间可能太宽。如果我们移动到下一个最宽的区间（0.69，9.10）呢？因为该区间更窄，所以它的置信水平就更低。但是，如果它仍然在95％以上，那么说明它比区间（0.07，10.16）更好。通过使用上述相同的逻辑，除非1T或15T，否则区间（0.69，9.10）将无法覆盖M。区间（0.69，9.10）的覆盖概率为1-sum(dbinom(c(0,1,15,16),16,0.5))[1]0.9994812如果你希望看到这趋势发展。如果继续这个过程，将得到以下的结果：因此，M的95％的置信区间是。因此我们知道年龄在50岁至60岁之间的健康男性0级睡眠时间占总睡眠时间的中位数百分比的95％置信区间是（1.90，8.11）。注意事项：1.当样本n非常小的和样本二项分布Bx~（n，0.5）是高度离散的，实际的置信水平与95％的置信水平有一些差别。（由明尼苏达大学的查尔斯·格耶和格伦·麦所提出的一个著名的模糊置信区间方法试图解决这个问题，这里不再赘述。）2.上面的方法是比较保守，也就是说，它产生的置信水平，将永远不会低于既定置信水平的区间。然而，这可能会导致一个间隔较宽（不太精确）置信水平。3.该过程可以概括为寻找置信区间百分比的中位数（%50分位数）等。下面是定制R函数，自动化上面的过程，并发现对于任何百分位数都是广义非参数置信区间。下面是在载入一个R函数执行后，前面的例子：x-c(0.07,0.69,1.74,1.90,1.99,2.41,3.07,3.08,3.10,3.53,+3.71,4.01,8.11,8.23,9.10,10.16)pctile.ci(x)percentilelowerupper0.51.98.114.如果n过小或者所要求的百分位是太极端了，上述过程可以分解（即无法产生可信限）。例如，它可能会为一个给定的数据集来计算总体中位数的置信区间，但它可能无法找到一个百分之九十八分位数的置信区间。5.如果n很小，这些方法相对来说是粗糙的，但它们仍然是有用的。7.3采用大样本正态逼近中位数/百分位数置信区间回顾一下，如果二项分布Bx~),(pn并且满足10np,10)1(pn,那么近似正态分布：T逼近N(pnnpu)1(,）因此用这些大样本，我们可以用一个95％的正态分布捕获“区域”，以确定其中95％置信区间的边界。步骤如下：1.检验是否满足10np且10)1(pn2.将这些变量值按从小到大的顺序的排列（记为)()3()2()1(.......nXXXX）3.要计算人口百分位数95％的置信区间，找到下列指数：•)1(96.1pnpnpL.将L四舍五入到高阶整数。•)1(96.1pnpnpU.将U四舍五入到高阶整数。4.百分位数的95%的置信区间是（),()()(ULXX.例：犯罪率。一位犯罪学家为研究在美国中型县中教育水平和犯罪率水平之间的关系，收集的数据为84个县中随机抽取。将两个变量进行测量：样本中至少具有高中文凭的百分比，以及犯罪率（报告为每10万居民的犯罪数量）。该数据出现在我们的库的文本文件crimerate.txt中。发现并解释在所有大中型美国的县中犯罪率分布的%75分位数的%90的置信区间。解决方案：我们读取该文本文件到名为crimerateR的数据框，检查这两个变量的名称，然后提取犯罪率变量转换成自身的向量：site-(site,header=TRUE)names(crimerate)[1]ratepct.diplomarate-crimerate$rate现在我们按照步骤求四分之三分位数的置信区间：1.检验是否满足10np且10)1(pn：length(rate)*0.7510[1]TRUElength(rate)*(1-0.75)10[1]TRUE2.将这些变量值按从小到大的顺序的排列：sort.rate-sort(rate)3.求出90％置信区间相应的端点有序索引：4.找到%90的置信区间indices-ceiling(c(L,U))sort.rate[indices][1]82209697对于调查的所有的中型美国县中犯罪率的四分之三位数90％的置信区间是每10万居民犯罪数在8220到9697之间。注：以下是采用7.2节所述的精确的二项分布方法求得的相同的置信区间pctile.ci(rate,p=0.75,conf.level=0.90)percentilelowerupper0.7581799697因此，正太逼近效果是相当不错的。当n值越大时，逼近效果更好。使用R做下列各题。使用尽可能通用的R代码指令，并且还尽可能高效。1.成年美国人每天睡眠时间平均7.8小时。您认为大学生睡眠少于这个平均值，那么你收集的在迈阿密的15名大学生进行随机抽样，并获得其准确的每天的睡眠量（以小时计），数据如下：6.74.56.48.65.58.25.97.54.46.06.38.37.35.710.1a.将这些观测值按从小到大顺序排列，并将区间（4.5，8.6），作为对穆大学生的天真实睡眠时间的置信区间，计算相关的置信水平。b.找到M以90%的置信区间。使用R函数pctile.ci（）。解释在文中的时间间隔。2根据R中uwecsample数据，其中包含从UWEC本科生样本的当前数据。我们尤其对学生高中百分位排名（根据数据变量HSP）感兴趣。a.找到所有UWEC本科生中位数高中排名百分位数均值的95％的置信区间。使用已建立的R函数pctile.ci（）。并解释在文中的置信区间。b.你怎样解释a和b结果的差异c.找到所有UWEC本科生的高中排名的%70百分位数的95％的置信区间。（我知道这听起来很绕口，但仔细想一分钟）。并解释在文中的置信区间。第8章配对数据测试：符号检验8.1成对样本我们现在要看看几个用于分析成对（或匹配）方法样本.并以这样的方式收集两个总体的随机样本，这样每个样本的每个值可以与其他样本确定的值有效配对或匹配。这通常是通过对一组受试者测量相同属性的两倍（即在两种不同的情况下）来完成。例：猴子的刺激.一位生理学家想知道猴子更喜欢的大脑区域A的刺激，还是大脑区域B的刺激。在实验中，14只猕猴被指导按下两个键。当灯亮起时，压在灯1上的总是导致区域A的刺激;压在灯2上的总是导致区域B的刺激。学习按下键之后，对猴子进行15分钟的测试，记录下在段时间内按下两个键的频率。频率越高，优先级越高。数据显示在右边。这是成对的数据的一个例子，因为每个测试者（猴）都被测试了两次。8.2旧方法:成对t检验以及使用t检验求置信区间在传统的（参数）对这种类型的数据分析的方法中，感兴趣的假设是下列总体均值比较之一：H0:μ1–μ2=0vs.Ha:μ1–μ20(双侧检验)H0:μ1–μ2=0vs.Ha:μ1–μ20(上尾检验)H0:μ1–μ2=0vs.Ha:μ1–μ20(下尾检验)这里1u是第一总体均值，2u是第二总体均值。回顾一下那些成对数据，我们可以对每个匹配对di=x1i–x2i形成样本差异。然后对总体均值之差d的估计，我们据此求出相应的dSE标准误差。t检验统计量和95％置信区间分别由下式给出dSEdt0和dSEtd025.0这些都可以在R中使用t检验、采用配对为真选项来完成。例：厌食症的治疗.神经性厌食症是在年轻女性中一个严重的饮食失调症。接受家庭治疗之前和接收家庭治疗之后的文件anorexiatherapy.txt数据提供的17名年轻厌食症妇女的重量（磅）。家庭治疗对厌食症的年轻女性平均重量有没有显著作用呢？解决方案。在研究的问题上没有特定的方向，所以我们将采用双侧检验。把文件读入R的数据框（命名为anorexiatherapy）后，我们运行测试：该数据由两个数值列（wt.before和w