统计分析原则

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

统计分析的原则PrinciplesofstatisticalanalysisAdistinctivefunctionofstatisticsisthis:itenablesthescientisttomakeanumericalevaluationoftheuncertaintyofhisconclusion.--Snedecor(1950)引言统计分析的目的把从样本中得到的结论推广到(同质)总体中去。SamplePopulation利用均数、标准差;百分构成/率;图表等进行描述。不同处理组间的比较。样本结论(统计量)能否代表总体(参数)?统计分析的两个基本工具—估计Estimation和假设检验HypothesisTest统计学的一个重要思想如何表明从样本中得出的结果是对总体的最好的估计(Estimate)?例1:服用A药的病人63%得到缓解,而服用B药的病人只有53%。A药的疗效比B药好10%。(P=0.15)例2:服用A药的病人56%得到完全缓解,而服用B药的病人只有36%。A药的疗效比B药好18%。(P0.01)抽样变异SamplingVariation样本均数的变异Variabilityofsamplemeans性质1.较大样本的均数的变异小于较小样本的均数的变异2.样本均数的变异小于观测值的变异3.样本均数的变异随观测值变异的增大而增大随机样本的均数的分布—抽样分布SamplingDistribution从一个总体中随机地、不断地抽出样本大小相同的样本,这些样本具有如下性质:1.样本均数/方差的期望=总体均数/方差2.样本均数的均数=总体均数样本均数的方差=总体方差/样本量样本均数的标准差-标准误标准误的估计3.如果总体为正态分布,那么样本均数的分布也是正态分布。如果样本量足够大,那么即使总体不是正态分布,样本均数的分布也近似正态分布—中心极限定理(CentralLimitedTheorem)。样本量总体方差样本量样本标准差样本量样本方差对抽样分布的补充说明在实际应用中,只要样本数据呈单峰、大致对称的分布,就可以认为其均数的分布服从正态或接近于正态。在实际应用中,只要样本量足够大,那么不管数据呈何种分布,都可以将其均数的分布当作正态分布来处理。随机样本的均数的分布的第1条性质和第3条性质同样适用于样本的百分构成(如二项分布)。但是由于这类数据所代表的显然不是正态总体,所以只有在样本量相当大时才可以应用性质1和3。记号NotationsnssnSEsSExNNSDssxSDxxxxx::::10,:1,0,:,::::::22222标准误标准误的估计标准误样本均数的标准差样本均数的方差样本均数的均数的标准正态总体方差为均数为的正态总体方差为均数为样本标准差样本方差样本均数总体标准差总体方差总体均数理解抽样分布xnxSExxSDxxxNxNxx的包含的包含的包含也逐渐接近于正态分布随着样本量的增大不服从正态分布即使则%9596.1%9596.1%9596.1,,~:,~22计算机模拟Simulation正态总体的抽样分布例:假设原发性胆石症患者的血清白蛋白服从均数35g/l标准差6g/l的正态分布。现从中随机抽取样本量10、25、100的样本各100个考察它们的均数的分布。理论上,均数的均数均应该等于35,均数的标准差应该分别等于6.0100/6;2.125/6;9.110/6Simulation(续)对数正态分布的抽样分布例:假设原发性胆石症患者的血清胆红素服从均数3.6mol/l标准差1.1mol/l的对数正态分布。现从中随机抽取样本量10、25、100的样本各100个考察它们的均数的分布。二项分布的抽样分布例:假设哮喘在人群中的患病率为20%,现随机抽取样本量为10、25、100的样本各100个考察哮喘患者数的分布。一个样本均数的标准误StandardErrorofasamplemean例:216名原发性胆石症患者的血清白蛋白均数为34.46g/l,标准差为5.84g/l。假设服从正态分布并且此样本为一随机样本,试问如何用此样本的均数来对总体的均数进行估计呢?lgSEnsSEnSE/397.021684.5对于本例的估计两样本均数之差的标准误Standarderrorofthedifferencebetweentwosamplemeans因为两样本均数之差的方差等于两样本各自均数的方差之和,所以:22212122212121varvarnsnsxSExSExxxxSE一个样本百分构成的标准误StandardErrorofasampleproportion理论上,当np5时,二项分布的百分构成p近似地服从均数为p,标准差为的正态分布。即样本百分构成p的标准误为:例:观察到80名妇女中有13名患有哮喘,则哮喘的百分构成p为13/80=0.16,其标准误为:npp1npp1041.08016.0116.0两个样本百分构成的差的标准误与两个样本均数的差的标准误一样,因为两个样本的百分构成之差的方差等于两个样本各自的百分构成的方差的和,所以两个样本百分构成的差的标准误的计算为:2221112221212111varvarnppnpppSEpSEppppSE可信区间ConfidenceInterval(CI)010203040506070809010032333435363738血清白蛋白(g/l)样本数可信区间ConfidenceInterval(CI)010203040506070809010032333435363738血清白蛋白(g/l)样本编号理解可信区间95.096.1:96.1%95,%9596.196.1,96.196.1%9596.1的可能性是包含即!一定包含总体均数的所以的包含因为!就一定包含总体均数内在只要的可能性是多少?包含的包含nxnxxnnxnxnxxn假设检验HypothesisTesting假设检验的反证思想两种说法非A即B。要证明B真,只要证明A伪即可。无效假设Nullhypothesis(H0)意在推翻的假设(说法A)。备择假设Alternativehypothesis(H1)意在接受的假设(说法B)。从无效假设出发,找出不支持这一假设的证据,从而推翻它。小概率事件事件A发生的概率是如此之小,以至于在一次试验(抽样)时,我们往往认为它(事件A)不会发生。统计学中,小概率事件一般是指发生概率0.05(检验水准)的事件。在假设检验中,如果在无效假设的前提下出现了小概率事件,我们则怀疑无效假设的真实性。例:两种不同处理结果之间的差异效果A处理结果A,B处理结果B效果Effect:=结果A-结果B对于总体如果=0,则A处理和B处理之间没有差别。如果0,则A处理和B处理之间有差别。对于样本即使=0,由于存在抽样变异,往往样本结果A–样本结果B=0。问题在于这个差异是否仅仅是由于抽样变异造成的?ˆ对本例进行假设检验的思路无效假设:样本结果A和B之间的差异仅仅是由于抽样变异造成的。即H0:=0。备择假设:样本结果A和B之间的差异不仅仅是由于抽样变异造成的,还包含不同处理的效果。即H1:0。由无效假设出发,我们可以计算出得到样本差异或者更大差异的概率(P值)。如果P值小于检验水准,则我们认为由此无效假设不太可能出现这样的结果,从而推翻它,接受备择假设(差异显著性)。反之ˆ方法一:利用可信区间假设样本结果A和B之间的差异仅仅是由于抽样变异造成的。即H0:=0。由此假设,。则有包含95%的,同样地,包含总体均数0的可能性是95%。换句话说,不包含总体均数0的可能性是5%。利用可信区间推翻无效假设一旦发现没有包含总体均数0,我们则认为无效假设是不对的。即样本结果A和B之间的差异不仅仅是由于抽样变异造成的。样本结果A和B之间的差异有显著性。2ˆ,0~ˆNˆ96.10ˆ96.1ˆˆ96.1ˆˆ方法二:利用检验统计量检验统计量的构建(在无效假设的前提下)检验统计量的构建是无效假设的关键。检验统计量一般服从某种分布。这样我们就可以利用这种分布计算出由无效假设出发,得到观察到的差异或更大的差异的概率,从而作出推断。观察到的量的标准误假设的量观察到的量检验统计量在继续进行之前002002PrPr1,0~,~PrPr1,0~,~zzxxNzxzNxuuxxNuxuNxxx界值对应于检验水准的分布上的某些数值。正态分布上的某些界值:单侧0.051.645或-1.645双侧0.051.96和-1.96相同检验水准,单侧检验界值外的概率是双侧检验的2倍碱性磷酸酶的例子考察某药物是否有提高成年男性碱性磷酸酶的作用。已知未服药时成年男性的碱性磷酸酶的均值为60U/l,标准差为15U/l。现观察到100名服药后的成年男性的碱性磷酸酶的均值为62U/l,问该药物是否有提高成年男性碱性磷酸酶的作用?33.1100156062nxZ无效假设:备择假设:检验统计量:拒绝无效假设的区间:单侧=0.05,如果Z1.645则拒绝。结论:由于1.331.645,不拒绝无效假设。尚无足够证据证明该药有提高成年男性碱性磷酸酶的作用。60:60:0AHH33.1100156062nxZ血清白蛋白的例子原发性胆石症患者的血清白蛋白总体均数为33.5g/l。现有216名患者的血清白蛋白均数为34.46g/l,标准差为5.84g/l,问此样本是否来自于上面的总体?无效假设H0:此样本来自于上面的总体或者说此样本代表的总体与上面的总体相同。10备择假设H1:此样本不来自于上面的总体或者说此样本代表的总体与上面的总体不同。10检验水准:双侧0.050156.020078.0242.2Pr:42.2397.05.3346.34/397.021684.5zPzlgSE值检验统计量样本均数的标准误理解检验统计量观察到的量可以是一个样本的均数、两个样本均数的差、一个样本的百分构成、两个样本百分构成的差检验统计量所服从的分布不一定是正态分布。但只要是已知的理论分布,都可以通过该分布求得P值。观察到的量的标准误假设的量观察到的量理解P值P值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。P值越小说明无效假设越不可靠。或者说,P值越小我们就越有理由推翻无效假设。至于P值是否属于“小”,一般的,我们是根据事先确定的检验水准来判断的。当P时,我们就可以下诸如“差别有显著性”的论断。P值的大小与观察到的量的大小之间没有必然的联系。当P时非小概率事件在无效假设的前提下,得到观察到的量(或更极端的量)的可能性还是相当大的,我们尚不能拒绝无效假设或者说拒绝无效假设的证据不足。具体问题,专业判断P=0.70与P=0.07“差别有显著性”与“差别显著”类似地,还有“差别有高度显著性”与“差别极为显著”二者之间不存在必然的联系。“差别显著”不一定导致“差别有显著性”,“差别不显著”倒是有很大可能导致“差别有显著性”。即使“差别有显著性”,临床上也不一定有意义。I型错误与II型错误TypeIandTypeIIerrors尽管是小概率事件,它还是有可能发生的。I型错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得P值小于检验水准而导致被拒绝。是否为小概率事件是由检验水准而定,所以犯错误的概率也由检验水准而定。II型错误:虽然无效假设为假,

1 / 39
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功