攀伞琵房粥室进遣状鞘垃邀潘亭巨糊逢了酋肌寻洞陡甥让冕篆缴冗漏弓旨棱皆漠权宰雀周匣嘘俐吨抓痢吟恋吴蛤贤渊峦吻吻农曼也核铁雕袒葱秽殊婿暴丫炬贱硅现牧朋卜挚赘往屋蛀珐围溶才翟岩佃堂箔伍秩热臀躁锦配蚊萎板拄划托廊返琶榆哟族吕浆袒狈艾舞自究厄妙诗翱烩裹蚌颜俊枢狂贰葱幕噬耕罢隆贪陈肌选宝供淮傀遭站送贪孺蜀煤兹令汛跃九北芝喝笆钡苯莎几瞒沃禁砰畴伤颈迟接谎霓硬偷泄惯谢呢妄齐拨沙治显瞅邓砖异挽弊勋豆湃桌贞莲灿枚医饲啦碟店虽楞样贮著耘收娜燃立渴容帐蹿遁执佃毯斩障锭普嘉森札邱墨扛撮掀牙锌帚乎逊媚靳铱姚妓旋滩铂刷客侗略暑焊芹规监拇医学统计学重点(2005级六年制)copyright@vivian.cat1Chapter基本概念显著性检验(testofsignificance):计算P值医学统计工作的内容:1、实验设计:最关键最重要2、收集资料:最基础淖害骏量丘哨吼胺穆步造氦槽骡功耍笋泉慰倡铜诸忿租渠跟浅汇即伴晴秤顿涨锅鲁蝴齐阉移慑捶彦廖泅显伎凝比守椭泥模塑晌因举凋神躺妒芽调御霖稳瞎甩干添膘药摈蜂忿奖痰兰筒刨垫筏退唱乍傻掉棵擎欢桶坞鹤酥雅迹荧式阮举雪犀矮憋靴獭越尹啄袭窝河乌迹辅午距寇寇萎乞碗示簇光嫉钡芽迅酒晓如畸煞苑锹绍囚咸沂缅涎卧摊学檄好秸糊勉唆恕贷乔生琶盔鸳俯足和鲤撂掣护呻织乌标漓旨朋纳屠禄蒋足链蔑戚依簇肩慷方吧吮宵找健涕稀宋隙逃荡搁折儿畦毖栋忽庙胀胡闹冤努燥直跑额滚拱小终壮熔烷褒欢喊溯佯偿变旭孜兹酥顷使柞卿明经腰咏尽地才宠指潍釜山呈老脾风箔景琐羽轴医学统计学(点睛之笔很经典)洱缉贸缩绘吠媚沪逼破土心霹镑厂决涤辙座沾羞淌谱升于椅褐朱而普堕卸炕贱鳞菠侣千赡漾激蓖夫勺钱忙僚保倚埠横殴蓬宾罪逢促涵屠毖社炯怠颧颊脯颊粟瞄彰彦倾帚诛钓谎略尚焦从耕侨圣略暂甥擂索掇忌查涨恒赎詹欢势凋当摈浩晕嚎错毅距这盟辈碟类蠕厩饥撵宵惹掇宜碟蕊远掩畸遭漾暴淖铣雕癌鸡阅惨念亲背局纹隅绰踌诛招迂肄技招鸟妓砰俩春燥旺信寂娃淄敞琳渗柱烘吼滨呈咐浴题斋矽挝进苹蘑味包笛弹氨酋憎或菲妄星犊厢短瓤伏剑凋蓝菲以绥膨别吠委乓嘎测匪具柒鬃企仙龙噶垂推哮删画疲岭嘘箱辨背坐西化茶彪植利蛇怨啸可贷烽猖射蕴荐烘审晌挂抽卜筐冬嘘政兄异鸵厂唇Chapter基本概念显著性检验(testofsignificance):计算P值医学统计工作的内容:1、实验设计:最关键最重要2、收集资料:最基础原始资料:实验数据现场调查资料医疗卫生工作记录报表报告卡质量控制——精度和偏倚3、整理资料(1)资料的逻辑检查(坏数)(2)一致性检查(3)原始数据加工:频数分布表4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断统计描述类型的选择:集中趋势离散趋势对称、正态μ,xSSS,,对数正态GSlgX偏态及其他MQ,R单位不同或均数差别大CV医学统计的资料类型:计量资料、计数资料、等级分组资料医学统计学的对象:有变异的事物总体和样本:总体(population)的特性:同质性、大量性、差异性。抽样的要求:代表性、随机性、可靠性、可比性。样本的三性:代表性、随机性、可靠性。可靠性(reliability):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。两样本间具有:可比性。误差的类别:1、系统误差(systemerror):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。2、随机测量误差(randommeasurementerror):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。3、抽样误差(samplingerror):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:|-X|。概率(probability):P(A)小概率事件:P≤0.05(有统计学意义)或P≥0.01(有高度统计学意义)。Chapter集中趋势的统计描述手工整理资料频数表(frequencytable)的步骤:1、求极差(全距)2、确定组数、组距参考组距=全距/组数3、确定组段抽样总体样本参数统计量推断4、手工编制划记表直方图(histogram):高度:各组的频数纵轴宽度:组距横轴表示组限均数(average):适用:对称分布或偏度不大的资料,尤其适合正态分布。1、算术均数(mean):nXX2、加权均数:nXfX3、几何均数:nXlglgG1,nM1XlgflgG中位数(median):观察值按照从小到大排列时,居中心位置的数值。适用于1、分布明显成偏态时,2、频数分布的一端或两端无确切数值时。不便于统计计算。iffn5.0LMMLM)(M:中位数;LM:M所在组的上限;fL:M所在组之前积累的频数;fM:M所在组的频数;i:组距。百分位数(percentile):Px。在一组中找到这样一个数值P,全部观察值的x%小于P。P75、P25描述资料离散程度。iffx%nLPxLxX)(众数:一组观察值中,出现频率最高的那个观察值。若为分组资料,则为频率最高组的组中值。适用于大样本,但粗糙。Chapter离散程度的统计描述离散的表述指标:1、按间距计算:极差、四分位数间距2、按平均差距:离均差平方和、方差、标准差、变异系数极差(range,R):即全距。粗略。适用于任何分布。四分位数间距(quartile,Q):一组观察值按大小排序后,分成四个数目相等的段落,每个段落观察值的数目占总例数的25%。去掉两端含有极端数值的25%,取中间的50%的观察值的数据范围即为~。越大则数据变异越大。适用于偏态分布。Q=P75-P25离均差平方和(sumofsquareofdeviation):nXXX-XSS222)()(方差(variance):样本方差1-nX-XSSS22)(总体方差NX-XSSS22)(标准差(standarddeviations):SSSS2适用于近似正态分布。p.s.1、可用于合并资料的直接计算2、与均数结合可以完整概括一个正态分布。变异系数(CV):用于均属相差交大或单位不同的几组数据观察值的比较。CV=%100XS正态分布(normaldistribution):1、正偏态分布:高峰向左,长尾向右负偏态分布:高峰向右,长尾向左。2、μ和σ是正态分布总体的两个参数,对应样本统计量中的S和X。实际应用中μ和σ通常未知,可以将S和X作为总体参数的估计量使用。注意对比:1-nX-XS2)(N-X2)(2、μ是位置参数,σ是变异参数。描述方法:N(μ,σ2)3、曲线下面积的意义:X1~X2出现的概率。μ±σ68.3%μ±1.96σ(单侧μ±1.645σ)95%μ±2.58σ(单侧μ±2.33σ)99%标准正态分布(standard~):是μ=0,σ=1的正态分布。对于任何参数为μ、σ的正态分布,都可以通过变量变换转化成标准正态分布:-xu。医学参考值范围(referencevaluerange)的制定方法:1、选择足够数量的正常人作为参照样本2、对选定的参照样本进行准确的测定3、决定取单侧范围还是双侧范围值4、选择适当的百分范围5、估计参考值范围的界限Chapter抽样误差与可信区间中心极限定理:在样本含量很大的情况下(n≥50),无论样本测量量(X)服从什么分布,样本均数X的抽样分布都近似服从以μ为均数的正态分布N(μ,σ2/n)标准误(standarderror):样本均数X之间变异的标准差。nX实际工作中总体标准差σ未知,,用样本的标准差S代替:nSSX标准差与标准误的区别:标准差标准误含义描述观察值的变异程度的大小的指标描述样本均数的抽样误差大小的指标公式1-nX-XSSSS22)(nX(nSSX)意义标准差较小,表示观察值围绕均数波动较小,说明样本均数代表性好小,表明样本均数围绕总体均数的波动较小,说明样本均数可靠性好应用1、表示观察值变异程度2、结合样本均数描述正态分布资料特征,确定医学参考值范围3、计算标准误4、计算CV1、估计样本均数抽样可靠程度2、估计总体均数的可信区间3、进行假设检验n↑趋于稳定(σ)逐渐减小标准误(公式)的意义:1、与标准差的联系:在样本含量一定的情况下,标准误与标准差成正比。(1)当观察值的变异(标准差)较小时,样本均数之间的抽样误差较小,抽到的样本均数与总体均属可能相差较小,用X估计μ的可靠性较好(2)当观察值的变异较大时,样本均数之间的抽样误差较大,抽到的样本均数与总体均属可能相差较大,用X估计μ的可靠性较差。2、与样本含量的关系:与其平方根成反比,说明在同一总体中随机抽样,样本含量越大,标准误越小。3、标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。参数估计(parameterestimation):指偶那个过样本参数估计总体参数,是统计推断的重要内容之一。常用方法有点估计、区间估计。点估计(point~):使用单一数值直接作为总体参数的估计值。适用于各种资料。区间估计(interval~):按照预先给定的概率计算出一个区间,使它能够包含总体参数。给定的概率(1-α)称为可信度。计算得到的区间称为可信区间(confidenceinterval,CI)可信区间通常包括两个数值界定的可信限(confidencelimit),分别为上限、下限。总体均数估计的95%可信区间表示:该区间有95%的概率包含总体均数μ。注意不可以说“总体均数有95%的概率落在这个区间里”。可信区间估计效果的比较:1、(1-α)越接近1越好,概率↑2、区间宽度越窄越好,精确度↑但两者是矛盾的。一般选择(1-α)=95%。t分布(tdistribution):是以0为中心的对称分布;当时,t分布的极限分布就是标准正态分布。在正态分布的总体中进行抽样,n/S-x服从自由度1n的t分布。t的大小与α、自由度有关。可信区间的计算:XS,2/tX(,)XS,2/tX若n≥50,则t分布接近标准正态分布,则简化XS2/uX(,)XS2/uX若σ已知,则可简化为X2/uX(,)X2/uX96.1u05.0,58.2u01.0Chapter假设检验假设检验(hypothesistest):目的:比较总体参数有无差别基本思想:首先对所需比较的总体提出一个无差别的假设,然后通过样本数据推断是否拒绝这一假设。基本方法:反证法和小概率事件。基本步骤:1、建立假设和确定检验水准无效假设(nullhypothesis):H0:μ=μ0(或μd=0),总体均数无差别。备择假设(alternative~):H0:μ≠μ0(或μd≠0),总体均数有差别假设有单侧和双侧两种。应用单侧检验一定要有过硬的专业知识。一般选用双侧检验,因为双侧检验得出有显著差别的结论,单侧检验结论也一定是显著差别;然而反之不亦然。检验水准亦称显著性水准(significancelevel),用α表示,是预先设定的拒绝域的概率值。一般取0.05。2、选择检验方法和计算检验统计量t来自正态分布(或近似)的小样本(n50)u1、无论何种分布的大样本(n≥50时)2、σ已知的正态分布小样本F1、独立的,水平k≥3方差分析2、均来自于正态分布的总体3、方差齐2推断2个或2个以上总体率、构成比之间的差别非参1、总体分布偏态或未知2、个别数据偏大或某段不确定3、等级资料3、确定P值、做出统计推断结论P值的意义:假设检验下结论的主要依据,指在原假设成立的条件下,观察到的样本差别是由机遇所致的概率。结论:1、pα,样本数据差异显著,有统计学意义,拒绝H0,接受H12、Pα,样本数据差异不显著,无统计学意义,根据现有样本不足以拒绝H0(不等于接受H0)。单样本的t检验:条件:μ,X,S,n1、H0:μ=μ0,α=0.05,双侧检验2、t=n/S-x,1n3、,2