统计表和统计图童新元中国人民解放军总医院统计描述(二)统计描述•统计描述是指用统计指标和公式、统计表、统计图等方法对数据的特征及其分布规律进行检测与描述。•统计描述的方法有三种:•统计量(指标和公式)•统计表•统计图概率正态分布密度函数•若随机变量x的概率密度函数为:•式中μ为总体均数,σ为总体标准差•x满足正态分布,记为x~N(,2)22()21(),2xfxex正态分布的性质•正态分布形状像钟称为钟型曲线.•①正态分布曲线在横轴上方均数处()达到最高。•②正态分布曲线以均数为中心,左右两侧对称。•③正态分布曲线以横轴为其渐近线。•④正态分布有两个参数和•均数是位置参数,当恒定时,越大,则曲线沿横轴越向右移动,越小,则曲线沿横轴越向左移动;•标准差是变异度参数,当恒定时,越大,表示数据越分散,越小,表示数据越密集。曲线下的面积•⑤正态分布曲线下的面积有一定的规律。•正态分布曲线下横轴上的总面积为1。•变量x落在某个区间的概率等于正态分布曲线下该区间的面积。正态分布的应用计算正常值范围(参考值范围)95%参考值范围:均数加减1.96倍的标准差例如:医院临床检验报告中参考值范围:红细胞计数:4.3-5.910^12/L白细胞计数:3.5-1010^12/L。。。1、集中趋势度量平均数是一类描述定量数据的平均水平或集中趋势的统计指标。•算术均数•几何均数•中位数•众数定量数据的常用统计指标案例:“平均工资问题”•某单位10个员工工资情况(人民币元)•问题:单位员工平均工资多少?类别人数工资董事长170000经理220000主管36000职员44000合计101000002、变异(variation)•同一总体中不同个体之间的差异称为变异(variation),亦称为数据的离散度。•极差•四分位数间距•方差•标准差•变异系数大象与蚂蚁体重问题•一群大象与一群蚂蚁的个体体重差异哪个大?怎样研究和分析?个体差异的计算•根据百度百科数据:•亚洲象一般高约2.3~3.5米,重4~8吨•蚂蚁一般长约0.5~3厘米,重25~60毫克•变异系数计算:•CV象=(8-4)/(1.96*2*(8+4)/2)*100%=17%•CV蚁=(60-25)/(1.96*2*(60+25)/2)*100%=21%•自然界和人类社会很普遍规律。贫富不均问题•经济学问题是发达国家居民内部收入分配差异大还是贫穷落后国家居民内部收入分配差异大?•怎样研究和分析?•世界各国普遍采用基尼系数(Ginicoefficient)计算。基尼系数是意大利经济学家基尼于1912年提出的,定量测定收入分配差异程度,国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。基尼指数的计算方法•假定一定数量的人口按收入由低到高顺序排队,分为人数相等的n组,从第1组到第i组人口累计收入占全部人口总收入的比重为wi,则:基尼指数的意义•基尼指数经济含义是:在全部居民收入中,用于进行不平均分配的那部分收入占总收入的百分比。基尼系数在1和0之间。•按照联合国有关组织规定基尼系数:•低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。•发达国家大约在0.25-0.35左右,非洲国家大致维持在0.5左右。卫生经济学•公元前3世纪,古希腊思想家亚里士多德曾谈到农民和医生之间在生产和交换中的关系。17世纪,英国经济学家W.配第在《献给英明人士》(1691)一书中指出:花在工人身上的医疗保健费用会带来经济上的收益。1940年,H.E.西格里斯特发表了《医疗经济学绪论》一文,认为医疗经济学应该阐明阻碍现代医学应用的各种社会经济条件,分析贫困与疾病给国民经济带来的巨大损失,解决医疗价格与患者的经济负担能力之间的矛盾。•卫生经济学作为一门学科是在20世纪50~60年代形成和发展起来的。不同分布数据的统计描述*正态分布的定量数据,常用均数与标准差共同描述资料的集中和离散程度。Mean±SD,Mean(SD)非正态的定量数据,常用中位数与四分位距共同描述资料的集中和离散程度。Median(Q)•定性数据通常是按研究对象的类别性质清点数目,故亦称为计数数据。•百分率(发病率、死亡率、治愈率)•构成比(疾病构成、性别构成)•相对比(RR,OR,同比,环比)定性数据的统计指标某院妇产科156例子宫脱垂患者产次分布产次例数百分比(%)010.6413623.0823019.2332314.7441811.545及以上2817.95不详2012.82合计156100作者在论文中分析结论:患者多大第一,第二次产后发病,以第一产后发病者最高.----摘自某中华杂志案例:某中华杂志中的统计问题非典中的典型统计错误•2003年北京地区发生非典SARS,有科研人撰文并在网上报道:第一阶段医护人员感染率为33%,并解释说:就是在感染“非典”的100人中,有33人是医护人员。是否有错误?其后果是什么?•怎样绘制统计表和统计图引例1:世界各国教育经费数据•中国人均公共教育支出为42美元,美国为2684美元,是中国的64倍。如果考虑到人口的因素,以人均GDP来比较,中国人均公共教育支出仅为人均GDP收入的0.82%,美国为6.10%,是中国的7倍。日本为4.28%,是中国5倍。韩国为3.01%,是中国4倍。巴西为2.29%,是中国3倍。俄罗斯为1.87%,是中国的2倍。•---中国教育报2009年11月30日世界各国教育经费数据比较•————————————————•国家教育经费占人均GDP比例(%)•————————————————•美国6.10•日本4.28•俄罗斯1.87•中国0.82•世界4.4*•————————————————名人格言•一幅好图胜过千言万语。•---萨尔金德美国教育心理学家教育经费数据•1993年,中共中央、国务院发布《中国教育改革和发展纲要》提出,国家财政性教育经费支出占GDP比例要达到4%。•2012年中央财政教育支出安排3781.32亿元,国家财政性教育经费支出将占国内生产总值(GDP)4%以上。•2012年中国国内生产总值519322亿元。中国的教育经费问题•引例2:世界各国医疗经费数据•钟南山援引世界卫生组织的数据指出,中国医疗卫生投入占GDP的比值约为4.6%。•不仅远低于主要发达国家8%以上的比例,也低于很多中低收入国家。考虑到中国现阶段的发展国情,医疗卫生经总费占GDP5%比较合适。---国际在线消息2011年3月•美国医疗卫生费用占GDP17%,英国占7%,美国人均7500美元,英国人均3800美元。中国医疗经费数据•2012年,中央财政医疗卫生支出安排2035.05亿元。其中,将新型农村合作医疗和城镇居民基本医疗保险的财政补助标准增加到每人每年240元。世界各国医疗经费数据对比国务院关于促进健康服务业发展的若干意见•(一)大力发展医疗服务。•(二)加快发展健康养老服务。•(三)积极发展健康保险。•(四)全面发展中医药医疗保健服务。•(五)支持发展多样化健康服务。•(六)培育健康服务业相关支撑产业。•(七)健全人力资源保障机制。•(八)夯实健康服务业发展基础。•国务院2013年9月28日引例3:中国三公消费数据•2012年中国三公消费3.9万亿。3.9万亿相当于13亿中国人每人发3000元的红包;相当全国两亿中小学生免费上学9年;相当于吃掉一万艘航母!•---香港凤凰卫视执行台长杨锦麟2012年教育医疗和三公经费数据比较•————————————————•行业中央财政支出(亿元)•————————————————•教育3781.32•医疗卫生2035.05•三公消费39000.00•————————————————坚决反对“四风”•我们必须看到,面对世情、国情、党情的深刻变化,精神懈怠危险、能力不足危险、脱离群众危险、消极腐败危险更加尖锐地摆在全党面前,党内脱离群众的现象大量存在,集中表现在形式主义、官僚主义、享乐主义和奢靡之风这“四风”上。我们要对作风之弊、行为之垢来一次大排查、大检修、大扫除。•----习近平中共中央总书记、国家主席、中央军委主席在党的群众路线教育实践活动工作会议上讲话。2013年6月18日统计学定义•统计学是:统计学是一门关于收集、分析、解释和表达数据的科学。•---Webster国际大辞典•统计学就是个“P”。•统计学就是数字计算。•统计学就是对数据“统计统计”•。。。。现代统计学的新观念•统计是一个系统搜集数据并基于这些数据做决策的过程.•-----鲁尼恩《行为统计学》统计表和图的作用•人脑对图形的加工记忆力是文字的1000倍。•统计表和图描写数据直观明了广泛应用于医学论文,课题总结,交流汇报,论文答辩等工作中。•正确的绘制统计表和统计图非常重要。一、统计表•统计表是用表格的形式表达统计数据。医学研究实例•某研究者采用对照药,A药和B药治疗急性冠周炎,病例数分别为29例,32例和100例。治疗结果如下:采用对照治愈人数25例,未愈4例,治愈率86%;采用A药治愈人数18例,未愈14例,治愈率56%;采用B药治愈人数70例,未愈30例,治愈率70%。•试列表描述。•统计表可以代替冗长的文字叙述,简洁明了,便于理解和比较。一、三线表•只包括一个分组变量的统计表常只有三条线,统计学称为三线表。•三线统计表的结构如下图所示。二、列表主要内容•包括五个方面:•①标题•概括地指明表的内容,必要时应注明资料产生的时间、地点。标题前应包括表格的编号。标题位于统计表的最上部。②标目•分为纵标目与横标目。•横标目又称主辞,列于表的左方,标示相应行的内容;•纵标目又称宾辞,列于表的上方,标示相应列的内容;•反映主要研究事物的标目宜安排在表的左侧。使得从左至右可以形成一句完整的叙述语句。例如,表中可读成“对照组治愈25例,未愈4例,治愈率为86%。”•③线条•表格的顶部、底部用较粗的横线,纵标目下边用较细的横线,共三条线。•表格中不允许使用竖线、斜线。•④数值•表中的数字一律使用阿拉伯数字。同列数据应取相同的小数位。表内不应空格。•零值应用“0”表示。•不详的数据可用“…”填充。•不存在的数据应以“-”号标明。•⑤备注•一般不列入表内,表中可用“*”等符号标出,注在表下。复合表•一张表只包括一个中心内容(分组变量)称为简单统计表。•在一个统计表中包含两个以上分组变量,称为复合表。•如A、B两药物在甲、乙两医院的疗效数据比较,见下表2。•表2A、B两药物在甲、乙两医院的疗效•药甲医院乙医院•物有效无效合计有效无效合计•A40105042850•B351550331750列表原则•重点突出•简单明了•主谓分明•层次清楚常见的统计列表问题•某研究者用甲、乙两种培养基培养20份标本,结果在甲培养基培养的13份阳性标本中,乙培养基培养的10份阳性标本;在甲培养基培养的7份阴性标本中,乙培养基培养的2份阳性标本;试列表描述实验结果。•课堂练习:P181表2甲乙两种培养结果•————————————————•分组+-合计•————————————————•甲13720•乙12820•————————————————•*经统计学检验P0.05•此列表描述实验结果,合理吗?甲、乙两种培养基培养20份标本结果•乙+-合计•甲+10313•-257•合计12820•商业用表与统计学用表的区别注意事项•不同的医学期刊对统计表的要求略有不同,必要时可参考有关期刊的具体要求。•如果表中的宾辞很多时,制表时宾辞可与主辞交换位置。运动与健康研究分析结果•表3运动与健康研究中基线的特征•指标生存死亡•(n=20000)(n=600)•年龄,岁(SD)42(10)52(11)•身高,cm(SD)178(15)180(19)•体重,kg(SD)24(4)26(3)•收缩压,mmHg(SD)121(14)130(19)表4运动与健康研究中基线的特征指标生存死亡运动量(%