数据统计与分析方法1、数据统计的一般方法;2、数据分析的一般方法;3、了解数据统计和分析在实际案例中的应用;4、了解时间序列分析及相关软件应用;培训主要内容:瞎子王国里,有一只眼精的人就是国王!心电图的由来1780年有一天,43岁的意大利解剖学家伽伐尼GalvaniLuigi,1737-1798),在实验室解剖青蛙,在用银质手术刀触碰放在铁盘上的青蛙的时候,无意间发现青蛙腿部肌肉抽搐了一下,仿佛受到电流的刺激.如果换用一种金属器械去触动青蛙,就无此种反应。1832年,一个晴朗的日子,还是意大利,还是青蛙,只是做实验的人换成了马泰乌奇。这一次,马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流,他称之为“肌肉电流”。他发现,包括心脏在内,一切正在收缩的肌肉都会产生肌肉电流。医学研究者通过大量的临床数据发现正常和非正常的心电图1、什么是数据?数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。数据表现形式表现形式一2006年客户销售分析报表A客户12月1月2月3月4月5月6月7月8月B客户999898100101108108114110C客户677073747577828080D客户878488857985919293E客户148143143145137141136134139F客户757676777978827878G客户878692100103100978991H客户132134141142160154150136137合计6966927127247357437467237285007009001100130012月1月2月3月4月5月6月7月8月9月10月11月数据列表数据表现形式二248269224245381595255254237211171166247422303320412420667470366410403330343477010020030040050060070080012月1月2月3月4月5月6月7月8月9月10月11月12月描述性分析:数据分时段走势、差距变化情况以及相应的时间背景销售码洋趋势图数据表现形式三31.0%36.2%43.4%36.4%64.3%85.3%57.5%60.2%53.5%47.4%39.5%35.5%33.0%13.2%21.1%30.8%36.1%49.0%67.0%51.5%47.3%43.3%37.4%30.4%25.5%27.3%0%10%20%30%40%50%60%70%80%90%12月1月2月3月4月5月6月7月8月9月10月11月12月销售码洋结构比数据类型的分类1、计量资料(measurementdata)用仪器、工具等测量方法获得的数据,又称数值变量。特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.2、计数资料(countdata)按某种属性分类计数后得到的数据,又称无序分类变量,有二分类和多分类两种情形.特点:无计量单位,如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(1=男,2=女)等.3、等级资料(ordinaldata)半定性或半定量的观察结果,有大小顺序,又称有序分类变量.如①癌症分期:早、中、晚。②药物疗效:治愈、好转、无效、死亡。③尿蛋白:,,,++,+++及以上住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月实例数据计量资料计数资料三类资料间关系例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数8低血压8正常血压12轻度高血压15中度高血压17重度高血压计量资料等级资料计数资料第一部数据统计概述什么是统计方法统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。统计方法是一种从微观结构上来研究物质的宏观性质及其规律的独特的方法。一般统计方法根据数据的类型可以分为以下三种统计方法1、计量资料的统计方法**2、计数资料的统计方法3、等级资料的统计方法运用统计方法应遵循的原则坚持用数据说话的基本观点。有目的地收集数据。掌握数据的来源。认真整理数据。统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告,提出解决意或建议计量资料的统计描述1、频数分布(frequencydistribution)为了了解数据的分布情况,可以编制频数表(frequencytable).(1)求极差(range):即最大值与最小值之差,又称为全距。(2)数据分组:由样本容量n确定组数、通常分10-15个组;一般采取等距分组,组距=极差/组数。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。频数表的编制步骤编号血清甘油三脂编号血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77表2-1:160名正常成年女子的血清甘油三酯(mmol/L)组段(1)划记(2)频数,f(3)组中值,X(4)fX(5)=(3)×(4)0.5~30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8合计31.755.25160182.30编制频数表,绘制频数分布图对称分布:以频数最多组段为中心左右大体对称.右(正)偏态分布:频数最多组段右侧组段数多.(skewedtotherightdistribution)左(负)偏态分布:频数最多组段左侧组段数多.(skewedtotherightdistribution)2、集中趋势的描述统计上使用平均数(average)来反映计量资料的集中趋势(centraltendency).常用平均数有:1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean)3.中位数(median)4.百分位数(percentile)nXnXXXXn21iikkkffXffffXffXfXXfX32132111lglgiiifXGf12nnGXXX为偶数为奇数nxxnxMdnnn22/12/2/)1(3、离散趋势的描述反映数据的离散度(Dispersion),即个体观察值的变异(variation)程度,常用的统计指标有:1.极差(Range)(全距)2.四分位数间距(Quartilerange)3.方差(Variance)4.标准差(StandardDeviation)5.变异系数(CoefficientofVariation)minmaxXXR221XXnSn四分位间距:QR=P75-P25%100XSCV三、SPSS实现计量资料的统计描述下面是SPSS软件中绘制频数图的步骤四、计数资料的统计描述住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月1、计数资料数据的整理按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计182000305209261018045222871024701115024503428521534436126504325451337036628343510347857248301114112239171143214231424360344253122283621145114383110218400020002合计20714110220853720614012、常用相对数指标计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)×比例基数比例基数:100%、1000‰、10000/万、100000(1/10万)等如:发病率、死亡率、发生率、阳性率、患病率等构成比(proportion):说明某一事物内部,各组成部分所占的比重,也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)×100%如:教研室20人中高级职称有5人,占25%。相对比(relativeratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生:护士、教师:学生年龄组⑴受检人数⑵白内障例数⑶患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.361468448100.0030.52例:率与构成比(1)不能以构成比代替率。(2)计算相对数的分母不宜过小,小则直接叙述。(3)进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。(4)正确求平均率。例:若P1=x1/n1P2=x2/n2P3=x3/n3P=(x1+x2+x3)/n1+n2+n3)(正确)P=(P1+P2+P3)/3(错误)3、相对数应用注意事项计数资料和等级资料的SPSS表示五、统计表与统计图统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析.统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果.定义:将统计分析的事物及指标用表格列出.特点:避免长篇文字叙述,便于阅读和对比分析;数据具体.定义:用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.统计表由以下几个部分组成:①标题、②标目、③线条、④数字、⑤备注表2-9某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)受检人数异常人数检出率(%)血压心率TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。(丁建生等.中国卫生统计1999;16(3):166)1、统计表的结构××.××┋┋×.××××.××纵标目总标目(单位)××.××××××××合计┋┋┋┋┋┋┋┋×.××××××