定性变量&统计描述•定性变量:变量值为定性描述–按该变量的特征表现为若干穷尽,且互斥的类别—分类变量–从群体角度出发,考察该变量各类别的观察对象数—计数变量•统计描述:用统计图、表、指标等描述变量在群体中的分布特征ID县别不住院原因ID县别不住院原因1甲县经济困难1乙县没有必要2甲县经济困难2乙县经济困难3甲县经济困难3乙县经济困难4甲县没有必要4乙县经济困难5甲县经济困难5乙县没有时间6甲县经济困难6乙县经济困难7甲县经济困难7乙县经济困难8甲县没有时间8乙县经济困难9甲县没有时间9乙县没有时间10甲县其它10乙县经济困难………………333甲县经济困难306乙县其它甲、乙两县应住院者未住院原因情况调查定性资料频数表•以变量的类别作为分组标志(组段),统计相应的频数原因经济困难没有时间没有必要其它合计频数293171013333表5.1甲县应住院者未住院原因情况原因经济困难没有时间没有必要其它合计频数282996306表5.2乙县应住院者未住院原因情况列联表(contingencytable,crosstabs/tabulations)•将观察对象按两个定性变量的类别交叉分组,统计相应的频数形成的频数表,也叫R×C表–行变量,有R个类别,一般存放处理因素–列变量,有C个类别,一般存放观测指标表5.3甲、乙两县应住院者未住院原因情况293171013333282996306575261919639县别经济困难没有时间没有必要其它合计甲乙合计县别经济困难没有必要没有时间其它合计甲293101713333乙282996306合计575192619639•该变量某个类别在群体中的发生次数–与基数有关:观察总次数(或观察对象数)•不便于相互比较分析–抽样研究中难以说明总体的特征绝对数表5.3甲、乙两县应住院者未住院原因情况县别经济困难没有必要没有时间其它合计甲293101713333乙282996306合计575192619639县别经济困难没有必要没有时间其它合计甲293(87.99)10(5.11)17(3.00)13(3.90)333(100.00)乙282(92.16)9(2.94)9(2.94)6(1.96)306(100.00)合计575(89.98)19(2.97)26(4.07)19(2.97)639(100.00)表11.5甲、乙两县应住院者未住院原因构成比(%)(87.99)293100%87.99%333相对数(RelativeNumber)•概念:两个有关的数据或指标之比•意义–消除绝对数所来自基数不同的影响,便于资料比较、分析–在抽样研究中,更能体现总体的特征相对数的分类•根据含义或用途不同可以分为:–构成比(Proportion)–率•频率(Frequency)•速率(Rate)–比(Ratio)构成比(Proportion)•说明某一事物内部各组成部分所占整体的比重,常用百分数表示–取值在[0,1]–各部分构成比总和为1或100%,此消彼长–各部分构成比结合在一起说明该事物的内部构成情况100%该部分的观察单位数某部分构成比各组成部分的观察单位总数县别经济困难没有必要没有时间其它合计甲293(87.99)10(5.11)17(3.00)13(3.90)333(100.00)乙282(92.16)9(2.94)9(2.94)6(1.96)306(100.00)合计575(89.98)19(2.97)26(4.07)19(2.97)639(100.00)构成比表11.5甲、乙两县应住院者未住院原因构成比(%)饼图(Piegraph)甲县应住院者未住院原因构成比(%)88%3%5%4%经济困难没有必要没有时间其它92%3%3%2%经济困难没有必要没有时间其它乙县应住院者未住院原因构成比(%)百分比条图(Percentbargraph)甲、乙两县应住院者未住院原因构成情况0%10%20%30%40%50%60%70%80%90%100%甲县乙县构成比其它没有时间没有必要经济困难相对数的分类•根据含义或用途不同可以分为:–构成比(Proportion)–率•频率(Frequency)•速率(Rate)–比(Ratio)•某时期或时点发生某事件的频数占总观察次数比值,说明该事件的发生频度–k为比例基数,100%、1000‰、10000/万……•依据习惯•使计算结果,保留1到2位整数–样本率常用p表示,总体率用表示频率(Frequency)k某时点发生某事件的观察单位数时点发生频率该时点观察单位总数k某时期内发生某事件的累计观察单位数时期(累计)发生频率该时期观察单位总数期初频率(Frequency)•其实质是发生比例(比重)–根据某事件是否发生将观察对象分为:发生、未发生两类–关注该事件在多次观察中“发生”的频度–取值在[0,1]•观察次数足够大(观察单位足够多)时,可用来估计事件的发生概率年份检查人数阳性人数阳性率(%)2007356212008534432009378662010622915.908.0517.4614.63频率(Frequency)•2007~2010年某地区MSM(MenwhohaveSexwithMen)横断面调查HIV感染情况2007~2010年某地区MSM的HIV感染情况2007~2010年某地区MSM的HIV感染情况024681012141618202007200820092010感染率(%)2007~2010年某地区MSM的HIV感染情况024681012141618202007200820092010感染率(%)相对数的分类•根据含义或用途不同可以分为:–构成比(Proportion)–率•频率(Frequency)•速率(Rate)–比(Ratio)速率(rate)•某时期单位时间内某事件发生的频率或强度,反映变量随时间变化的速率(persontime)+2kkkk某时期发生对象数发生速率观察对象总数观察时间某时期发生对象数观察总人时数某时期发生对象数该时期该时期时间某时期发生对象数(期初观察对象数期末观察对平均观察对象数)该时期时间象数速率(rate)•共观察100人,1年内50人发病50100%50%100年发病频率50500.67/11(10050)2501+502年发病速率年年年年505012+50650=0.06/12(10050)2月发病速率月月月月•特点–有量纲(单位):1/时间–根据时间单位不同,可以是任意值,不一定在[0,1]速率(rate)常见率的实质•频率(frequency)–发生比例,即发生某事件的对象所占的比重–说明某事件在群体中的发生频度•速率(rate)–是单位时间内事件的发生频率–说明事件在群体中某时期内的发生强度相对数的分类•根据含义或用途不同可以分为:–构成比(Proportion)–率•频率(Frequency)•速率(Rate)–比(Ratio)比(Ratio)•亦称相对比,是A、B两有关指标之比–分类•关系指标•对比指标AB指标相对比指标关系指标•由两个性质不同而又有联系的指标对比计算所得的相对数–说明现象的强度、密度或普遍程度等–一般都具有单位,多为两指标的复合计量单位•千人口医师、护士、床位数对比指标•同类指标在不同条件下的差异程度或相对状态–说明A指标是B指标的多少倍或几分之几•比值=1,说明比较的两指标相等•比值1,说明比较的两指标不等–指标的表现形式•绝对数•平均数•相对数绝对数之比•()100男性人数性别比性比例=女性人数年龄性别比出生时10720岁10050岁9860岁9570岁8580岁662010年第六次人口普查(2010年11月1日零时为标准时点):出生性别比105.20总人口性别比118.06平均预期寿命(岁)74.83男性72.38女性77.37平均数之比•例5.4为了解新生儿的锌的营养状况,分别测量某医院足月儿、早产儿的脐血血清锌含量,结果显示足月儿及早产儿的脐血血清锌含量的均数分别为1.85mg/L和1.41mg/L–则该医院足月儿与早产儿的脐血血清锌含量之比为1.85/1.41=1.31,即该医院足月儿脐血血清锌含量是早产儿的1.31倍观察总人数肺癌肺癌发生率一线作业6805735.3非一线作业3201312.5合计10006600.0相对数之比—RR•相对危险度(relativerisk,RR)是指暴露于某种危险因素的观察对象发病率与非暴露(或低暴露)的观察对象发病率之间的比值RR2.35某锡矿不同生产线工人肺癌发生率(1/10万)相对数之比—OR•1950年,Doll和Hill吸烟与肺癌的关系研究肺癌病例709例(病例组)非肺癌个体709例(对照组)回顾过去吸烟情况吸烟(a)不吸烟(c)吸烟(b)不吸烟(d)疾病状态暴露现在过去病例对照研究吸烟情况病例组对照组合计有688(a)650(b)1338无21(c)59(d)80合计709(m1)709(m0)1418暴露优势吸烟情况病例组对照组合计有688(a)650(b)1338无21(c)59(d)80合计709(m1)709(m0)1418相对数之比—OR•比值(Odds):是指事件发生的概率与不发生的概率之比–在病例对照研究中,也叫暴露优势肺癌病例对照研究吸烟史比较68870921709650709597096882165059相对数之比—OR•比值比(oddsratio/OR):不同群体比值的比–病例对照研究中,病例组相对于对照组暴露于某危险因素的优势比,也叫暴露优势比吸烟情况病例组对照组合计有688(a)650(b)1338无21(c)59(d)80合计709(m1)709(m0)1418Odds688/21650/59-OR肺癌病例对照研究吸烟史比较6882165059.6885929765021RR、OR的特点•在特定情况下,OR≈RR–疾病的发病率(或死亡率)很低–研究对象代表性很好•反映暴露者患某种疾病的危险性较无暴露者高的程度–RR(或OR)=1,认为暴露和疾病无关定性资料的统计描述指标•绝对数:事物每个结果(类别)发生对象数•相对数–构成比:将事物每个部分的构成比结合在一起,说明事物的内部构成情况–率•频率(发生比例):说明事物发生频度•速率:说明事物单位时间的发生强度或速度–比:说明事物间的对比关系或密度情况应用相对数应注意的问题•率或构成比的计算中,分母数据不宜过小•事物发生频度或强度的分析中,不能以构成比代率•几个率不能相加求平均率后作为合计率•已知样本率或构成比的总体比较中,需假设检验•相对数进行比较时应注意可比性频率和概率•某医生用自制的中药汤剂治疗了10例AIDS患者,其中7例有效,即报告“该中药汤剂的有效率为70%”。–代表性差–指标不稳定,不能用以估计概率–样本例数较少时,报告成分数,如:7/10构成比和率•“208例肺不张的病因与临床分析”研究中,男性152例,占73%,女性56例,占27%,因此认为“男性肺不张的发病率高于女性”。–指标与结论不一致合计率的求解•某班有男生50人,女生20人,男生英语四级通过率为80%,女生四级通过率为100%,请问该班四级通过率为多少?80%+100%==90%25080%20100%==85.7%50+20合计通过率合计通过率√表11.1甲、乙两药治疗小儿上消化道出血的效果组别有效无效合计有效率(%)甲药27184560.00乙药4054588.89合计67239074.44比较与假设检验•甲、乙两药治疗小儿上消化道出血的效果比较混杂因素•例:比较电子科大某班和华西校区某班100米跑优秀率(不分性别均以14.5秒为优秀),两班男女生人数及优秀率见下表。两班人数及百米跑优秀率统计性别电子科大某班华西校区某班人数优秀人数优秀率(%)人数优秀人数优秀率(%)男生603660.00302170.00女生10110.0030620.00合计703752.86602745.00混杂因素