兰州大学2014级硕士研究生《现代医学统计学》试卷学院:第一临床医学院专业:姓名:杨迪联系方式:成绩:作业要求:1、不能抄袭,请独立完成;2、作业于2014年1月6日,将纸质版(A4打印)送至:公共卫生学院勤博楼401A或401C请根据“糖尿病数据.csv”,完成以下分析内容并列成科研论文所需的表格,并写出统计方法、结果及解释。试题1:1、对研究对象的基本特征进行描述(性别分布、年龄等)2、不同性别、不同年龄段、不同肥胖程度、高血压患者与非高血压患者DM(糖尿病)患病率比较;3、体重指数与收缩压、舒张压有无关联;4、肥胖程度与年龄有无关联;5、分析收缩压的影响因素;6、分析糖尿病患病率的影响因素;具体诊断标准如下:1、正常血糖:空腹<6.1并且餐后2小时<7.82、糖尿病(DM):空腹≥7.0并且餐后2小时≥11.13、高血压:收缩压≥140mmHg并且舒张压≥90mmHg4、低体重:BMI<18.5;正常体重:BMI:18.5~23.9;超重24~27.9;肥胖BMI≥28分析前处理:数据整理与数据导入根据所给数据,整理全部574例研究对象的性别、年龄、身高、体重、空腹血糖、餐后2小时血糖以及血压(收缩压/舒张压)的数据。(1)打开所给数据,在Excel表中,将血压一行进行分割,分为收缩压和舒张压两列,以便于数据的后期处理与分析。(具体步骤:WPS表格→数据→选中H列血压的数据→分列→分隔符号→下一步→勾去Tab键,选中其他,在其他后的空格中输入/,点击下一步,再点击完成→更改H列为收缩压(mmhg),I列为舒张压(mmhg)(2)异常值的处理:在Excel软件中,分别对每一个变量按照升降序的排列顺序,找出其中有无异常数据(比如极大值、极小值或不符合实际情况的数据),并对异常数据进行修正。一.对研究对象的基本特征进行描述1.对性别分布的描述表1:574例研究对象性别分布情况表性别频率(例)百分比(%)有效百分比(%)累积百分比(%)男24743.043.043.0女32757.057.0100.0合计574100.0100.0分析:如表所示,574例研究对象中,男性为247例,占43%,女性为327例,占57%。2.对年龄分布的描述方法:选择分析→描述统计→频率→选择年龄为变量→统计量中选择“均数、标准差、极小值及极大值”→确定表2:574例研究对象年龄分布情况表年龄有效(例)缺失(例)均值(岁)标准差极小值(岁)极大值(岁)574048.3115.8491385分析:如表所示,574例研究对象中,年龄的均数为48.31岁,标准差为15.849,最小年龄为13岁,最大年龄为85岁。3.对不同性别情况下年龄分布的描述方法:1)文件拆分:选择数据→拆分文件→比较组→分组方式:性别→确定2)分性别的年龄分析:选择分析→描述统计→频率→选择年龄为变量→确定表3:574例研究对象不同性别的年龄分布情况表性别有效(例)缺失(例)均值(岁)标准差极小值(岁)极大值(岁)男247049.5816.7421380女327047.3515.0951485如表所示:在男性247例研究对象中,年龄的均值为49.58岁,标准差为16.742,最小年龄为13岁,最大年龄为80岁;在女性327例研究对象中,年龄的均值为47.35岁,标准差为15.095,最小年龄为14岁,最大年龄为85岁。4.对身高分布的描述方法:选择分析→描述统计→频率→选择身高为变量→统计量中选择“均数、标准差、最小值及最大值”→确定表4:574例研究对象身高分布情况表身高有效(例)缺失(例)均值(cm)标准差极小值(cm)极大值(cm)5740162.418.611144187如表所示:在574例研究对象中,身高的均数为162.41cm,标准差为8.611,最低身高为144cm,最高身高为187cm。5.对不同性别情况下身高分布的描述方法:1)文件拆分:选择数据→拆分文件→比较组→分组方式:性别→确定2)分性别的年龄分析:选择分析→描述统计→频率→选择身高为变量→确定表5:574例研究对象不同性别的身高分布情况表性别有效(例)缺失(例)均值(cm)标准差极小值(cm)极大值(cm)男2470169.176.444148187女3270157.316.195144182如表所示:在男性247例研究对象中,身高的均值为169.17cm,标准差为6.444,身高最小值为148cm,最大值为187cm;在女性327例研究对象中,身高的均值为157.31cm,标准差为6.195,身高最小值为144cm,身高最大值为182cm。二.不同性别、不同年龄段、不同肥胖程度、高血压患者与非高血压患者DM(糖尿病)患病率比较题意分析:本题意在分析DM(糖尿病)患病率的比较,而卡方检验则常用于样本率、构成比之间的比较,因而本题应选用卡方检验。分组变量:性别,年龄段,肥胖程度,高血压与非高血压患者;结果变量:DM(糖尿病)数据预处理:1)对年龄段进行分层处理:将年龄分层,分为不同年龄段。如前示,研究对象中,最小年龄为13岁,最大年龄为85岁,因此以10岁为一个年龄段分组。表6:574例研究对象不同年龄段分布情况表频率百分比有效百分比累积百分比有效117831.031.031.0212221.321.352.3310618.518.570.7416829.329.3100.0合计574100.0100.0分析:由上表可知,在574例研究对象中,<40岁的研究对象有178例,占31%,40~49岁有122例,占21.3%,50~59岁有106例,占18.5%,>60岁有168例,占29.3%。2)对肥胖程度进行分层处理:由身高、体重计算体重指数,BMI=体重(Kg)/身高(m)2。诊断标准:低体重:BMI<18.5;正常体重:BMI:18.5~23.9;超重:BMI:24~27.9;肥胖BMI≥28。方法:选择转换→计算变量→目标变量BMI,BMI=体重(kg)/(身高(cm)/100)²。将BMI转化为肥胖程度:方法:选择转换→重新编码为不同变量→输入变量为BMI,输出变量为肥胖程度→命名新旧值,如下:Lowestthru18.49→1;18.50thru23.99→2;24thru27.99→3;28thruHighest→4发现有缺失值:张260,张311,据其BMI值进行补充。表7574例研究对象不同肥胖程度分布情况表频率百分比有效百分比累积百分比有效1386.66.66.6230953.853.860.5317129.829.890.24569.89.8100.0合计574100.0100.0分析:由上表可知,在574例研究对象中,低体重(BMI<18.5)为38例,占6.6%;正常体重(BMI:18.5~23.99)为309例,占53.8%;超重(24~27.99)为171例,占29.8%;肥胖(BMI≥28)为56例,占9.8%。3)对高血压与非高血压进行区分处理:根据高血压诊断标准收缩压≥140mmHg并且舒张压≥90mmHg将高血压研究对象定义为1,非高血压研究对象定义为0.4)对糖尿病患者的诊断处理诊断标准:糖尿病(DM):空腹≥7.0mmol/L并且餐后2小时血糖≥11.1mmol/L。将DM患者定义为1,非DM研究对象定义为0,并作出统计学分析,结果如下:表8574例研究对象糖尿病患者分布情况表频率百分比有效百分比累积百分比有效052591.591.591.51498.58.5100.0合计574100.0100.05)对性别进行处理将男性定义为1,女性定义为0,并做统计学分析并进行卡方检验,结果如下:1.不同性别与DM患病率:表9:574例研究对象不同性别与DM患病情况组别样本含量(例)DM2P患病(例)未患病(例)男24724(9.7%)223(90.3%)0.773a0.379女32725(7.6%)302(92.4%)合计57449(8.5%)525(91.5%)分析:如上表所示,男性247例研究对象中,DM患者为24例,患病率为9.7%,女性327例中,DM患者为25例,患病率为7.6%。卡方检验,样本含量为547≥40,且所有理论频数T≥5,因此,可以进行非校正Pearson卡方检验,卡方值2=0.773,P=0.379>0.05,认为不同性别的DM患病率无统计学差异。2.不同年龄段与DM患病率表10:574例研究对象不同年龄段DM患病情况年龄样本含量(例)DM2P患病(例)未患病(例)<401786(3.4%)72(96.6%)29.096a0.00040~491224(3.3%)118(96.7%)50~591069(8.5%)97(91.5%)≥6016830(17.9%)138(82.1%)合计57449(8.5%)525(91.5%)分析:如上表所示,在574例对象中,DM患者49例,<40岁的为6例,占3.4%,40~49岁有4例,占3.3%,50~59岁有9例,占8.5%,≥60岁有30例,占17.9%。进行卡方检验,样本含量为547≥40,卡方值2=29.096,P=0.000,P<0.05,认为不同年龄段的DM患病率有统计学差异。3.不同肥胖程度与DM患病率表11:574例研究对象不同肥胖程度DM患病情况肥胖程度样本含量(例)DM2P患病(例)未患病(例)低体重382(5.3%)36(94.7%)15.966a0.001正常体重30915(4.9%)294(95.1%)超重17126(15.2%)145(84.8%)肥胖566(10.7%)50(89.3%)合计57449(8.5%)525(91.5%)分析:如上表所示,在74例研究对象中,DM患者49例,其中,低体重为2例,占5.3%,正常体重为15例,占4.9%,超重为26例,占15.2%,肥胖6例,占10.7%。据卡方检验,样本含量为547≥40,卡方值=15.966,P=0.001,P<0.05,认为不同肥胖程度的DM患病率有统计学差异。4.高血压与非高血压DM患病率表12:574例研究对象高血压与非高血压DM患病情况组别样本含量(例)DM2P患病(例)未患病(例)高血压10514(13.3%)91(86.7%)3.787a0.052非高血压46935(7.5%)434(92.5%)合计57449(8.5%)525(91.5%)分析:如表格所示,在74例研究对象中,DM患者49例,其中,高血压患者为14例,占13.3%,非高血压患者为35例,占7.5%。据卡方检验,样本含量为547≥40,卡方值=3.787,P=0.052,P虽然大于0.05,但是较为相近,据临床知识,可以认为高血压与DM患病率有统计学差异。对以上数据进行合并,得到下表:表13:574例研究对象不同性别、不同年龄段、不同肥胖程度、高血压患者与非高血压患者DM(糖尿病)患病率比较组别样本含量(例)DM2P患病(例)未患病(例)性别男24724(9.7%)223(90.3%)0.773a0.379女32725(7.6%)302(92.4%)年龄段<401786(3.4%)72(96.6%)29.096a0.00040~491224(3.3%)118(96.7%)50~591069(8.5%)97(91.5%)≥6016830(17.9%)138(82.1%)肥胖程度低体重382(5.3%)36(94.7%)15.966a0.001正常体重30915(4.9%)294(95.1%)超重17126(15.2%)145(84.8%)肥胖566(10.7%)50(89.3%)高血压高血压10514(13.3%)91(86.7%)3.787a0.052非高血压46935(7.5%)434(92.5%)三.体重指数与收缩压、舒张压关联体重指数、收缩压和舒张压均为定量资料,分析几者关系,假定满足正态分布,应该做Pearson相关。表14574例研究对象体重指数、收缩压和舒张压相关性BMI收缩压(mmHg)舒张压(mmHg