SPSS软件在医学统计的应用_第3讲

sain007
2 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第三讲统计描述与常用统计图PartI数值变量的统计描述一、数值变量统计描述的内容数值变量(Numericalvariable)，数理统计里常被称为连续型随机变量，它的特点是有单位，其可能取值充满某个区间。对数值变量作描述性统计(Descriptivestatistics)内容主要包括：1.作频数表(frequencytable)和直方图(histogram)，了解资料的分布特征（对称or偏态）2.根据分布特征，选择适合的平均数指标，反映其集中趋势(Centraltendency)3.根据分布特征，选择适合的变异度指标，反映其离散趋势(Dispersion)例1某校100名健康男生的血清总蛋白含量(g/L)，血清总蛋白.sav74.379.575.073.575.874.073.567.275.873.578.875.673.575.075.872.079.576.573.579.568.875.078.872.068.876.573.572.775.070.478.078.874.364.376.574.374.770.472.776.570.472.075.875.870.476.565.077.273.572.780.572.065.080.371.277.676.568.873.577.280.572.074.369.781.267.381.667.372.784.369.774.371.274.375.072.075.467.381.675.071.271.269.773.570.475.072.767.370.376.573.572.068.073.568.074.372.772.774.370.4例2某年某地200名正常成人的血铅含量(μg/100g)，正常成人血铅含量.sav3444445555555555666666677777777777778888888888899999991010101010101010101111111111121212121212121313131313131313131313131414141414141414141415151515151515161616161616171717171717171717171717181818181819191919191920202020202020202121212121222222222222232323242424242424252526262626262727282829293030313131313232323232323333363838394041414347505360三、SPSS编制频数表的方法1.打开血清总蛋白.sav，里面有编号id、总蛋白x两列变量，有100个观测值，最小值为64.3，最大值为84.3，全距R=84.3-64.3=20，如果频数表的组数为10的话，组距i=2。2.Transform-visualbander(可视化分组)-variabletoband:x-bandedvariable:xxupperendpoints:exclude3.进入makecutpoints界面，firstcutpointlocation:66，width:2，则可知会有11个组段4.选makelabels，OK运行，SPSS提示会新产生一个分组变量5.列频数表：Analyze-Descriptivestatistics-frequencies-xx，得以下结果FrequencyPercentValidPercentCumulativePercentValid66.033.03.03.066.0-67.955.05.08.068.0-69.988.08.016.070.0-71.91111.011.027.072.0-73.92525.025.052.074.0-75.92424.024.076.076.0-77.91010.010.086.078.0-79.977.07.093.080.0-81.966.06.099.084.0+11.01.0100.0Total100100.0100.06.整理为符合规范的统计表表3.1100名健康男生的血清总蛋白(g/L)的频数分布组段(1)频数(2)频率(3)累计频率(4)64.0~33.03.066.0~55.08.068.0~88.016.070.0~1111.027.072.0~2525.052.074.0~2424.076.076.0~1010.086.078.0~77.093.080.0~66.099.082.0~84.011.0100.0合计100100.0—四、SPSS作直方图的方法Graphs-histogram-variable:xx-displaynormalcurve，得出图3.1。注意该图的横轴取值为0到12，实际它代表的是表3.1的组段(1)，Mean等计算结果也无实际意义。需要对该图作进一步编辑，得到符合规范的直方图(图3.2)。图3.1SPSS结果图3.2符合统计要求的直方图从频数表和直方图看出，健康男生的血清总蛋白资料属于对称分布资料，中间位置在72~76g/L处，越往两侧，频数逐渐减少。练习1用频数表和直方图描述例2的某年某地200名正常成人的血铅资料的分布特征。表3.2200名正常成人的血铅值(μg/100g)的频数分布组段(1)频数(2)频率(3)累计频率(4)3~8~13~18~23~28~33~38~43~48~53~58~62合计200100.0—二、反映集中趋势、离散趋势的常用指标英文中文含义计算公式适用资料Mean均数(期望)ΣX/n对称分布，尤其是正态分布Median中位数M偏态分布Range全距R=Xmax-Xmin末端有确定值InterquartileRange四分位数间距Q=P75-P25偏态分布Variance方差S2对称分布，尤其是正态分布Standarddeviation标准差S对称分布，尤其是正态分布总体方差22()XN样本方差22()1XXsn总体标准差2()XN样本标准差2()1XXsn总蛋白(g/L)频数练习2对血清总蛋白资料，用Analyze-Descriptivestatistics-frequencies命令，计算均数、中位数、第25分位数、第75分位数、方差、标准差、四分位间距等指标。(注：不列频数表)练习3对血清总蛋白资料，用Analyze-Descriptivestatistics-descriptives命令作分析，在假定X服从均数为μ，标准差为σ的正态分布的情况下，对X进行标准化处理，得出ZX，ZX将服从均数为0，标准差为1的标准正态分布。如果μ和σ值已知，XZX如果样本量n较大，XXZXS练习4对雇员数据employeedata.sav，用Analyze-Descriptivestatistics-explore命令作分析，描述不同性别雇员的平均受教育年数educ和标准差。某公司雇员的受教育情况性别人数均数(年)标准差(年)男25814.43.0女21612.42.3合计47413.52.9PartII分类变量的统计描述一、分类变量的概念分类变量(Categoricalvariable)，数理统计里被称为离散型随机变量。根据取值个数分为二分类、多分类变量。多分类变量又可进一步分为无序、有序多分类变量。举例：employeedata.sav，性别、种族、职业类别、年龄组、按受教育年数分组。二、SPSS描述分类变量资料1.用Descriptivestatistics-frequencies描述单个变量2.用Descriptivestatistics-crosstabs描述两个变量，得出二维列联表，如四格表、R×C表。如果要同时描述三个及以上的变量，对应的就是三维甚至高维列联表。3.对构成比资料作圆图(pie)，对两组或多组率比较的资料作直条图(bar)，对随时间连续变化的资料作线图(line)。练习5描述474名观测的性别构成，并输出统计表和统计图步骤：analyze-descriptivestatistics-frequencies-gender某公司雇员的性别构成性别人数构成(%)男25854.4女21645.6合计474100.0练习6对全部观测按性别gender与工作类别jobcat作交叉表crosstabs步骤：analyze-descriptivestatistics-crosstabs-定义行(row)和列(column)变量不同性别雇员的工种情况（%）性别ClericalCustodialManagerMale157(60.9)27(10.5)74(28.7)Female206(95.4)0(0.0)10(4.6)练习7某单位职工体检数据P29.sav，求不同年龄组的高血压患病率。