第二讲单变量统计描述一、分布(xini)x的要求:(1)完整性(2)互斥性n:频次分布P:概率分布%:百分比分布如:性别xi男女人数ni56例:某校学生的父亲职业职业干部工人农民总数n110152228550p0.2000.2760.5241.000%20.027.652.4100.0二、统计表统计表的制作要注意的问题:1、标题、内容简明2、统计栏数多时,要加编号3、数字填写要求:位数对准,同栏数字、小数位要一致,相同数字不可以写“同上”,无数字栏用“—”,缺资料“…”4、表中数字用同一单位时,标在右上角5、表的左右两端不封闭判断练习:分别制作定类、定序、定距变量统计表注意:统计表的分组科学性问题项目名称人数百分比球类田径游泳赛车150100607060302020判断:学校对最喜爱体育项目调查:判断:学生成绩变化调查开学初期末成绩好中差%108010提高608075下降101010不变301015三、统计图圆瓣图。反映所占比例;使用于定类;条形图。定类:离散长条;定序:紧挨长条或离散长条;宽度无意义;直方图。紧挨长条;宽度有意义;适用于定距;高度:频次密度=频次/组距折线图。直方图顶点中心相连;要计算组中心值。50403020100看一看,这是一个什么东东?90807060第一季度第二季度第三季度第四季度东部西部北部四、频数统计cf↑:向上累计。小于某一数字的频数cf↓:向下累计。大于某一数字的频数年龄151618人数369cf↑3918cf↓18159计量资料频数表的编制计量资料频数表的编制一般情况下,样本含量小于30的统计资料无须编制频数表,但对于大样本含量的资料,编制频数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用.求出极差确定组段数确定组距列出各个组段确定每一组段频数选极差即最大值与最小值之差一般8-15之间其他组段只标出下限。根据变量值大小把各观察单位归入各个组段编制频数表的步骤编制频数表的步骤第一组段包括极小值,最后一组段包括极大值,除最后一组段可同时标出上下限,组距=R/组段数,但一般取一方便计算的数字编制频数表步骤流程图160.8129.4丼例举例说明计量资料频数表的编制过程某地13岁女孩118人的身高(cm)资料143.3147.2135.4138.1138.1137.9*148.6149.8135.5147.5156.3144.8148.5147.1148.1148.1143.5145.0143.1149.8136.1151.3142.0144.5139.1143.8143.9135.4142.1136.5143.3135.4141.2134.1141.3139.8144.5140.5141.5147.8149.8145.0157.6149.8146.4143.7142.5145.7138.5138.5*139.9154.6144.6143.7138.9143.8144.9145.5139.3146.2145.2155.2148.7148.7137.5146.7152.3149.5152.2149.5144.8146.8146.8138.9139.5153.2143.5139.2141.8147.5145.0141.1147.5142.3148.9140.9140.6146.5150.0142.6150.8140.3146.4150.6140.5150.9151.8150.7144.5132.5143.5143.5146.3138.5141.2140.9139.9145.5145.6148.6142.9146.8146.5131.5142.5142.5续例步骤如下:R=160.8-129.4=31.4。组段数=10;组距=R/10=3.14≈30(cm);按要求确定每一组段上下限。分组统计每一组段的频数,编制频数表。身高组段(1)129~132~135~138~141~144~147~150~153~156~159~162合计频数(2)228202625209321118组中值(3)130.5133.5136.5139.5142.5145.5148.5151.5154.5157.5160.5—续例计量资料频数分布表118例13岁女孩身高(cm)资料频数表。频数分布表的用途频数分布表的用途揭示数值变量频数分布的类型和特征作为陈述资料的形式便于发现一些特大或特小的可疑值便于进一步的统计分析计量资料频数分布的类型和特征分布特征集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都有频数分布,而不是所有频数分布在集中位置的趋势。分布类型对称分布:各组段的频数以中间组段为中心,左右两侧基本对称偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少计量资料频数分布的类型和特征五、集中值三种方法找集中值:频次;居中;平均;想一想:社会经济生活中有哪些集中值?1、众值M0频数最多的变量值,适合于单峰对称。2、中位值Md数据序列中央位置之值。未分组数据:1)根据原始资料求中位值奇数时:中位值=(N+1)/2偶数时:中位值=中间位置左右两位数的平均值为中位值。2)根据频次分布求中位值未分组资料:首先确定中位值的位置(利用cf↑),第二步找中位值。分组资料:四步求值方法1、找50%区间2、找上界U、下界L;U%—L%3、求累计50%的变量值X4、中位值=L+X50%L%U%L%XUL例:某农村妇女初婚年龄求中位值注意:真实组界的问题年龄16-1818-2020-22频次305020频率30%50%20%cf↑30%80%100%3、均值适用于定距变量,能综合反映频次、次序、数值大小变化未分组数据1)直接累加:算术平均例2)根据频次:加权平均均值=分组数据:以中心值来代替变量值,但有误差例。inixN例:调查某地6户农民家庭和5户干部家庭,每户人数如下:农民家庭:6;4;4;8;6;3;干部家庭;4;2;3;3;5;求均值。例:青年人每年阅读书本数调查,求均值。书数2-45-78-1011-1314-1617-19总数人数245321171)根据原始资料六、标志变异指标测定离散趋势,考察资料的分散特征1、异众比率非众值的比例越小,则众值的代表性越大。例2、极差R=观察最大值-观察最小值例3、四分互差Q=Q75–Q25例1例24、方差、σ与标准差未分组m0NfN2(xix)2标准差=N2Nnixi2(nixi)21N2)根据频次分布:例: