2011-2-181第3章直方图2011-2-182一、若干统计学中的名词1.总体与样本总体:总体就是要研究的个体(对象)的全体。这里的个体可能是人,也可能是住户,或者产品。样本:一个样本就是能够实际观测到的总体的一个部分(子集)。2011-2-183一、若干统计学中的名词例:脊髓灰质炎疫苗的现场实验总体:全美1、2、3年级的儿童;样本:脊髓灰质炎最严重的一批学区中1、2、3年级的儿童。例:某灯泡制造商称其产品的寿命为1万小时,质检部门对其进行质量检验。随机选取了100只。总体:此灯泡制造商的全部产品样本:随机选取的100只2011-2-184一、若干统计学中的名词2.随机变量--随机会而变换的量,记为X例:100件产品,其中5件次品,随机抽取20件,次品件数为随机变量,其可能的值:0,1,3,4,5。(1)定性与定量变量定性变量:例:性别(男,女);婚姻状况(未婚,已婚,丧偶,离异,分居)定量变量:例:收入;年龄2011-2-185一、若干统计学中的名词(2)离散型与连续型(定量)变量离散型:其值仅可相差确定的量例:考试成绩(0,1,2,…,100)家庭中孩子个数(0,1,2,3,…)连续型:其值之间的差异可以任意小例:年龄;体重2011-2-186一、若干统计学中的名词注:根据问题不同,随机变量的性质有可能不同例:受教育水平定性:小学,中学,高中,大学,硕士,博士连续型:0--18离散型(未毕业按前一年算):0,1,…,183.数据:随机变量的具体实现2011-2-187二、直方图的绘制例3.1“普通统计学”学生成绩直方图的绘制某年从北京大学352名学生的“普通统计学”课程的成绩中随机抽取60名学生的成绩如下(见文件Statsgrade.csv”)30444548586162636364666768717272727274757676767678798080808181828282838383838383848485858587888888909191939394949596991002011-2-188二、直方图的绘制例3.1(续)(1)区间个数及长度的划分[30,59](59,68](68,76](76,84](84,92](92,100]区间长3098888频数581118108相对频数5/608/6011/6018/6010/608/60频数密度0.002870.014810.022920.037500.020830.016672011-2-189二、直方图的绘制学生成绩的直方图分数频数密度304050607080901000.000.010.020.030.042011-2-1810三、直方图的含义1.直方图横轴上的区间(小组区间)大小可以不相等;2.直方图上每个小组区间的高度——频数密度(即单位横轴刻度上的相对频数);3.直方图上每个小组区间的面积表示相对频数(比例,百分数)注:整个区间面积=12011-2-1811三、直方图的含义例3.2美国家庭收入分布的直方图(注:区间左闭右开)收入(千美元)百分数区间长度频数密度0----11111----22122----33133----4414…………15----2526102.625----508250.322011-2-1812三、直方图的含义美国家庭收入的分布收入(每千美元)每千美元的比率010203040500.000.010.020.030.040.050.062011-2-1813习题习题3.11960年,1970年和1986年美国25岁及25岁以上人的教育水平见下表:(1)画1986年的直方图,从直方图中你可以得到什么结论?(2)画1970年的直方图,与1986年的比较,教育水平发生了什么变化?2011-2-1814习题196019701986[0,5)863[5,8)14105[8,9)18136[9,12)191912[12,13)253138[13,16)91117[16,17]811192011-2-1815习题解答:(1)1986年的教育水平分布表相对频数频数密度[0,5)30.006000000[5,8)50.016666667[8,9)60.060000000[9,12)120.040000000[12,13)380.380000000[13,16)170.056666667[16,17]190.1900000002011-2-1816习题1986年美国25岁及以上成人教育水平的分布教育水平(年)每年的百分数051015200.00.10.20.30.42011-2-1817习题1970及1986年美国25岁及以上成人教育水平的分布教育水平(年)每年的百分数051015200.00.10.20.30.4(2)1970与1986年的教育水平的比较2011-2-1818习题习题3.2在1960年及1980年,美国妇女分别被询问”你有了几个孩子”?结果如下表(见后)(1)变量是离散的还是连续的?(2)画这些数据的直方图;(3)你的结论是什么?注:离散型变量的直方图区间的中心可定在变量的值上2011-2-1819习题18岁及以上的妇女已养育过的小孩数的分布(百分数)012345678919602217211610532231980291622158421112011-2-1820习题18岁及以上妇女已养育过的孩子数的分布(1960及1980)孩子个数02468100.000.100.200.302011-2-1821习题18岁及以上妇女已养育过的孩子数的分布(1960)孩子个数02468100.000.050.100.150.200.250.302011-2-1822四、变量控制及交叉列表例3.3口服避孕药对血压的影响的研究在1969-1971年期间,大约17500名17-58岁的妇女接受”多相”常规检查试验组:其中使用口服避孕药者对照组:其中不使用口服避孕药者注:均不包括怀孕的以及服用不同于避孕药的其他内分泌药物的人观察结果如下表(小组区间左闭右开):2011-2-1823四、变量控制及交叉列表17-24岁……45-58岁血压(mm)不使用使用不使用使用90以下-11-90-951-11………………155-160-113160---25总百分数100989999总数120610242172437避孕药研究项目结果(百分数)2011-2-1824四、变量控制及交叉列表研究兴趣:(1)使用者与不使用者之间血压的差别?(2)年龄因素的影响。