1统计学概述房祥忠北京大学概率统计系xzfang@math.pku.edu.cn627518362什么是统计学?统计学是通过搜集数据和分析数据从而得到结论和做出决断的科学。3日常生活中的统计学顾客满意度,物价指数,失业率,平均寿命而媒体和厂家关心的电台收视率。入户调查得到。收视率排名决定广告收费4科学研究和生产实践中的统计学统计的主要部分都是为了解决科学研究中的问题而发展起来的农业和生物科学,物理和化学工程界利用统计方法进行试验设计从而得到产品可靠性和失效的模式现代工业利用统计方法建立质量控制方法从而使产品质量稳定。医学利用控制临床试验比较新的治疗方法和新药的效果。遗传学家利用统计方法给出基因图和进行DNA匹配5总体、个体、样本总体就是要研究的个体(对象)的全体。这里的个体可能是人,也可能是住户,或者产品。统计学中我们关心总体的指标一个样本就是能够实际观测到的总体的一个部分(子集)。6从样本到总体大多数总体都太大,甚至个体数是无限的花费极大人力、物力和时间。比如中国的所有家庭就是一个很大的总体,要想了解整个中国的家庭状况,可行的办法是选取一个相对小的样本进行调查。为了使得取出的样本没有系统偏差,需要采取所谓随机抽样的方式进行。得到所谓随机样本。随机偏差7概率论和统计学的关系大家都会很熟悉名词“概率统计”。概率论和统计学是两个相关的学科。统计学利用概率论的工具来对数据的变化性进行建模,并且将不确定性加以定量化。8概率论统计学联系和区别举例在概率论中我们假定总体和它的性质都是知道的。然后我们研究从中抽取一个特殊样本的概率。举例来说,假如某地域目前流通的百元钞票中混进了1%的假钞,从中任意抽取100张,计算其中没有假钞的概率(36.6%)。这是概率论的问题。而统计学则处理相反的问题。假如我们不知道假钞所占比例。我们要设计抽样方法,然后用样本中给出的数据来估计假钞的比例,以及确定这种估计的准确性是多少。9统计的三个主要任务收集数据概括和探索数据基于数据得到结论和做出决断102.1数据的类型分类数据:为了表示简单和操作方便,有时用数字表示总体中个体的类别。如果数据的大小没有直观意义,这样的数据称为分类数据。例如,可以用1表示活期储蓄,2表示3个月定期储蓄,3表示6个月定期储蓄等。可以用1表示男性职员,0表示女性职员。产品的合格品可以用1代表,不合格品可以用0代表。112.1数据的类型顺序数据:如果表示类别的数据的大小有一定意义,但它们的倍数或差没有意义。这样的数据称为顺序数据。很满意用3表示,满意用2表示,不满意用1表示,很不满意用0表示。122.1数据的类型数值型数据:表示个体的某些特征,其大小,倍数和差都有意义。这样的数据称为数值型数据,定量数据或数量数据。132.2数据概括国家统计局1998-2004发布的《中国统计年鉴》1997-2003全国各地区城镇居民平均每人全年家庭总收入。数字较多,很难直接得到一个整体的印象。代表性的数字,我们称其为特征。14各地区城镇居民平均每人全年家庭总收入151617数字特征最大值(Max):样本中的最大数据值。最小值(Min):样本中的最小数据值。众数:出现次数最多的数。例如,在一个样本中人数最多的年龄就是众数。中位数(Median):将样本从小到大排列,位于中间的值称为样本中位数。如果样本个数为偶数,则取中间两个数的算术平均值作为中位数。18分位数(Quantile):如果样本中比一个数w小的样本所占比例为q。则称这个数w为q分位数。一般将25%(=1/4)和75%(=3/4)分位数称为四分位数,且分别称为下四分位数和上四分位数。中位数是50%分位数。19平均值(Mean):将样本所有数进行算术平均得到的值,称为平均数。12nxxxxn2221221nxxxxxxsn•方差(Var):表示样本离散程度的量20标准差(Sd):方差开方,即s。标准差的尺度与原来的数据相同。四分位长度:定义为上四分位数与下四分位数之差。也表示数据的分散程度。21表2.2各地区城镇居民平均每人全年家庭总收入数据特征22表2.3根据四分位对各地区城镇居民平均每人全年家庭总收入分类23242526Box-Whisker图(盒线图)。有很多种图表也可以很直观地概括数据。盒线图能够很直观的给出数据的主要特征。盒子中间的线代表中位数,顶端代表上四分位点,底端代表下四分位点,如果有加号“+”,则加号表示与其他数据相差很远的个体,我们称其为离群值或野值,一般是指从这些点从盒子顶端或底端的距离超过1.5倍的盒子长度,既四分位长度。下面的几个图是根据前面给出的数据画出来的。图形所占长度越大,则表示数据越分散。中位数的位置也能反映数据分布是否有偏。27图2.81997年各地区城镇居民平均每人全年家庭总收入盒线图19973500400045005000550060006500700075008000850028图2.91998年各地区城镇居民平均每人全年家庭总收入盒线图19984000450050005500600065007000750080008500900029图2.101999-2003年各地区城镇居民平均每人全年家庭总收入盒线图199920002001200220034,0006,0008,00010,00012,00014,00016,00030直方图:如果我们觉得上面给出的盒线图不够详细,我们可以用直方图表示数据。直方图反映了样本中取各种值的比例的较详细情况。首先将按照数据大小进行分组。在数据轴上取分点01mbbb313233小矩形的面积恰好等于落在该小区间中数据的频率或比例。这样所有小矩形的面积加一起是1。34表2.42003年各地区城镇居民平均每人全年家庭总收入频率汇总表35图2.82003年各地区城镇居民平均每人全年家庭总收入直方图00.511.5267007700870097001070011700127001370014700157001670036图2.9根据100只灯泡的平均寿命绘制的直方图051015202530650660670680690700710720730740750灯炮寿命(单位:小时)频率37图2.10取0和1数据的直方图(柱形图)010.51