12009-10-111任课教师代文强2009-10-112本节课的内容统计学是什么?统计学能做什么?统计学怎么用?我们学什么?我们怎么考?2009-10-113想想看举出你所知道的统计应用例子。你使用过统计软件或者利用过其他软件中的统计功能吗?你有什么经验和体会?2009-10-114作业作业:第1章的习题P12-162;4;8;19;23下一讲:描述统计——图表方法预习:Chapter-2的课程相关内容下次课上课前交,请用作业本书写22009-10-115EndofChapter12009-10-1162009-10-117你想过下面的问题吗?当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?2009-10-118你想过下面的问题吗?如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?32009-10-119你想过下面的问题吗?在同一年级中,同样统计学的课程可能又一些不同教师讲授。教师讲课方式当然不一样;考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢?如何确定人寿保险的保额等条款,以确定既有竞争力,又有利可图的定价?2009-10-1110统计学是什么?统计学是收集、分析、表述和解释数据的科学和艺术。不列颠百科全书统计学是一门收集、分析、解释和提供数据的科学。韦伯斯特国际辞典第3版2009-10-1111统计学是收集、分析、表述和解释数据的科学和艺术统计数据:描述某一特定对象某方面性质、特征的(统计)数字资料。数据的分类:按数据的测量尺度(名义、顺序、间隔、比率)按数据的类型(品质型、数量型)按数据集的格式(截面、时间序列等)按数据的来源(已存在、统计研究等)2009-10-1112统计学是什么?一句话,统计学是由一套处理统计数据的方法所组成,这些方法来源于对统计数据的研究。统计学仅仅是方法。42009-10-1113§统计方法(StatisticalMethods)描述统计(descriptivestatistics)推断统计(inferentialstatistics)数据与统计资料2009-10-1114描述统计(descriptivestatistics):利用表格、图形和数值方法对数据进行描述。收集数据(collectdata)e.g.调查(survey)显示数据(presentdata)e.g.图表(graphicalandtabular)描述数据特征(characterizedata)e.g平均数(mean)推断统计(inferentialstatistics):利用一个样本的数据对总体的属性进行估计和假设检验。估计(Estimation)假设检验(Hypothesis)以样本为基础做出有关总体的决策(Decision)数据与统计资料2009-10-1115描述统计举例图表描述——25只股票交易所变量的频数和百分比(表格)25只股票交易所变量的条形图(图)25只股票市盈率直方图(图)数值描述——利用表1-1(p4)的年销售额数据(总市值),可计算年平均销售额:这些公司的年平均销售额是0.675亿美元。2009-10-111625只股票交易所变量的频数和百分比(P-9)10025合计6817场外交易(OTC)205美国证券交易所(AMEX)123纽约股票交易所(NYSE)百分比(%)频数交易所52009-10-111725只股票交易所变量的条形图NYSEAMEXOTC百分比1220682009-10-1118总体(Population)样本(Sample)统计推断(Statisticalinference)普查(Census)抽样调查(Samplesurvey)-在一个特定的研究中所有个体组成的集合。−总体的一个子集-利用样本数据来估计总体的特征并进行假设检验的过程−搜集总体全部数据的调查过程−搜集样本数据的调查过程统计推断2009-10-1119统计推断举例诺里斯电器公司例子的统计推断过程总体是所有用新灯丝生产的灯泡1.总体是所有用新灯丝生产的灯泡2.样本由200个用新灯丝生产的灯泡组成3.样本数据表明样本中每只灯泡的平均寿命是76小时4.用样本的平均值估计总体的平均值2009-10-1120描述统计学(descriptivestatistics):推断统计学(inferentialstatistics):一方面反映了统计发展的前后两个阶段.另一方面也反映了统计方法研究和探索客观事物内在数量规律性的先后两个过程。数据与统计资料62009-10-1121描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据2009-10-1122数据测量尺度(datameasurementscale)测量尺度包括:名义(Nominal)顺序(Ordinal)间隔(Interval)比率(Ratio)2009-10-1123名义尺度仅能反映不同类别间存在差异,但不提供有关差异的大小、多少、高低、好坏等的区别。数据是用来确认个体属性的标签或名称。可以使用数值代码或非数值代码的标识符。数据测量尺度:名义(Nominal)按照事物的某种属性对其进行平行的分类或分组。Example:人口按照性别分为男、女两类(anonnumericlabel),同样地,使用性别变量(anumericcode):1代表管理、2代表数学.同样企业性质的分类。但是这里的数据赋值是随意的。数值本身并不代表水平高低。因此仅能进行“相等”或“不相等”的运算。2009-10-1124顺序尺度在反映不同类别间存在差异的同时,能够提供有关差异方向,但仍不能提供差异的程度。(赋值必须体现数值大小与差异方向的一致性。)数据显示了名义数据的性能和数据的顺序或等级之间的差别。可以使用数值代码或非数值代码的标识符。数据测量尺度:顺序尺度(Ordinal)是对事物之间等级差或顺序差别的一种测度。Example:产品等级分为一等品、二等品等(anonnumericlabel),同样地,使用等级变量(anumericcode)来表示。又如受教育程度。因此在能进行“相等”或“不相等”的运算的同时,可以进行“大于”,“小于”的运算,但不能进行加减乘除等运算。72009-10-1125间隔尺度在反映不同类别间存在差异的同时,能够提供有关差异方向,与差异的程度。(仅能提供差异的差值大小程度,不能提供差异的比值大小程度)数据具有顺序数据的性能,并可以按某一固定度量单位表示数值间的间隔。只可以使用数值代码作为标识符。数据测量尺度:间隔尺度(Interval)不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。Example:温度、考试分数等。因此只能进行加减运算,不能进行乘除运算。2009-10-1126比率尺度在反映不同类别间存在差异的同时,能够提供有关差异方向,与差异的程度(差值大小程度,差异的比值程度)数据具有间隔尺度的性能,同时可以计算两个测度值间的比值。只可以使用数值代码作为标识符。数据测量尺度:比率尺度(Ratio)比率尺度中有一个绝对固定的“零点”,这是它与间隔尺度的唯一差别。(间隔尺度的0表示的是一个数值)Example:距离、高度、重量和时间等。可以进行加减乘除运算。2009-10-1127名义尺度:只能分类顺序尺度:分类和排序间隔尺度:分类、排序和采用固定间隔比率尺度:分类、排序、采用固定间隔,有绝对零点。从名义尺度-顺序尺度-间隔尺度-比率尺度数据,数据级别表现为从低到高,由粗略到精确的过程。高层次的测量尺度具有低层次的全部特性,但不能反过来。数据测量尺度(datameasurementscale)2009-10-1128数据测量尺度的比较名义尺度顺序尺度间隔尺度比率尺度分类(=,≠)√√√√排序(,)√√√间隔(+,—)√√比值(×,÷)√82009-10-1129数据测量尺度的比较四类数据均可作统计对象进入统计出来,但可处理的方法不同。等级越高的数据,可处理的方法越多,应用范围越广,等级越低的数据,可处理的方法越少,应用越受到限制。例如:对于名义数据:可以计算频率,计算众数和列联分析等;对于顺序数据:可以计算中位数和内距,可以进行等级相关分析等非参数统计方法;对于间隔尺度和比率尺度:可以计算各种统计量,进行参数估计,假设检验等参数统计方法和非参数统计方法。例如:对于集中趋势的度量:名义尺度数据:计算众数顺序尺度数据:计算众数,中位数、内距间隔(比率)尺度:计算众数,中位数、内距;平均数2009-10-1130数据的分类:品质型数据和数量型数据QualitativeAndQuantitativeData品质型数据:用于反映每一个体属性的标签或名称。品质变量:用品质型数据表示的变量。数量型数据:变量表示数量有多少。数量变量:用数量型数据表示的变量。两者区别:数量型数据总是数值型的。品质型数据可以是数值型的也可以是非数值型的。2009-10-1131ScalesofMeasurementQualitativeQuantitativeNumericalNumericalNonnumericalDataNominalOrdinalNominalOrdinalIntervalRatio数据测量尺度(datameasurementscale)2009-10-1132z截面数据是在相同或近似相同的时间点上收集的数据Example:星期一上交所各个股的开盘价z时间序列数据是几个时间期间收集的数据Example:星期一上交所交大南洋行情截面数据和时间序列数据Cross-SectionalandTimeSeriesData92009-10-1133截面数据名称成交价涨跌%涨跌成交金额总手上证指数(000001)(沪)1,527.2920.671.37%524,902.97,068,395A股指数(000002)(沪)1,592.7421.621.38%505,604.26,749,759B股指数(000003)(沪)143.991.691.19%19,298.8318,636深证成指(399001)(深)3,058.7536.491.21%300,736.56,179,180成份A指(399002)(深)3,354.1541.571.25%287,840.65,912,775成份B指(399003)(深)1,368.4811.510.85%12,895.8266,404实际举例2009-10-1134时间序列数据实际举例2009-10-1135数据来源:已存在来源2009-10-1136102009-10-11372009-10-1138统计研究得到的数据实验性的数据首先确定感兴趣的主要变量,然后控制一个或多个其他的变量,以便获得它们如何影响主要变量的数据。观测性的数据并不是有目的地去控制感兴趣的变量,调查也许是观测性研究最常用的方法。2009-10-11392009-10-1140112009-10-11412009-10-1142统计学能做什么统计的应用领域经济学管理学医学工程学社会学…统计学2009-10-1143actuarialwork(精算)agriculture(农业)animalscience(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学