1统计学—描述统计第一章导论第一节、统计的涵义一、统计工作:是收集、分析、表述和解释数据的实践活动。特点:1、数量性。统计是定量认识活动。数量特征有:数量多少、数量之间的依存关系、量变引起质变的关节点等。定量认识和定性认识是不可分割的。2、总体性。统计以说明总体数量特征为目的。从收集个体数量特征入手最终达到对总体数量特征的认识是统计的特点。3、具体性。统计分析的数据都是经济社会活动在一定时间地点条件下的表现.不是纯数学的研究。4、社会性。统计分析的数据都是人们从事经济社会活动的结果。人的经济利益和政治立场对统计工作全过程都会产生影响。二、统计学:是收集、分析、表述和解释数据的科学。是研究统计工作中一般规律和方法的科学。三、统计资料:是统计工作的结果。表现形式有统计报表、统计年鉴、统计分析论文等。第二节、统计中的基本概念一、数据。统计数据是对现象计量的结果,它是由有机结合的许多2数字组成的集,它可以是数字的,也可以是文字的。1、按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。其中分类数据和顺序数据可统称为品质数据,数值型数据也可称为数量数据。2、按照统计数据的收集方法不同,可以将统计数据分为观测数据和实验数据。3、按照被描述的对象与时间的关系不同,可以将统计数据分为截面数据和时间序列数据。二、总体、抽样总体和样本。1、总体是由若干具有共同性质的个体所组成,构成总体的个体是总体单位。注意:总体和总体单位的确定与统计的目的有直接的关系,目的不同总体和总体单位也不同。随着统计目的的改变,总体和总体单位会产生相对的转变。统计上的总体可以是人或物的集合,也可以是一组观测数据。总体根据其所包含的单位数目是否可数分为有限总体和无限总体。2、抽样总体是根据统计的目的在目标总体中划定一部分单位组成的抽样框。抽样总体可以和目标总体一致,也可以小于目标总体。3、样本是从抽样总体中抽取的一部分元素的集合。构成样本元素的数量称为样本容量。统计的目的是根据样本提供的信息推断总体的特征,如果抽样总体(抽样框)和目标总体有差异,就会产生抽样误差。3三、参数和统计量1、参数是总体的特征值。往往是一个未知的常数。2、统计量是根据样本数据计算出来一个量。是样本的特征值。四、指标、标志和变量1、指标是说明总体特征的概念和数值。例如“2004年某市国内生产总值3500亿元”。总体的参数,样本的统计量都可称为指标。指标按反映的内容不同可分为质量指标(说明总体的结构、比例及平均水平)和数量指标(说明总体的规模及总量)。2、标志是说明总体单位(个体)特征的属性或数值。按能否用数值表示可分为品质标志(不能用数值表示)和数量标志(可以用数值表示)。指标和标志的区别:⑴指标是说明总体特征的,标志是说明总体单位特征的。⑵指标都数值,但标志有的有数值(数量标志),有的没有数值(品质标志)。指标和标志的联系:⑴指标值来自于标志值的汇总(集合)。⑵随着统计目的的改变,指标和标志会产生相对的转变。3、变量是指标和标志的统称。变量的具体表现称为变量值。变量按变量值是否连续可分为连续型变量(数值之间可无限分割,可以取小数)和离散型变量(数值之间不可无限分割,只能取整数)。4第二章数据的收集统计数据的来源有两条渠道:一个是数据的间接来源,即通过统计公报、统计年鉴、期刊杂志、文献资料收集数据。可称为二手数据。另一个是数据的直接来源,即通过自己的调查和实验直接获得一手数据。本章主要讲一手数据收集的方法和方式。第一节、数据收集方案的设计数据收集也可称为统计调查。要想取得调查的成功,就必须设计一个完整的调查方案。一个调查方案所应包括的基本内容如下:一、确定调查的目的和任务。确定调查的目的和任务是调查方案的首要问题。是确定调查对象、调查单位、调查方法的前提。二、确定调查对象、调查单位和报告单位。调查对象就是要调查的目的总体。调查单位就是总体单位,也就是调查标志的承担者。报告单位是负责填报资料的单位。调查单位和报告单位有可能是一致的,也有可能是不一致的。三、确定统计分类、分组的标志和方法。由国家统一制定的,必须执行的称为分类。例如行业分类,所有制分类等。四、确定调查方法。常有的调查方法有:统计报表、普查、抽样调查等。五、确定调查方式,常用的调查方式有:自填式、面访式、电话式、观察和试验。六、确定调查内容,设计调查提纲和调查表。5七、确定调查资料报送汇总的方式。逐级汇总、超级汇总、网上汇总。八、确定调查时间和调查期限。调查时间是指调查资料所属的时间。调查期限是指调查工作从开始到结束的时间范围。九、确定调查的组织。主要有:调查人员的组成和培训、调查经费的筹集、调查设备的安置、调查文件的设计和印刷、调查的形象设计和宣传等。十、确定调查过程和调查结果的质量控制和评价方法。第二节、统计调查方法一、统计报表。统计报表是按照国家统一规定自下而上逐级报送统计资料的报告制度。二、普查。普查是对调查对象进行一次性的全面调查。例如人口普查、经济普查等。三、抽样调查。抽样调查是从抽样总体中抽取一部分单位作为样本,根据样本统计量对总体参数作出估计的方法。有概率抽样和非概率抽样两类。1、概率抽样。概率抽样也称为随机抽样。其特点有:抽样是按一定概率以随机原则抽取样本单位;要在抽样框中按随机化程序抽取样本单位;每个单位被抽中的概率是已知的,或是可以计算出来的。样本估计量的大小不仅与样本单位的观测值有关,也与其入样概率有关。6概率抽样有简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样等方式。2、非概率抽样。非概率抽样也称为非随机抽样,在抽取样本时不依据随机原则,也不能根据样本的对总体作出推断。非概率抽样有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等。第三节、统计调查方式一、自填式。自填式是指在没有调查员协助的情况下,由被调查者自己填写调查问卷。调查问卷的传递方式可以通过调查员分发、邮寄、网络、报刊等。其优点是调查成本低。缺点是返回率较低。对问卷设计要求较高。二、面访式。面访式是指调查员与被调查者面对面交流。其优点是回答率较高,资料比较真实。缺点是调查成本较高,调查周期较长,对调查员要求较高。三、电话式。电话式是指通过打电话完成调查。其优点是调查成本较低,调查周期短,有利于使用计算机汇总分析。缺点是受电话拥有率的限制,取得的信息比较简单。四、观察。观察是指调查员到事件发生的现场。进行实地观测。取得第一手数据。其优点是资料真实可靠。缺点是调查成本较高,调查周期较长。五、实验。实验是指有控制的条件下得到的观测结果。实验法的逻辑严密,是证明假设、分析事物因果关系的好方式。但也会受到人的意愿、心理因素及道德观念的影响。7第三章数据的整理与显示第一节、分类数据和顺序数据的整理与显示一、分类数据的整理与显示例1、某市场调查公司为研究不同品牌饮料的市场占有率,对随即抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录。结果如下:旭日升冰茶可口可乐旭日升冰茶汇源果汁露露露露旭日升冰茶可口可乐露露可口可乐旭日升冰茶可口可乐可口可乐百事可乐旭日升冰茶可口可乐百事可乐旭日升冰茶可口可乐百事可乐百事可乐露露露露百事可乐露露可口可乐旭日升冰茶旭日升冰茶汇源果汁汇源果汁汇源果汁旭日升冰茶可口可乐可口可乐可口可乐可口可乐百事可乐露露汇源果汁百事可乐露露可口可乐百事可乐可口可乐露露可口可乐旭日升冰茶百事可乐汇源果汁旭日升冰茶不同品牌饮料的频数分布饮料品牌频数比重(%)可口可乐1530旭日升冰茶1122百事可乐918汇源果汁612露露918合计50100二、顺序数据的整理与显示例2、在一项城市住房问题的研究中,研究人员在甲乙两个城市个抽样调查300户。其中的一个问题是:“您对您家庭目前的住房状况是否满意?”1、非常不满意;2、不满意;3、一般;4、满意;5非常满意。8甲城市家庭对住房状况的评价回答类别户数(户)比重(%)向上累积向下累积户数(户)比重(%)户数(户)比重(%)非常不满意248248300100不满意108361324427692一般93312257516856满意4515270907525非常满意。30103001003010合计300100————————乙城市家庭对住房状况的评价回答类别户数(户)比重(%)向上累积向下累积户数(户)比重(%)户数(户)比重(%)非常不满意217218300100不满意99331204027993一般78261986618060满意6421.326287.310234非常满意。3812.73001003812.7合计300100————————第二节、数值型数据的整理与显示例3、某公司四个月120天的销售量数据如下:(单位:台)2341591871551721831821771631581431981411671942251771891962031871602141681731781842091761881611521492111962341851891962061501611781681741531861901601712281622231701651791861751972081531632181801751441781911971921661961791712331791871731742101541642152331751882371941981681742261801721901721871892002111561651752102071812051952011722031651961721761821881952022139某公司产品销售量的频数分布销售量(台)频数(天)频率(%)140——15043.33150——16097.5160——1701613.33170——1802722.5180——1902016.67190——2001714.17200——210108.33210——22086.67220——23043.33230——24054.17合计120100一、数据分组的方法有单变量值分组和组距分组两种。离散变量的数据两种分组均可。连续变量只能采用组距分组。二、离散变量的组距分组中,相邻组的组限可以重合也可以不重合;连续变量的组距分组中,相邻组的组限必须重合,以避免遗漏。在相邻组的组限重合时,每一组只包括本组的下限,不包括本组的上限。在相邻组的组限不重合时,每一组即包括本组的下限,也包括本组的上限。见下表:某公司产品销售量的频数分布销售量(台)频数(天)频率(%)140——14943.33150——15997.5160——1691613.33170——1792722.5180——1892016.67190——1991714.17200——209108.33210——21986.67220——22943.33230——23954.17合计12010010三、各组的组中值=(上限值+下限值)2。以组中值作为组内数据的代表值有一个假定条件:即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,组中值和组内平均数就不相等,用组中值作为一组数据的代表值就会有一定的误差。四、组距分组中的开口组的组距是根据其相邻组的组距来确定的。例4、某公司职工工资数据资料如下:工资(元)组中值500以下450500——600550600——700650700——800750800——900850900——10009501000以上1050合计——四、组距分组时,各组的组距都相等称为等距数列,不完全相等称为异距数列(不等距数列)。见下表:某公司职工工资数据资料如下:工资(元)组中值500以下450500——600550600——700650700——800750800——10009001000以上1100合计——五、简单分组和复合分组。按分组标志的多少及复杂程度不同,对研究总体可进行简单分组和复合分组。11简单分组是对总体只按一个标志分组。以上的例子都是简单分组。复合分组是选择两个或两个以上标志结合起来进行层叠分组。见下