数据学习提纲数据及其相关概念数据来源数据调查误差数据汇总数据显示数据(data)数据:所收集、分析、汇总表述和解释的事实及数字数据是进行统计分析研究的基础数据是统计学研究对象的特征,是客观事实数据不仅仅局限于数字范畴,包括非数字形式的其他信息相关概念个体——总体单位收集数据的实体,也就是数据的承载者变量(标志)与变量值变量:个体的特征或者属性变量值:个体在变量上的具体表现例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。相关概念指标亦称统计指标,是说明总体的综合数量特征的。标志总体各单位普遍具有的属性或特征指标与标志的区别:标志是说明总体单位特征的,而指标是说明总体特征的。指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的。全部企业职工人数,企业平均职工人数,全部企业总产值,企业平均产值,劳动生产率.企业名称经济类型企业规模职工人数(人)工业产值(万元)相关概念连续型变量:变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。例如,气象上的温度、湿度,零件的尺寸等。离散型变量:变量的取值是整数值,可以一一列举。例如,企业数,职工人数等。数据的分类从表现形式上,数据可以分为:数量数据:用数字能够表述的特征数值型特征,如人的身高,体重等品质数据:不能用数字来表述的特征如人的性别,民族,宗教信仰等数量数据总是以数字形式表现,品质数据可以是数值型,也可以是非数值型只有数量数据可以进行数学运算数据的计量尺度数据的计量尺度定类尺度定序尺度定距尺度定比尺度定类变量“名义型变量”,值只能用文字表述计量层次最低对事物进行平行的分类,地位平等,没有高低优劣之分各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或的数学特性性别,民族,党派定序变量“顺序型”变量,变量值只能用文字表述对事物分类的同时给出各类别的顺序比定类尺度精确未测量出类别之间的准确差值数据表现为“类别”,但有顺序性具有或的数学特性优秀,良好,及格,不及格定距变量变量值为数值型对事物的准确测度比定序尺度精确没有绝对零点具有+或-的数学特性温度,公元纪年等极少数现象属于定距变量定比变量数据表现为“数值”对事物的准确测度与定距尺度处于同一层次有绝对零点具有或的数学特性,可以进行任何形式的计算四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类(=,≠)排序(,)间距(+,-)比值(×,÷)√√√√√√√√√√计量尺度数学特性“√”表示该尺度所具有的特性数据类型与统计方法数据类型与统计方法定类数据定序数据品质数据数量数据定距数据定比数据参数方法非参数方法截面数据与时间序列数据截面数据相同或近似相同的时间点上收集的数据某个时间点或某瞬间事物或现象的特征情况静态数据时间序列数据在几个时期或时点收集到,反映同一主体同一特征情况的数据动态数据数据的来源已存在的数据源:政府机构:国家统计局及其直属单位商业统计机构:事务所,调查公司,咨询公司企事业单位:学校,医院非政府非盈利组织:基金会,慈善机构互联网调查:观察收集原始数据实验统计调查统计调查:按照统计任务的要求,运用科学的调查方法,有组织地向社会实际搜集各项原始资料的过程。统计调查是统计工作中的基础环节,因为一切的统计整理和统计分析都是在原始资料搜集的基础上建立起来的。统计调查的基本要求统计资料的两种搜集方式:1、直接向调查对象搜集统计资料,称为原始资料或初始资料的搜集;2、根据研究目的,搜集已经加工、整理过的资料,称为次级资料或二手资料的搜集。统计调查是指对原始资料的搜集。统计调查方案设计调查方案的内容调查目的调查对象调查单位调查项目和调查表其他一、确定调查目的调查目的,就是指为什么要进行调查,调查要解决什么问题。调查对象和调查单位需要根据调查目的来确定(向谁调查)调查对象,就是我们需要进行研究的总体范围,即调查总体。调查单位,就是我们所要研究的总体单位,也即所要登记的标志的承担者。二、确定调查对象和调查单位三、确定调查项目调查项目是所要调查的具体内容,也就是被调查者所要回答的问题。它完全是由调查对象的性质、调查目的和任务所决定的。确定调查项目注意事项调查项目要少而精。只列入能够得到确定答案的项目。调查项目之间尽可能保持联系,以便相互核对,起到校验作用。有的项目可拟定为“选择式”教师登记表姓名性别年龄职称学历专业四、确定调查时间和调查期限调查时间是指调查资料所属的时间和时期。调查期限是指调查工作进行的起止时间五、制定调查的组织实施计划六、选择调查方法访问调查电话调查邮寄调查电脑辅助座谈会个别深访调查调查问卷设计调查表单一表一览表例:《工业企业统计报表》问卷结构:说明词+主题词句+作业记录例:《人口普查登记表》问卷设计基本要求:主题明确,形式简明,文字通俗,容易理解,便于回答。词句编排,层次分明,先易后难。问卷形式:①自由回答式词句②两项选择式词句③多项选择式词句④赋值评价式词句尊敬的——先生、女士:我们是珠海××学院的学生。为了积极参与贯彻国家关于扩大内需推动经济增长的方针和理论与实践相结合的教育原则,在老师指导下我们组织了这次千户居民的社会调查。请您给予支持。调查不记名,全部资料用计算机处理,绝对保密和安全,您只需在符合您的情况的答案上打个勾,花费几分钟时间。谢谢!珠海市城市居民消费与投资倾向调查问卷(1)您家是否已经拥有下列耐用家电设备:1.□彩电2.□组合音箱3.□VCD(DVD)4.□冰箱5.□空调6.□电脑(2)您家的住房是:1.□租赁公房2.□有产权公房3.□新商品房4.□其他(请注明)(3)您家今明两年是否准备以下项目支出:1.□购买家电设备2.□购买成套家具3.□购买汽车4.□购买(或置换)房屋5.□现有住房装修6.□支付子女教育费7.□国内或国际旅游(4)您今明两年不准备上列大项目支出的主要原因是:(选填3项)1.□没有必要2.□经济不宽裕3.□品牌不中意4.□质量信不过5.□售后服务差6.□价格不合理7.□其他(请注明)(5)您购买商品考虑的主要因素是:1.□实用价值2.□商品质量3.□价格4.□品牌5.□售后服务(请按您认为的重要性在□中写上位序)(6)您家平均每月总收入是:1.□500元以下2.□500~1000元3.□1000~1500元4.□1500~2000元5.□2000~3000元6.□3000~5000元7.□5000~8000元8.□8000元以上(7)您家平均每月日常生活费开支是元,其中用于吃(食品)支出大约是元。(8)您认为您家近几年生活水平是:1.□提高很多2.□略有提高3.□没有变化4.□略有下降5.□下降很多(9)您收入节余用于以下哪些项目?各项约占多大比重?1.银行储蓄()%3.国债(国库卷)()%3.基金()%4.其他债券()%5.股票()%6.保险()%7.其他()%(10)您存钱的主要目的是:1.□购买设备2.□购买住房3.□结婚4.□子女教育5.□养老防病6.□旅游(请按你认为的重要性在□中写位序)(11)您是否了解现在推行的信贷消费1.□不了解2.□了解一点3.□了解4.□很了解(12)您是否打算参加信贷消费:1.□是2.□不(跳过第13题)(13)您信贷消费的项目是()1.□购买家电设备2.□购买成套家具3.□购买汽车4.□购买(或置换)房屋5.□现有住房装修6.□支付子女教育费7.□国内或国际旅游(14)您是否同意下列看法:很同无不很同意所同不意谓意同意1.信贷消费不合中国国情2.信贷消费是资本主义国家的做法3.信贷消费是先甜后苦4.借债享受有风险5.借债消费不光彩6.信贷消费是现代通行的做法7.只要量力借贷,有利无害8.发展信贷消费能促进经济增长(15)最后,了解一下您的基本情况:A.您的性别:1.□男2.□女B.您的年龄:周岁C.您的文化程度:1.□不识字或识字不多2.□小学3.□初中4.□高中或中专5.□大专或大学以上D.您家庭人口数人其中:1.在业人;2.离退休人;3.失业、下岗人4.在校学生人。E.您的职业(见卡片)F.职务作业1情景假设:假设你是学校学生维权部的成员,请你设计一份关于对本校新食堂服务质量的满意程度的调查问卷。统计调查统计调查按调查对象包括范围的不同,可分为全面调查和非全面调查。全面调查是对构成调查对象总体的所有单位一一进行调查非全面调查是取调查对象中的一部分单位进行调查统计调查方式统计调查方式普查抽样调查典型调查重点调查普查为特定目的专门组织的非经常性全面调查通常是一次性或周期性的一般需要规定统一的标准调查时间数据的规范化程度较高应用范围比较狭窄人口普查,工业普查总体抽样调查从总体中随机抽取一部分单位(样本)进行调查重复抽样和不重复抽样目的是推断总体的未知数字特征遵循随机性原则存在调查误差,并且可以加以控制具有经济性、时效性强、适应面广、准确性高等特点总体随机样本重点调查重点调查从调查对象的全部单位中选择少数重点单位进行调查调查结果不能用于推断总体优点在于调查单位少,可以调查较多的项目和指标,了解较详细的情况。即用较少的人力和时间,取得较好的效果。组织重点调查的关键问题是确定重点单位。典型调查典型调查从调查对象的全部单位中选择少数典型单位进行调查目的是描述和揭示事物的本质特征和规律调查结果不能用于推断总体实验在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料有室内实验法和市场实验法数据调查误差调查误差收集的数据资料与真实情况之间的差距调查误差本身不确定,或者说是未知量调查误差的种类登记性误差代表性误差数据调查误差登记性误差和代表性误差登记性误差:由于调查者或被调查者的人为因素所造成的误差。理论上讲可以消除代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控制和计算当调查涉及全部总体单位时,不存在代表性误差问题统计数据的质量要求准确性:最小的非抽样误差或偏差关联性:满足用户决策、管理和研究的需要及时性:在最短的时间里取得并公布数据一致性:保持时间序列的可比性最低成本:以最经济的方式取得数据数据汇总数据汇总将原始数据加工整理成便于分析和显示的形式数据汇总的结果:统计数列规范有序的,表格式的数据集形式变量数列——截面数据汇总时间数列——时间数据汇总数据汇总弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法不同定类数据和定序数据主要做分类整理定距数据和定比数据主要做分组整理适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据品质数据汇总基本过程1.列出各类别2.计算各类别的频数品质变量数列:变量值次数或频数品质数据汇总品质数据可计算的指标频数:落在各类别中的数据个数比例:某一类别数据占全部数据的比值百分比:将对比的基数作为100而计算的比值比率:不同类别数值的比值品质数据整理(实例)例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。表1某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100数量数据汇总数量数据——数量变量数列变量值次数或频率数量数据的变量值具体数值——单值数列数值区间——组距数列频数分布表的编制编制频数