第2章-统计数据的来源与整理(3学时)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

统计数据的来源与整理第2章数据的搜集与整理§2.1数据案例§2.2数据的计量与类型§2.3统计数据的收集§2.4统计数据的整理数据案例案例:证券交易数据案例:成都市居民理财行为调查•提高居民的财产性收入成为经济发展目标•成都居民理财情况具有代表性的•调研目的–商业银行个人理财产品的市场定位–制定提高居民财产性收入的政策调查实施•调查对象:成都市区居民•调查方式:问卷调查方式•样本:问卷2500份,实际回收2044份,有效率为81.76%•年龄分布–20岁以下(9%)20-30岁(48%)–30-40岁(28%)40-50岁(9%)–50岁(6%)•月收入–1000元以下(25%)1000-2000元(36%)–2000-3000元(24%)3000-4000(6%)–4000-5000(4%)5000以上(5%)•职业–公司职员(25%)服务业人员(15%)–个体(14%)教师(11%)–公务员(7%)其他职业(28%)样本特征成都居民对理财的了解情况汇总11%44%37%8%太专业,听不懂见过,不了解具体含义知道家庭理财的几种方式对家庭理财有深入了解请将页字段拖至此处计数项:性别理财理解在此处放置系列字段汇总11%44%37%8%太专业,听不懂见过,不了解具体含义知道家庭理财的几种方式对家庭理财有深入了解请将页字段拖至此处计数项:性别理财理解在此处放置系列字段月收入理财方式1000元以下1000-20002000-30003000-40004000-50005000以上存入银行或购买国库券50.6%54.7%51.4%46.0%36.8%30.6%投资股票.债券.基金18.3%20.0%37.2%34.9%43.37%49.5%投资房产12.7%15.3%17.8%28.6%23.7%43.6%购买保险26.7%28.7%34.1%32.1%38.2%27.7%黄金外汇投资1.8%2.0%4.1%3.2%9.2%5.9%期权期货投资1.4%1.1%2.5%0.8%7.8%5.9%其他投资方式21%18.9%14.5%9.5%15.8%19.8%表:居民理财方式居民对理财产品投资期限的偏好居民对自己目前理财规划的满意度图一成都居民理财满意度12%45%25%18%很满意,不需要改进基本满意,需要完善不满意,想重新设计不知道该如何理财请将页字段拖至此处计数项:理财规划理财规划在此处放置系列字段图一成都居民理财满意度12%45%25%18%很满意,不需要改进基本满意,需要完善不满意,想重新设计不知道该如何理财请将页字段拖至此处计数项:理财规划理财规划在此处放置系列字段问题:•问题如何度量?•需要调查那些数据?•数据类型是什么?•统计调查方法?•数据的收集方式?•如何进行资料的质量分析?•数据结果的表示?当前中国居民理财状况?一.数据的计量尺度二.统计数据的类型三.变量及其类型§2.2数据的计量与类型什么是统计数据?(data)1.对现象进行计量的结果2.不是指单个的数字,而是由多个数据构成的数据集3.不仅仅是指数字,它可以是数字的,也可以是文字的统计数据的分类•统计数据的分类•按计量层次分类的数据顺序的数据数值型数据•按时间状况截面的数据时序的数据•按收集方法观察的数据试验的数据数据的计量尺度•计量尺度—计量或测度的程度•按照对事物计量的精确程度,可分•定类尺度(列名尺度)-按照事物的某种属性进行平行的分类或分组•定序尺度(顺序尺度)-对事物之间等级差或顺序差别的测度•定距尺度(间隔尺度)-度量事物类别或次序之间的间距•定比尺度(比率尺度)-计算两个测度值之间的比值统计数据的分类(按计量尺度分)1.分类数据(categoricaldata)–对事物进行分类的结果–数据表现为类别,用文字来表述–例如,人口按性别分为男、女两类•顺序数据(rankdata)–对事物类别顺序的测度–数据表现为类别,用文字来表述–例如,产品分为一等品、二等品、三等品、次品等•数值型数据(metricdata)1.对事物的精确测度2.结果表现为具体的数值3.例如:身高为175cm、168cm、183cm统计数据的分类(按收集方法分)1.观测的数据(observationaldata)–通过调查或观测而收集到的数据–在没有对事物人为控制的条件下而得到的–有关社会经济现象的统计数据几乎都是观测数据•试验的数据(experimentaldata)–在试验中控制试验对象而收集到的数据–比如,对一种新药疗效的试验,对一种新的农作物品种的试验等–自然科学领域的数据大多数都为试验数据统计数据的分类(按时间状况分)1.截面数据(cross-sectionaldata)–在相同或近似相同的时间点上收集的数据–描述现象在某一时刻的变化情况–比如,2002年我国各地区的国内生产总值数据•时间序列数据(timeseriesdata)–在不同时间上收集到的数据–描述现象随时间变化的情况–比如,1996年至2002年国内生产总值数据变量及其类型变量•一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。•但是,开车后,坐在这节车厢的旅客有多少就没准了。这有随机性。该车厢的乘客数为变量(variable)。•一个学校的注册在校男女生比例是固定的,为常量•但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。变量•当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitativevariable);•因为是随机的,也称为随机变量(randomvariable)。•如身高体重,购买某商品的人数等等变量变量(Variable)1.说明现象某种特征的概念–如商品销售额、受教育程度、产品的质量等级等–变量的具体表现称为变量值,即数据2.变量可以分为–分类变量(categoricalvariable):说明事物类别的一个名称–顺序变量(rankvariable):说明事物有序类别的一个名称–数值型变量(metricvariable):说明事物数字特征的一个名称•离散变量:取有限个值•连续变量:可以取无穷多个值•象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitativevariable,或categoricalvariable)。•这些定性变量也可以由定量变量来描述,如男女生的数目,持有某观点的人数比例等等。变量•定性变量只有用数量来描述时,才有可能建立数学模型,并使用计算机来分析。•数据中它们通常用哑元(dummyvariable)代表,比如性别用0、1代表,三种收入用0、1、2代表(或用字母代表)变量•有了变量,何谓数据?•不同机构调查所得到的北京收入万元以上市民的比例都不一样,这是变量•而这些调查产生一些数目,这些数目就是数据(data)•数据是关于变量的观测值。变量和数据•通过数据可验证有关的理论或假定。•比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%•通过抽样,可以检验某批产品是否合格等等变量和数据变量之间的关系•现实世界紧密联系的•人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等•不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。定量变量间的关系•例1.1.广告投入和销售之间的关系。下表显示了某企业的广告投入和销售额之间的关系(万元)。广告1.03.23.25.55.97.17.39.210.812.1销售9.431.833.252.453.556.056.959.260.163.5广告投入14121086420销售额706050403020100横坐标代表广告投入,而纵坐标代表销售收入。看得出有何种关系吗?定量变量间的关系•能否从该数据回答下面问题:•这两个变量是否有关系?•如果有,它们的关系是否真实的(显著)?•这些关系是什么关系,能否用数学模型来描述?•这个关系是否带有普遍性?•这个关系是不是因果关系?•关于因果关系•在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等•但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。定量变量间的关系•比如,北京GDP在一年中是快速增长的,而一个刚出生的巴拿马婴儿在这一年中的体重也是快速增长的•如果画出图来,它们有类似线性的关系•但它们显然没有因果关系定量变量间的关系•只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推断。•比如利用公鸡打鸣来预报太阳升起;虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先)定量变量间的关系•简单的办法(诸如画图)可以得到一些信息,但不一定能够给出满意的答案•需要更多的工具和手段来进行数值分析得到更加严格和精确的解答•因此,需要继续我们的课程定量变量间的关系一.数据的来源二.数据的收集方法三.实验数据四.数据的误差§2.3统计数据的收集数据的来源(一)数据的间接来源(二)数据的直接来源数据的间接来源系统外部的数据Internet中国人口统计年鉴中国市场统计年鉴1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料系统内部的数据中国人口统计年鉴中国市场统计年鉴1.业务资料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等二手数据的特点1.搜集容易,采集成本低2.作用广泛–分析所要研究的问题–提供研究问题的背景–帮助研究者更好地定义问题–检验和回答某些疑问和假设–寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑二手数据的评估1.数据是谁搜集的?–可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?数据的直接来源数据的直接来源(原始数据)1.调查数据–通过调查方法获得的数据–通常是对社会现象而言–通常取自有限总体2.实验数据–通过实验方法得到的数据–通常是对自然现象而言–也被广泛运用到社会科学中•如心理学、教育学、社会学、经济学、管理学等数据的搜集方法搜集数据的基本方法自填式面访式电话式调查的数据实验的数据搜集数据的基本方法自填式问卷调查1.没有调查员协助的情况下由被调查者自己完成调查问卷–问卷递送方法有:调查员分发、邮寄、网络、媒体•要求调查问卷结构严谨,有清楚的说明•弱点–问卷的返回率比较低–不适合结构复杂的问卷–调查周期比较长–数据搜集过程中出现的问题难于及时采取调改措施面访式问卷调查1.调查员与被调查者面对面提问、被调查者回答的一种调查方式2.优点–可提高调查的回答率–可提高调查数据的质量–能调节数据搜集所花费的时间•弱点–调查的成本较高–调查过程的质量控制有一定难度电话式问卷调查您好!我是××调查公司的调查员…1.通过电话向被调查者实施调查2.特点–速度快,能在短时间内完成调–适合于样本单位十分分散的情况3.局限–如果被调查者没有电话,调查将无法实施–访问的时间不能太长–使用的问卷需要简单–被访者不愿意接受调查时,难以说服观察式调查•1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息•2.调查人员不是强行介入•3.能够在被调查者不察觉的情况下获得资料–如交通流量的调查各调查方法的比较自填式面访式电话式调查时间慢中等快捷调查费用低高低问卷难度要求容易可以复杂要求容易有形辅助物的使用中等利用充分利用无法利用调查过程控制简单复杂容易调查员作用的发挥无法发挥充分发挥一般发挥回答率最低较高一般一.实验组和对照组二.实验中的若干问题三.实验中的统计实验数据实验组和对照组1.将研究对象分为两组:实验组和对照组2.实验组和随机组的产生应遵循随机原则,而且应该匹配–匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组实验中的若干问题1.人的意

1 / 108
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功