第一章 数据收集(管理统计学-中国科大,万红燕)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020/1/19第一章数据收集收集数据时需考虑的问题是:相关总体数据来源提问调查中的偏差数据的类型2020/1/19相关总体总体是我们要调查或统计的某一现象的全部数据的集合。要明确向什么总体收集数据,因为数据收集是花钱花时间有代价的。数据的一种描述性的定义为:可以由它作出推断的已知事情或事物。数据有各种不同的表达形式对决策者而言,数据的质量是一个最大的问题。2020/1/19数据来源数据可分为两大来源:原始数据和二手数据原始数据是直接向调查对象收集的数据。其特点是为指定目的而收集。二手数据是收集已经加工、整理过的数据。二手数据大部分来自官方统计,如年鉴、月度统计报表、财经统计、经济趋势等。2020/1/19数据来源数据获取的途径:调查、试验和模拟调查:只观察、记录或度量,但不对现场行为加以干预,是被动的数据搜集方式。试验:能主动产生数据,是有计划、有选择地对受试对象施加影响,来观察受试对象的反应。模拟:依据一定的基本数据使用计算机产生大量的随机数据,来模仿随机现象,帮助进行决策。2020/1/19数据来源原始数据得到的方法有:自填式、采访法、直接观察法和行政数据的调查等。数据收集的类型:普查和抽样调查普查是根据统计任务的特定目的而专门组织的一次性全面调查,一般局限于较小的总体。抽样调查有随机抽样和非随机抽样随机抽样:总体中每个单位都有相同的概率或机会被选中。几种重要的随机抽样有:简单随机抽样、分层随机抽样、等距随机抽样和整群随机抽样等。2020/1/19数据来源非随机抽样:抽样时不遵循随机原则,而是按照研究人员主观判断或仅按方便原则抽选样本。非随机抽样技术主要有:方便抽样、判断抽样、配额抽样和雪球抽样等。配额(比例)抽样:是非随机抽样中最流行的一种,配额抽样类似于随机抽样中的分层抽样,首先将总体中的所有单位按一定的标志分为若干类(组),然后在每个类(组)中用方便抽样或判断抽样选取样本单位。2020/1/19数据来源例2(见P3)如某商场希望根据年龄和性别来调查对营业时间的意见,计划调查周边地区的1000个人。已知年龄和性别分布如下:年龄(岁)比例(%)15-201620-302630-5030﹥5028性别比例(%)男51女492020/1/19数据来源若准备抽1000人,则配额抽样方案为:年龄(岁)男性女性15-20827820-3013312730-50153147﹥501431372020/1/19提问认定调查总体及决定用问卷方式以得到所需信息后,下一步是确定问什么,如何问。一.问卷设计问卷调查一般是抽样调查中常用的首选方式问卷设计是根据调查目的和要求,将所需要调查的问题具体化,使研究者能顺利地获取必要的信息资料,以便于统计分析的一种手段2020/1/19提问1.问卷的一般结构问卷的标题问卷说明被访者的基本情况调查的主题内容编码作业证明的记载2020/1/19提问2.问卷结构特点问答由一个问题顺势转入下一个问题;由一个主题转到另一个主题。不要有跳跃而导致回答的无方向性。建议:从一般问题到特殊问题。2020/1/19提问“南方周末中国内地人物创富榜”读者调查问卷1.您对中国的民营企业家的总体评价是A.正面评价B.负面评价C.感受不大2.如果您的评价是正面的,主要原因是A.民营企业为从业者提供了工作机会和报酬B.民营企业对国家经济发展的贡献大C.民营企业对社会责任有所担当,扮演了企业公民的角色D.其他2020/1/19提问3.如果您的评价是负面的,主要原因是A.民营企业获取财富方法的正当性存在疑问B.民营企业支配财富方面存在问题C.民营企业没有积极承担社会责任D.其他4.您感受过民营企业对社会(包括您本人)的贡献吗?A.是B.否5.您是通过什么途径感受到民营企业对社会贡献的?A.本人直接受益B.大众传媒C.周围人口碑相传D.其他2020/1/19提问盖洛普组织总结提问的目的有如下5种:(1)找出回答者是否觉察到这一结果;(2)获得关于结果的一般感觉;(3)获得该结果指定部分的答案;(4)获得反映回答者观点的理由;(5)找出持有这些观点的强烈程度;2020/1/19提问例:1.你是否知道合肥和徐州之间要修条高速公路的计划?知道/不知道2.你是否同意合肥和徐州之间修条高速公路?强烈同意、同意、无所谓、不同意、强烈不同意3.你认为高速公路会对当地环境产生影响吗?有/没有4.如果反对,那你反对的理由是:(a)已经有一条可用的主干道(b)合肥和徐州之间运量不足(c)高速公路会损坏美丽的乡村风景(d)道路会破坏历史文物(e)其他,请指定……2020/1/19提问5..你准备用下列哪一种行动来支持你的观点?(a)给地区人大代表写信(b)给新闻单位写信(c)在政府召开的公众听证会上发言(d)在网上发表呼吁文章进行调查(e)其他,请指定……2020/1/19提问二.提问的方式有开放式和预设答案提问(封闭式提问)开放式提问是指所提出的问答题并不列出所有可能的答案,而是由被访者自由做答的问答题。预设答案提问是指已经事先设计了各种可能的答案的问答题,被访者只要或只能从中选定一个或几个现成答案的提问方式。2020/1/19提问三.提问的措辞提问的措辞在诱导出有代表性回答中是非常重要的。一个有偏差的或诱导性提问将偏离给定的回答。在问卷设计中发现的偏差主要有:(1)把两个或两个以上问题表达为一个;(2)问题中含有含糊或不熟悉的单词;(3)用软化难度或方向的词开始的提问;(4)包含条件或假设条款;(5)包含对回答者一个或多个指令的提问;2020/1/19调查中的偏差调查的偏差来自许多方面,分为两类:抽样误差和非抽样误差非抽样误差的来源:涵盖误差、计量误差、处理误差和无反应误差1.涵盖误差:指由于在抽样框或样本中出现了涵盖不全、过度涵盖、重复以及错误的分类而导致估计的偏倚。2.计量误差:指对一个问题所做的记录与它的真值不同,可能是由于被调查者和调查者对问题的误解、收集数据方式不同或测量工具而造成的。3.处理误差:可能发生在数据编码、数据录入、审核及插补等步骤中。2020/1/19调查中的偏差4.无反应误差在抽样调查中,我们希望能取得所要求的全部样本单位的数据或特征记录,但在实践中,常有部分单位的调查结果会因多种原因而出现空缺,即常称的无反应现象。调查中无反应的原因(1)调查对象联络不上,已经搬走(2)被调查者不能胜任或无能力(3)调查期间人不在(4)拒绝合作(5)丢失调查表2020/1/19调查中的偏差案例LiteraryDigest杂志自第一次世界大战以来一直进行总统预测,而且每次都预测准了。1936年美国总统选举前,LiteraryDigest杂志发出了1000万张调查问卷。回收到240万张,预测共和党候选人兰登(London)和民主党候选人罗斯福(Roosevelt)的得票比例是57:43,预测是根据240万张的民意调查回单作出的。但实际选举结果是罗斯福赢得了这场选举,他与兰登得票比例是62:38。2020/1/19调查中的偏差分析出现预测错误的原因:第一.选取样本的方式不是随机的,它主要是从电话号码簿和各种俱乐部会员名册上去选取的,这些人大多是有钱人,他们支持共和党候选人兰登;第二.有760万张问卷无反应,在没有寄回的人中支持共和党和支持民主党人的比例一般与寄回来的240万答卷中的支持比例不一样,例如该杂志向芝加哥地区三分之一的登记选民发了调查问卷,有20%的被询问者作了回答,其中一半以上支持兰登,但实际选举的结果是在芝加哥地区是2:1有利于罗斯福。2020/1/19调查中的偏差案例在1936年美国总统选举的预测中,美国舆论统计学家盖洛普获得成功。他所领导的研究所等三家民意测验机构,只调查了比《文学文摘》少得多的选民,预测候选人罗斯福的投票率为54%。其抽样方法是他在从事新闻工作中发展起来的,采用派调查员亲自访问调查,事先将各个地区不同类型与不同人数的对象定额分配给每一个调查员,然后分头在全国范围内进行。他为了取得良好的测定效果,按照以接近数字的准确程度算出来的比例,从特定的各种类别的人中,选出三千个样本代表全国各个阶层人口的特征。2020/1/19调查中的偏差由于无反应(等于改变了原先随机抽取的样本)而造成的偏差叫“无反应偏差”。在调查中我们要尽量减少这种偏差。为解决无反应问题,常用的处理方法有:多次调查对调查结果进行估算在无回答者中抽取随机子样本调查波利兹方案:是一种对于获得有回答的概率之间的差别,并相应地对其加权的方法。对无回答者的替代2020/1/19数据的类型例有一批旅游者从北京出发,分别到普陀、喀什、三亚和漠河,给这四个城市编号,分别为1、2、3、4。当旅游结束时,请每位旅游者回答下列问卷:1.您去了哪个城市?A.普陀B.喀什C.三亚D.漠河2.与以往旅游活动总的感觉相比,您认为此次旅游A.很满意B.较为满意C.一般D.不满意E.很不满意3.您在此地时的最高气温是度。4.您此行的全部支出是元。2020/1/19数据的类型根据数据的来源,可以把数据分成:定性数据、定序数据、定距数据和定比数据1.定性数据(分类、定类或名义数据)将数字作为现象总体中不同类别或不同组别的代码。这是最低层次的尺度。2.定序数据(有序数据)按照特征等级进行排序,数据之间有大小之分,但没有大多少的概念。2020/1/19数据的类型3.定距数据(间隔数据)不仅可以用数值表示现象类(组)别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量方面的差别。4.定比数据(比例数据)不仅有确定的间距,而且有自然确定绝对的零点。四种数据的描述功能是依次增大的,相应地,它们的可计算性也是依次增大的。2020/1/19数据的类型数据也可分为定性数据和定量数据(包括定序数据、定距数据和定比数据)定量数据可分为离散数据和连续数据离散数据是可以一个一个地数的。连续数据往往用一个区间或一条直线上的数值表示。2020/1/19案例资料:新可口可乐的开发与味觉测试

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功