Charpter2数据与数据的获得2-1总体、个体、特征与数据2-2数据类型2-3获得数据的调查方法2-4问卷设计2-1总体、个体、特征与数据2.1总体、个体、特征与数据1.总体(PopulationorUniverse)所研究对象的全体,称为总体.例如,某专业同一年的考生可以构成一个总体,一条生产线上生产出来的某零件可以构成一个总体。2.1总体、个体、特征与数据2.个体(IndividualOrCase)或成分(Elements)组成总体的元素(Element),称为个体有限总体:在某个总体中,若个体的数目是有限的Finite.无限总体:总体中,个体的数目无限(Infinite)2.1总体、个体、特征与数据3.指标或变量(Variable)研究任何总体,必然对其个体的某些特征感兴趣。Ex:农民(总体)附着于“个体”的信息,即个体特征年收入对政策的态度受教育程度2.1总体、个体、特征与数据表征个体特征(Characteristics)的量称为指标或变量.Ex:“学生”----------考分身高“零件”----------直径长度耐磨损度“药品”-----------疗效副作用“企业”------年销售额年利润资金周转率2.1总体、个体、特征与数据我们对任何总体感兴趣,其实是对总体中的个体的特征感兴趣。当要联合考察总体或个体的若干个特征,我们面对的就是指标向量。Ex:“学生”(考分身高年龄性别)2.1总体、个体、特征与数据4.指标值或数据(Data)在研究一个总体时,所要研究的每个特征,在每个个体上,都有一个反映该特征的具体描述,被称之为指标值。Ex:考生个体考分(定量型Quantitative,有数值)性别(定性型Qualitative)受教育程度(半定量的Semi-Quantitative)2.1总体、个体、特征与数据定性型的数据和半定量的数据,通常是对个体分组(分类)的依据.一个个体的所有特征的数据,被称为一条记录或一个数据向量。考生A(姓名,年龄,考分,成绩…)2-2数据类型1.Scale刻度级数据数据的最高等级,只能用数字来表示比率级Ratio:有具体的实际测量值,可做+-*/运算.间距级Interval:具体有一定单位的实际测量值。例如摄氏温度。可比较变量之间的差异,作+-运算,不能进行*/运算。2.2.1数据测度的分类2.Ordinal序次级数据数据的中间级。可用数字,字母来表示Ex:受教育程度小学=1初中=2高中=3大学本科=4研究生=5各编码的序值,代表了受教育程度的高低差异。这一差异不能准确描述差别的大小,但可以确定其顺序,即可进行不等式运算。研究生大学本科高中…3.(Nominal)名义级数据数据的最低级,无次序之分,只是一种标志,用以区分变量的不同值。可用数字也可用字母。Ex:性别:女(0)男(1)女(F)男(M)在统计分析中,不同测度类型的数据扮演不同的角色。不同测度级别的数据,应用范围不同。等级越高,应用范围越广泛;等级越低,应用范围越受限制。2.2.2不同测度类型的数据的用途不同测度类型的数据都可以作为统计对象直接进入统计处理。Ex:当我们获得不同文化程度的顾客对某种数码产品的偏好数据后,我们可以用统计方法来分析两个变量(文化程度,品牌)是否相关。文化程度:顺序型变量品牌:名义级变量分类分组作用Ex:名义级变量CategoricalVariable,“职工的性别”:将职工总体分为“男”“女”两组,统计不同组的平均工资。顺序级变量也可作为分类得依据,“受教育程度”将职工总体分为教育程度由低到高的若干组。刻度级数据可用于分类,如按照“考试成绩”将学生总体分类等等。一般说来,等级高的数据,兼具等级低的数据的功能;而等级低的数据,不可能兼有等级高的数据的功能。名义级的数据,通常是样本分类(分组)的依据。2.2.3观察数据与实验数据从数据获得的角度对数据进行分类观察数据:在获得数据过程中,不对被调查对象数据产生的条件施加任何控制所得到的数据。观察数据通常是众多因素共同作用的结果。Ex:调查农民年收入情况,农业技术来源情况,受教育情况,地区差异等等通常为观察数据。农民的年收入显然是众多因素复合作用的结果。实验数据:在获得数据过程中,对数据产生的条件实施了控制而得到的数据为实验数据。实验数据通常是单一因素作用的结果。Ex:研究汽油添加剂对增加汽车行程的影响,实验中限制如下条件剂量一致同一辆汽车进行实验同一道路上进行测试实验选择无风的天气,排除风向和风速对汽车行程的影响。此时,影响“汽车行程”的因素基本上是由添加剂本身的因素造成的。2-3获得数据的调查方法观察(调查)法普查方法获得数据的方法分为两大类实验方法抽样调查2.3.1概念与基本方法1.普查(Census)普查针对有限总体而言。收集有限总体中每个个体的有关指标的指标值。Ex:人口普查2.抽样调查(Sampling)与样本(Sample)在总体中选择一部分个体进行调查,从所了解的局部数据来了解总体情况。总体中,部分个体所组成的集合称为样本(Sample)集合。抽样调查有两层含义1.“抽样”:抽取部分个体2.“调查”:调查反映在个体上的,所要研究的特征的数据。样本个体的特征数据为“样本数据”相对于普查,抽样调查的成本低,所耗费的时间少,在收集个体信息方面,信息收集更为详尽和准确。从总体中,恰当地选取部分个体进行调查,是统计学中最重要的问题之一,也是“获得数据方法”所要研究的中心内容。那么如何取样?4.抽样方法MethodsofSampling非随机抽样JudgmentSampling按照非随机的原则或者依据对个体和总体特征的判断,从总体中抽取个体的做法。Ex:典型调查,有意识地选择具有代表性的典型个体进行深入细致的调查。Ex:调查贫困地区学龄儿童受教育情况依据“人均收入”的数据或“经济发展”的有关资料,主观选择某个地区进行调查,为典型调查。随机抽样(RandomSampling)按照一定随机规则(如概率分配),从总体中抽取部分个体的抽样模式。(1)简单随机抽样(SimpleRandomSampling)按照“每个个体被抽到的机会均等”的规则,从总体中抽取部分个体。Ex:300个贫困地区中,按照等概率原则(1/300),抽取10个地区进行调查。几种综合的抽样方法:(2)分层抽样StratifiedSampling按照总体中个体的某特征,把总体中的个体分为若干群组(类)。对类中的个体进行简单随机抽样。分层抽样要求层之间的差异大于层的内部的个体差异。总体分类简单随机抽样分层抽样StratifiedSampling不同群体所抽取的个体个数,采用以下两个方法确定1.等数分配法:每类抽取同样数量的个体2.等比分配法:抽样比例一致抽样比例5%100…300…1000…51550(3)整群抽样ClusterSampling将总体中的个体,按照某一标志量分为若干群,然后以群为单位,对群进行随机抽样,再对抽出来的群进行普查。整群抽样要求群体之间具有相似的特征。总体分群随机抽样Ex:一个公司可能将其顾客以地理位置划分区域。整群抽样。整群抽样即是从这些地理区域中随机抽取,对所抽中的这些区域内的所有顾客进行调查。整群抽样ClusterSampling(4)系统抽样SystematicSampling从总体中间隔性选取样本的抽样计划。排序总体随机抽样出第1个样本间隔抽样(5)连续抽样(多阶段抽样)Samplingfromacontinuousprocess分阶段,从一个连续的过程中抽取样本Ex:调查某省农民的收入情况县级随机抽样乡级随机抽样村级随机抽样户级随机抽样(6)成本约束下的调查假设调查费用预算额为10000元,调查组固定费用为2,000元,每调查一个个体的可变费用为20元,在整群抽样中有20个群,每个群个体数在60-80之间,问:如何确定所抽群体的个数?2-4问卷设计数据的调查通常是以问卷为基础的。问卷,是管理学科调查收集数据的最重要的工具。问卷问题的设立,通常是从分析研究目标开始的。依据研究的目标,确定需要收集哪些数据,从而确定设置那些问题。1.对变量(特征)之间的相互关系的猜想。根据变量间的相关性设计问卷问题。2.从数据处理方法来判断需要设计哪些问题。问卷设计的两个重要方面Ex1:研究“企业对开展电子商务的政策要求”若猜想“企业态度”与“企业开展电子商务的情况”有关,则将企业开展电子商务的有关情况(开展电子商务的投资,开展电子商务而获得的收益)纳入问卷。Ex2:研究“农民对土地使用权转让的态度”直观做法:初步研究的基础上,列出相关态度,请农民选择,自己的态度。进一步考虑:农民态度年收入非农收入占年收入的比例考虑在问卷中设计这三个因素之间相关的问题。问卷设定的几个准则设置在问卷中的问题,力求能够获得诚实回答。Ex1:某大学想了解考生的情商,就增加了情商测试题.Q:当你受挫后,你的反应是a.非常沮丧,长时间不能回复正常情绪b.很沮丧,较长时间不能回复正常情绪c.很沮丧,当很快能回复正常情绪d.无明显情绪变化,放弃就是了这显然是一个不能获得诚实答案的问题。谁愿意暴露自己的缺点而不被录取呢?Ex2.某机构在研究居民对个人所得税起征点时,设置问题:Q:当个人所得税起征点时如下哪种情况时,你认为不必逃税?a.800元b.1500元c.2000元d.2500元这也是一个难以获得诚实回答的问题:谁愿意在税务机关面前表示自己是想逃税的呢?对“怀疑得不到诚实回答”的问题,应当在不同位置,设置相同、相近、相反的问题,以求相互验证。Ex2:在调查社会各阶层对官本位的态度时,设置了如下问卷问题:Q:你最尊重的人是(选一):a.有知识的人b.富有的人c.有权的人这显然也是一个难以获得诚实答案的问题。所以为了验证问题回答的可靠性,可再问卷中追加如下问题:Q1:假如你正在忙于一件对于你个人而言非常重要的事情,这时你的同事告诉你,你的上司找你有事,你会(选一)a.立即放下手头的事情,去见上司b.请同事转告上司稍等,马上过来c.请同事转告上司稍等,现在手头忙,忙完马上过来。Q2:假如你正在忙于一件对于你个人而言非常重要的事情,这时你的同事告诉你,有位名教授来访,你(选一):a.立即放下手头的事情,马上去见教授。b.请同事转告教授稍等,即可过来c.请同事转告教授稍等,现在手头忙,忙完马上过来。Q3:假如你正在忙于一件对于你个人而言非常重要的事情,这时你的同事告诉你,有位重要领导来访,希望你去介绍情况(选一):a.立即放下手头的事情,马上去。b.请同事转告领导稍等,即可过来c.请同事转告领导稍等,现在手头忙,忙完马上过来。如此问卷设计,往往可以得到很有意思的回答。大致反映被访者的真实态度,从而对分析问题,了解真实情况很有帮助。Q-1:在所有行业中设立行政等级制度是(选一)a.有益无害b.利大弊小c.利弊相当d.利小弊大e.有害无益Q-2:领导干部经商与干部的关系是(选一)a.无关b.少数有关c.半数有关d.多数有关e.全部有关1)单选问题:备选答案为答案空间的完整划分问卷写法的几个关键问题Ex:领导干部经商与干部的关系是(选一)a.无关b.领导自律不严c.领导纵容包庇d.权钱交易e.…2)单选问题:备选答案不应该为两个空间(层面)的混淆领导的“态度”空间领导的“关系”空间Ex1:在所有行业中设立行政等级制度是(多选)a.必要的b.可有可无c.利大弊小d.利弊相当e.利小弊大f.有害无益3)多选问题:备选答案可以交叉,也可以处于不同层面。利弊大小层面必要性层面Q:在调查农民对土地使用权转让的态度问题中,设置问题:你家耕种土地,是因为a.收入稳定,自己喜欢b.没有别的收入途径c.…4)多选/单选问题:备选答案中不能有多重含义解释:a选择包含了两个答案空间,选a的人即可能是因为喜欢,也可能是因为收入稳定。做统计分析的时候,无法统计出两种不同情况下人数的比例.Ex:在调查农民对土地使用权转让的态度问题中,设置问题:Q:你家耕种土地,是因为a.收入稳定,自己喜欢