72-1任务9市场调查数据整理与分析调查问卷的回收及审查调查资料的编码与录入调查数据的清洁和预处理统计分析方法——描述统计统计分析方法——推论统计统计分析方法——多元统计常用统计分析软件简介72-2一、调查资料整理的意义提高调查数据质量的必要步骤分析的重要基础便于对数据的长期保存和日后研究72-3二、调查资料整理的步骤72-4三、调查问卷的回收与资料收集配合,掌握每天完成和接收的问卷数记录问卷完成日期和接收日期,以便必要时可对先接收的资料和后接收的资料进行比较分析给每份问卷记录一个惟一、有顺序的识别代码,作为原始文件进行资料核对、事后编码、资料录入时,须按代码,准确记录谁拿着哪些原始文件所有参与资料整理的人须知:既要保证工作质量,还负有保证不丢失任何原始文件的责任72-5四、调查问卷的审核对回收问卷的完整性和访问质量的检查目的:确定哪些问卷可接受,哪些要作废是保证调查工作质量的关键常在实施进行过程中就已开始72-6五、调查问卷审核的内容完整性正确性一致性及时性清楚易懂72-7六、调查问卷审核的方法逻辑检查抽样审核计算审核72-8实地审核中心办公室审核(初审、现场审核)七、调查问卷审核的阶段72-9接收核查问卷(一审)编辑检查(二审)及采取相应处理措施八、调查问卷审核基本步骤72-10缺损的问卷(缺页或无法辨认)回答不完全的问卷(有相当多问题没有填答)被调查者没理解问卷内容而错答,或没按照指导语要求回答问题回答没有什么变化的问卷在截止日期之后回收的问卷由不属于调查对象的人填写的问卷前后矛盾或有明显错误的问卷九、问卷审核中的无效问卷72-11退回实地重新调查视为缺失数据(无法退回问卷时)弃用十、审核不合格时的处理方式72-12市场调查数据整理与分析调查问卷的回收及审查调查资料的编码与录入调查数据的清洁和预处理统计分析方法——描述统计统计分析方法——推论统计统计分析方法——多元统计常用统计分析软件简介72-13一、编码的概念简称DE(DataEditor)将问卷信息(包括问题和答案)转化为统一设计的计算机可识别的代码,以便于对其进行数据整理和分析信息转换的重要手段,一般采用数字代码系统72-14二、编码的作用减少数据录入和分析的工作量,节省费用和时间,提高工作效率将定性数据转化为定量数据,进而可利用统计软件、统计分析方法进行定量分析减少误差72-15三、编码的基本原则准确性,代码要能准确有效替代原信息完整性,转换信息形式时尽量不丢失信息,减少信息浪费转换的代码要便于数据的整理和分析,有效率,易于操作,尽量节约人力、物力标准化原则,以便于比较72-16四、编码的设计确定问卷中各问题和答案对应代码的名称、形式、范围以及与原数据的对应关系,以便能将调查中得到的回答分成若干有意义且有本质差别的类别编码设计是整个编码过程的基础72-17五、编码设计的内容问卷代码变量的定义(名称、类型、位数、对应问题等)取值的定义(范围、对应含义等)72-18六、编码表将以上内容列成表格形式,称为编码表准确、全面、有效的编码表设计,有助于提高调查数据的分析质量72-19七、问卷代码问卷的代码主要包括地区代码、街道代码、居委会代码、调查员代码以及问卷代码等1051202北京市调查员代号居委会代号该调查员在此居委会成功调查的第2份问卷72-20八、编码设计的分类编码设计的分类封闭题编码设计半封闭题编码设计开放题编码设计非结构式问卷编码设计前设计编码后设计编码结构式问卷编码设计问卷结构不同问题类型不同编码设计的时间、方法不同名称码定量码定性码数据类型不同72-21九、前设计编码针对答案类别事先已知的问题,在问卷设计的同时设计编码表(可归入问卷设计中)用于结构式问卷中的封闭题和数字型开放题72-22(1)封闭题编码——单选题只需规定一个变量,取值为选项号定义变量名为V18,属于数字型变量变量所占字节数为1变量取值范围为1(买过),2(没买过),或9(该题无回答)Q18请问您最近一年内买过DVD光盘吗?1.买过2.没买过72-23(2)封闭题编码——多选题需规定多个变量对变量与取值的定义一般有两种做法72-24(3)封闭题编码——多选题方法一:将各个可能回答的答案选项都设为一个0-1指示变量72-25(4)封闭题编码——多选题方法二:将变量定义为所选题号,变量值为选项号,变量排列顺序为选择答案的顺序72-26(5)封闭题编码——排序题方法一:变量个数即选项个数,按照选项排列顺序,分别定义各变量为对应选项所排次序号,取值即为次序号72-27(6)封闭题编码——排序题方法一:变量个数即要求排序项数,依照次序号排列顺序,分别定义各变量为各次序号对应的选项项数,取值即为选项号72-28(7)数字型开放题编码直接回答数字的问题,变量值即为该数字变量所占字节数可根据事先预计的数字最大值位数确定35岁NL(定量名)所占字节为2小数点位为0取值范围为20~60或99(该题缺失)72-29十、后设计编码针对答案类别事先无法确定的问题,在数据收集完成后,根据被调查者的回答设计编码表应用于:非结构式问卷开放题对开放题编码:根据问题的回答确定各答案类别给每种答案类别确定一个代码,并规定其位数72-30录入变量数据录入数据审核图6-1SPSS数据录入窗口十一、数据录入程序[1]72-31在变量录入后将问卷资料一份一份地录入到相应的表栏中。一般使问卷的编号与计算机自动生成的序号相同以便今后审核、查找。在数据录入时,有时输入的数据跟设定的数据宽度或类型不符合,计算机会出现提示符号“*”,这样一来录入人员就要及时加以纠正。录入变量数据录入数据审核十一、数据录入程序[2]72-32检查错误的方法有两种,一种是进行数据的二次录入,然后将两次录入的结果加以比较,对不同的数据原始问卷资料进行核对。但这种方法比较费事、费力;另一种方法是逻辑查错。即先对一些变量进行频次、频率的分析,根据分析结果来判断是否存在错误。录入变量数据录入数据审核十一、数据录入程序[3]72-33市场调查数据整理与分析调查问卷的回收及审查调查资料的编码与录入调查数据的清洁和预处理统计分析方法——描述统计统计分析方法——推论统计统计分析方法——多元统计常用统计分析软件简介72-34一、调查数据的清洁一致性检查和逻辑检查(通过计算机)变量取值是否超出合理范围有无逻辑错误有无极端值72-35二、调查数据的清洁缺失数据的处理删除个案删除缺失值插补充法——利用其他数据替代或估算缺失值利用数据的来源热卡法(hot-deck)冷卡法(cold-deck)根据具体的替代或估算方法的不同均值替代回归估计随机抽取最近距离确定加权组调整法72-36三、加权处理在分析前,应首先考察样本在一些主要特征上的分布对总体是否有代表性如样本分布与总体分布有显著差异,用这样的样本数据去推断总体就肯定会出现偏差调整数据,使样本在一些主要指标上的分布与总体基本保持一致,常用方法为加权处理质量样本72-37市场调查数据整理与分析调查问卷的回收及审查调查资料的编码与录入调查数据的清洁和预处理统计分析方法——描述统计统计分析方法——推论统计统计分析方法——多元统计常用统计分析软件简介72-38一、市场调查统计分析方法的类型描述统计分析推论统计分析单变量统计分析双变量统计分析多变量统计分析研究目的不同涉及变量的多少72-39二、单变量描述统计分析集中趋势分析平均数(Mean)众数(Mode)中位数(Median)离散趋势分布频数分布分析72-40集中趋势:数据分布趋向集中于一个分布中心。其表现是中心附近变量值次数较多,而距中心较远的变量值次数较少数据集中趋势分析,是对被调查总体的特征进行准确描述的重要前提三、数据集中趋势分析72-41数据偶然性和随机性的一个特征值,反映一些数据必然性的特点总体中各单位数值之和除以标志值项数NxXi/(1)平均数(Mean值,均值)72-42总体中各单位在某一标志上出现次数最多的变量值用众数测定数据集中趋势,克服了平均数指标会受到数据中极值影响的缺陷在三个集中趋势分析指标中,众数适用范围最广(2)众数(Mode)72-43总体中各单位按其在某一标志上数值在的大小顺序排列时,居于中间位置的变量值主要优点在于较少受极端值影响,主要缺点是较难用于推断性数据分析(3)中位数(Median)72-44数据分布偏离其分布中心的程度通常由全距、平均差、平均差系数、标准差、标准差系数等指标反映四、数据离散趋势分析72-45所有标志值中最大值与最小值之差(1)全距72-46总体各单位标志值与其算术平均数离差绝对值的算术平均数(2)平均差nXX平均差72-47方差是标准差的平方标准差计算公式nXX)(2(3)标准差72-48统计分析的重要方法,反映现象间数量关系的重要手段,可利用相对指标说明现象的水平、速度和变化情况五、数据相对程度分析72-49从静态上反映总体内部构成,揭示事物的本质特征,其动态变化可以反映事物的结构发展变化趋势和规律性100%总体全部数值总体中部分数值结构相对指标(1)结构相对指标72-50不同总体的两个同类指标进行对比的比值。可是两个总量指标、两个相对指标或两个平均指标相比,一般以百分数或系数表示可反映同类现象在同一时间、不同空间的差异程度(6-5)某地区(单位)的指标数值比较相对指标公式另一地区(单位)的同一指标数值(2)比较相对指标72-51同一总体内不同组成部分的指标数值的比值。用以说明总体内各局部、各分组之间的比例关系。常用系数或倍数表示(6-6)总体中某一部分数值比例相对指标公式总体中另一部分数值(3)比例相对指标72-52密切联系的两种性质不同总量指标之比反映现象的强度、密度、普通程度是一种特殊的相对数,一般采用复名数单位表示(4)强度相对指标72-53市场调查数据整理与分析调查问卷的回收及审查调查资料的编码与录入调查数据的清洁和预处理统计分析方法——描述统计统计分析方法——推论统计统计分析方法——多元统计常用统计分析软件简介72-54推论统计市场调查中,除对样本数据的水平或其他特征进行描述,还常需根据样本信息,对总体的分布及分布特征进行统计推断,即推论统计分析推论统计的前提:样本是随机抽样而来,对总体有一定代表性分析方法主要包括两部分:参数估计:在总体分布已知情况下,用样本统计量估计总体参数的方法假设检验72-56点估计也称定值估计,用子样的一个统计量来作为总体某未知参数或某数字特征的估计量的方法优点:方法简单不足:没有考虑抽样误差,也没有一定的概率作保证,因而无法说明估计的准确程度和把握程度72-57区间估计点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大区间估计正好弥补了点估计的这一缺陷在市场抽样调查中推断总体,一般采用区间估计方法,即在一定抽样误差范围内建立一个置信区间,并联系这个区间的置信度以样本指标推断总体指标72-58在区间估计时,须处理好抽样误差范围与置信度的关系置信度:进行推断时的可靠程度大小抽样推断可靠程度,是指总体所有可能样本的指标落在一定区间的概率度在市场调查实践中,对于抽样误差范围或置信度,是在调查方案中事先规定的,并据此确定样本单位数区间估计72-59区间估计用样本平均数推断总体平均数的区间估计公式:用样本成数推断总体成数的区间估计公式:X-tμx≤X≤X+tμx总体平均数样本平均数抽样平均数误差范围P-tμP≤P≤P+tμP总体成数样本成数抽样成数误差范围72-60在某城市某街道办事处所管辖的10000户居民中,用单纯随机抽样抽取200户,对某种商品的月平均需求量和需求倾向进行调