第七章调查资料的整理分析与调查报告的撰写第一节市场调查资料的整理与分析一、市场调查资料的整理对收集到的一手资料和二手资料,由于调查过程中不可避免的问题,如二手资料中作者写作目的不同,一手资料中各种人为或非人为的因素使得资料存在非调查误差,因此对回收的问卷还要进行去粗取精、去伪存真的整理工作,有时还要将问卷和答案数据化并输入电脑,这个过程就是资料处理过程。对处理过的资料,用各种统计方法进行分析,就可以为我们整个营销分析和调查报告提供量化的依据,从而为决策服务。原因:一手资料除了抽样误差之外的存在的非抽样误差类型无能力回答误差(非故意误差)被调查对象误差不愿意回答误差欺骗误差(故意误差)非抽样误差调查对象选择误差提问误差调查人员误差记录误差欺骗误差诱导误差(一)资料整理的程序一般地说,市场调查资料的整理有以下几个步骤:资料审核资料整理资料编码资料录入资料整理在整个市场调查中的地位市场调查资料整理撰写报告营销决策由此可见,资料整理是一个必不可少的环节。(二)资料审核的具体内容1、文献资料的审核对文献资料的审核主要包括两个方面:一是文献资料本身真实性的审核,二是文献资料内容的可靠性审核。(1)文献资料本身真实性的审核——主要看文献资料的出处或资料的作者,对于有疑问的资料出处或作者应该排除。一般而言,正式出版的报纸、杂志、领导的讲话报告等真实性比较高。(2)文献资料内容可靠性的审核——主要要验证文献内容的内在一致性和外在一致性。内在一致性指同一文献中一部分内容与另一部分内容的一致,外在一致性指文献内容与其他文献关于同一事件描述的一致性。以外在一致性的审核更为重要。方法主要有:一是将描述同一事实或事件的各种文献内容进行比较,找出它们的异同,并根据经验来辨别真伪;二是比较来自不同的情报源的文献对同一事件的描述,如果内容不因情报来源的不同而不同,则可以认为文献的内容比较可靠。2、对实地资料(即问卷资料)的审核对问卷资料的审核在两个层次上进行,第一个层次审核问卷的真实性,第二个层次审核问卷的准确性和完整性。从而使问卷的审核分为两个阶段,实地审核和集中审核。实地审核主要审核问卷的真实性,集中审核主要审核问卷的准确性。(1)实地审核—审核问卷的真实性,包括调查者自己审核和复核员审核实地审核包括两个方面,一是调查者自己对问卷真实性、准确性和完整性的审核,这一工作在调查者尚未离开调查点之前进行,另一方面的实地审核指调查者离开以后有复核员进行的审核,该项工作最后归到复查和追访工作。其目的是核实调查是否按要求正确无误地进行,尽可能确保每份调查问卷都是有效问卷。核实的内容有:①此人是否真正接受了调查?②被调查者是否符合条件?③调查是否按要求的方式进行?④调查是否完整?⑤其他问题。如调查员是否彬彬有礼?被调查者对访问员或调查过程有什么意见?(2)集中审核—审核问卷的准确性和完整性集中审核的第一步是检查问卷填写的完整性和资料质量,目的是确定哪些问卷可以接受,哪些问卷要作废。在问卷检查之前,应按规定若干规则,使检查人员明确问卷完整到什么程度才可以接受。出现以下情况的问卷是不能接受的:①所回收的问卷是不完整的,如缺页或多页;大面积无回答、相当多问题无回答、几个部分无回答、只有开头部分回答等应视为无效问卷;但个别问题无回答或同一个问题相当多问卷无回答则可以作为有效问卷②明显错误的回答:例前后不一致的回答、答非所问、不必回答的问题回答了;③乏兴的回答。调查对象回答的差异性不大,例全部答案选一个数,3或7。④问卷是在事先规定的截止日期以后回收的;有的时候会有一些检查人员难以判断的问卷,检查人员应先将这些问卷放在一边,由研究人员决定取舍。因此,通常建议检查人员将原始问卷分成三类:可以接受的、明显要作废的、对是否可以接受有疑问的。关于缺失数据的处理:数据小量的缺失回答是可以容忍的,但如果缺失值的比例超过了10%,就可能出现严重的问题,因此对缺失值要做适当处理。缺失值的处理方法主要有四种:①用一个样本统计量的值去代替缺失值。最典型的做法是使用变量的平均值。例如对一个没有回答其收入的被访者,用该被访者所在的子样本的平均收入去替代。②用从一个统计模型计算出来的值去代替缺失值。根据某些数据我们可以建立一种统计模型,如,“产品使用程度”可能与“家庭规模”、“家庭收入”相关,利用回答了这三个问题的被访者数据可以构造一个回归方程,而对于某个没有回答“产品使用程度”的被访者,只要其“家庭规模”、“家庭收入”已知,就可以通过该方程计算出其值。③将有缺失值的个案整个删除。④将有缺失值的个案保留,仅在相应的分析中作必要的排除。——常用方法。(二)资料整理——资料的分组汇总将经过整理的原始资料进行分组汇总。所谓分组,就是根据调查研究的需要,将调查总体按照一定的标志区分为若干个组成部分。例,将调查总体按收入水平分为高收入、中等收入、低收入三类,按专业分组可以分为市场营销专业、会计专业、国际贸易专业等,前者为数量分分组标志,后者为质量分组标志。分组的关键是选择和确定分类标志。要根据调研目的、事物本质、事物所处的具体历史条件和现实条件来分组。例如,当研究目的是分析大中小企业的生产情况时,应选择数量标志如产品数量或生产能力作为分组标志,而要知道各类企业的比例时,应选择部门类别这一质量标志进行分类;又如,反映企业生产规模的标志有很多,如生产能力、职工人数、固定资产价值等,在技术发达条件下,使用固定资产的价值进行分类要合理些,而在技术不发达条件下,用职工人数作为分类标志比较恰当。(三)资料编码编码:就是将问卷中的文字信息转化成计算机能识别的数字符号,即给每一个可能的答案分配一个代号,通常是一个数字。编码可以在设计问卷时进行,叫前编码,也可以在资料收集结束以后进行,叫后编码。1、前编码条件:要求事先已知道问题的答案类别,主要应用于封闭题和数字型开放题。对于这类问题,首先要编制编码明细表。以例说明如何编制编码明细表。①单选题对单选题只需用一个变量,变量的值为选项号。例:请问您乘坐的舱位是:1.头等舱□2.公务舱□3.经济舱□对该题可编码为:其中1—头等舱,2—公务舱,3—经济舱,9—无回答。②多选题0—1指示变量,如被调查者选择了该答案,此变量的值为1,否则为0。您选择本次航班的原因?(可以选择多项)1.安全有保障□2.航班时刻适当□3.服务好□………………10.其他□请详细说明对该题可编码为:1—是原因,0—不是原因(2)后编码后编码一般是对开放式问题和封闭式问题的“其他”。其步骤为:①列出答案:读取每个开放式问题的回答问题:为什么你喜欢喝A品牌的啤酒?回答实例:1、因为它口味好。2、它具有最好的味道。口感因素3、我喜欢它的口味。4、我不喜欢其他啤酒太重的口味。5、它最便宜。价格因素6、我买任何打折的啤酒,它大部分时间都打折。7、它不像其他牌子的啤酒那样使我的胃不舒服。8、其他牌子的啤酒使我头痛,但这种不会。没有不适感9、我总是选择这个品牌。10、我已经喝了20多年了。习惯11、它是大多数同事喝的品牌。12、我的所有朋友都喝它。朋友的影响13、这是我妻子在食品店中买的牌子。14、这是我妻子/丈夫最喜欢喝的牌子。喜欢15、我没有想过。16、不知道。不知道或没有原因17、没有特殊原因。②合并答案:找出与该回答相符的答案合并类别③设置编码:确定该类别的数字编码回答类别描述上表的回答分配的数字编码口味好/喜欢味道1,2,3,41/比其他味道好低/较低价格5,62不会引起头疼、胃不适7,83长时间喝,习惯9,104朋友喝/受朋友影响11,125妻子/丈夫喝/买13,146不知道15,16,177其他8对含义相距甚远或频数较少的答案并入“其他”项,给予编码如“8”④选定编码:在调查表的适当地方,注明每个回答的数字编码。例:为什么你喜欢喝A牌啤酒?因为它更便宜。24、资料录入资料录入是指将信息从计算机不可识别的形式转换成为计算机能够识别的形式的过程。大多数资料录入通过智能录入系统进行,智能资料录入是指经过编程的数据录入装置或与之相关的计算机对输入的信息进行逻辑检查。最常用的是SPSS系统,该系统录入后可以查错、纠错。查错的程序有两个:第一种,检查输入信息的有效性,即对资料进行幅度检查。例,某一问题,它的5个有效答案对应的数字编码为1—5,资料录入程序只允许输入人员在为这个问题所留的位置上输入编码1—5,如果输入的不是这几个编码,机器就会告知资料输入出现了问题,但如果是1—5之内的错误则无法识别。第二种,检查信息的一致性,即对资料进行逻辑检查逻辑检查主要是检查同一根问卷中,不同问题的答案是否相互矛盾。例,问卷的第四题是询问年龄,年龄的编码是这样的:1—13岁=1,14—25=2,26—40=3,第三题是询问婚姻状况,已婚=1,未婚=2。假如第四题的答案是1,那么第六题应是2,否则就错误的答案。二、市场调查资料的列表分析技术在分组的基础上对原始数据进行列表汇总的技术。根据表中所含变量数量,可分为单向列表和交叉列表。单向列表就是表中仅有一个变量,反映的是该单一变量的不同数值出现的次数;交叉列表中有两个或两个以上变量,反映的是多个变量的不同数值出现的次数。1、单向列表分析技术P193单向列表主要是频数分布表,是在对原始资料进行统计分组基础上,对各组及其频数依次排列成表格形式。包括品质分布表和变量分布表两种。用众数、中位数、百分数等统计指标进行分析。2、交叉列表分析技术就是同时将两个或两个以上变量及其对应值,按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的技术。适用范围:分析变量之间是否具有相关关系及关系密切程度时使用。例如,对城市居民的居住年限长短同对该地区百货公司熟悉程度进行研究,所考察的是居住年限与对百货公司的熟悉程度是否有关系,因此变量有两个,分别是居住年限和熟悉程度所有被调查的居民,其居住年限分为三个档次:小于13年、13-30年、30年以上,对百货公司熟悉情况分为熟悉与不熟悉两类。则使用交叉列表技术可得出下表:居住时间与对百货公司熟悉情况关系表熟悉程度居住时间行总计小于13年13-30年30年以上不熟悉熟悉455234535527134132列总计978782266假设被调查者人数为266人,通过调查所得具体数据如表中所示。自变量与因变量在表中的位置:一般把自变量横排,而因变量纵排。上例中,居住年限是自变量,而熟悉程度是因变量。(1)双变量交叉列表分析法——最基本的交叉列表分析法为了更清楚地显示双变量列表中两个变量之间的相关关系,通常把双变量交叉表中的各项绝对数转换成百分数。计算基准是以自变量为基准来计算百分数,这样能更清楚地显示两个变量之间的相关关系。如上例中居住年限与对百货公司地熟悉情况,以居住时间为自变量,对百货公司的熟悉情况为因变量。列表如下:按居住时间计算对百货公司的熟悉度居住时间熟悉度小于13年13-30年30年以上不熟悉46.4%39.1%67.1%熟悉53.6%60.9%32.9%列总计100%100%100%从表中可以得出结论:在同一地区中,那些居住时间最长的居民对购物环境反而不太熟悉。(2)三变量交叉列表分析法在许多情况下,在双变量交叉列表分析的基础上需加入第三个变量作进一步分析,因为双变量列表所传达的信息是表面的,其结论可能正确也可能是有误的,判断这种初始结论正确性的办法是引入第三个变量。可能出现四种情况。①更精确显示原有联系。例如:对时装购买情况和婚姻状态之间关系的调查研究,用双变量交叉列表技术得下表:婚姻状况与时装购买情况的关系时装购买现状婚姻状况已婚未婚多31%52%少69%48%列总计100%100%被调查者人数700300结论:未婚者比已婚者购买更多的时装我们把购买者性别作为第三个变量加入,得到下表:婚姻状况、性别与时装购买情况的关系婚姻状况时装购买状况性别男性女性婚姻状况婚姻状况已婚未婚已婚未婚多少35%65%40%60%25%75%60%40%列总计100%100%100%100%被调查者人数400120300180结论:女性未婚属于高档时装的主