数据分析与挖掘DataAnalysis&Mining顾客满意度调查问卷分析刘强2020/4/24信息技术教学中心1学习要点•分析方法:频数表、均数、多选题描述•分析过程–转换:计算变量、重新编码–多重响应:定义变量集、频率数据–描述统计:频率和描述2020/4/24信息技术教学中心2案例背景某连锁零售店为了提高各分店的服务质量,面向全国开展了客户满意度检测项目,对所有门店进行,定期用电话随机抽样方式,对近期有过门店购物行为的会员进行回访,就其购物行为的满意度进行调研。2020/4/24信息技术教学中心3案例背景2020/4/24信息技术教学中心4案例背景作为定期的检测项目,研究者每周期需要向客户提交一些固定的报表,包括–受访者的性别、年龄分布–Q1推荐题目的频数分布和均值–受访者的购物频次分布和均值–受访者使用的交通工具当然,在实际的项目中,研究者还需要提供不同地区门店的数据比较,以及和上一周期相比较的数据报表2020/4/24信息技术教学中心5数据文件读入与变量整理数据文件读入(请参照以前所讲,将案例数据读入到SPSS,并弄懂各变量的数据类型和含义)案例数据请下载:顾客满意度.sav2020/4/24信息技术教学中心6数据理解Gender变量:与S3问题对应,记录顾客的性别,请注意值标签的定义,1代表男性,0代表女性,度量标准为序号Age变量:与问题S2对应,请问您的年龄,注意值标签,与调查表一致,表示在录入数据的时候,在18-39岁之间录入为2,在40-60岁之间录入为3,依次类推Q1变量:与问题Q1对应,请注意值标签定义Q9变量:与问题Q9对应,此处演示了如何对单选题录入,请注意值标签定义Q10_x变量:与问题Q10对应,此处展示了多选题的定义和录入,因为最多选三项,因此可以定义三个变量,为Q10_1,Q10_2,Q10_32020/4/24信息技术教学中心7数据准备对年龄进行数值重新编码为得到年龄的平均值,我们采用年龄段首尾数字的平均值来表示,比如18—39岁,其平均值为(18+39)/2=28.5,40—60岁,其平均值为(40+60)/2=50通过“计算变量”过程来完成数据的转换,以及生成新的变量2020/4/24信息技术教学中心8数据转换-计算数据(变量重编码)2020/4/24信息技术教学中心9输入s2n,表示将产生新的名称为s2n的变量。对所有个案都会影响输入28.5,表示所有变量名为s2n的值都为28.5输入完毕后,点击确定回到数据视图,观察结果变量重编码为特定个案添加变量值(设置40-60岁的均值为50)重新进入计算变量,选择如果…2020/4/24信息技术教学中心10可选择s2变量选中输入age=3,请思考age=3表示的是什么个案输入完毕后,点击继续,确定回到数据视图,观察结果变量重编码-购物频次(单选题)在分析结果中需要提交购物频次和平均值,但是购物频次是分段选项,计算平均值必须进行转换,将各选项转换为相应的组平均值。操作:转换-重新编码为不同变量2020/4/24信息技术教学中心11变量重编码-购物频次(单选题)2020/4/24信息技术教学中心12选中Q9单击,表示要将Q9编码为不同变量输入Q9n,表示要将Q9与Q9n对应点击更改将会出现对应变量点击旧值和新值,以建立新值和旧值的对应关系2020/4/24信息技术教学中心13变量重编码-购物频次(单选题)输入旧值,请注意,该变量的取值为1,2,3,4,5,6,分别对应不同的次数,所以旧值要分别输入分别输入该组对应次数的平均值每输入一组对应值,点击添加输入完毕,继续输入完毕后,点击继续,确定回到数据视图,观察结果多选题变量集设定本案例中的Q10为多选题,且采用了比较特殊的记录方式:因为最多选三项,就用了3个多分类变量来记录同一道题目,这种记录方式称为多重分类法,也是多选题的标准数据格式之一,之所以称为多重分类法,是因为每个变量都是多分类的,每个变量的值代表了受访者的一次选择扩展阅读:多选题(多重应答题目)的标准格式也可以用采用称为二分法的方式来记录,就是将多选题拆分成多个变量来录入,每个变量代表一个选项,每个选项具有两个可能值(是或否,存在或不存在,选中或未选中),于是拆出来的每个变量相当于一个单选题来录入,显然,拆出的每个变量在赋值时应该保持完全一致本案例采用的多重分类法来记录受访者的选项2020/4/24信息技术教学中心14多选题变量集设定在进行多选题录入时,只需要将相应的变量设定好即可进行操作,但是录入完毕,SPSS只会默认他们是若干个分散的变量,并不明白他们代表的是一道多选题,只有将其设定为多选题变量集(也称多重响应集)之后,SPSS才能正确识别,从而将多选题的全部变量当做一道题目进行分析下面以多重响应集菜单中的相应过程为例来看如何进行多选题变量集的定义。2020/4/24信息技术教学中心15多选题变量集设定分析——多重响应——定义变量集2020/4/24信息技术教学中心16将Q10的三个变量选中,表示要将这三个变量作为多选题的答案。技巧:按住shift键,可以多选点击选择类别,表示用多重分类法对多选题进行编码,而不是二分法编码因为选项为1-13,所以范围为1到13定义多选题变量名称,并添加标签2020/4/24信息技术教学中心17多选题变量集设定前面各步骤设置好后,点击添加,相应的多选题变量设定就会加入最右侧的“多重响应集”列表了检查无误后,关闭回到数据视图和变量视图,发现并没有变化但是SPSS已经保存了多重响应集(多选题变量)对数据准备过程的说明要对数据进行设置,需了解常见题目变量的表示方式,理解每个变量表示的实际含义还需要具备基本的统计知识,了解某些数据所代表的基本含义需要熟练掌握变量重编码,这会从源变量中产生新的变量,代表了新的含义,方便后期做统计分析,重编码过程除了用数字表达式之外,还可以用函数表达式来进行转换数据准备过程是分析和挖掘的重要步骤,往往占据了实际项目70%甚至更多时间,而得出分析或挖掘结果,都由计算机自动运行,占用的时间少,所以花再多的时间在数据准备上都是值得的2020/4/24信息技术教学中心18开始数据分析根据客户的需求,需要完成受访者性别和年龄分布,Q1推荐题目的频数分布和均值,受访者的购物频次分布和均值(详见前面PPT),同时还需要提交受访者使用的交通工具报表报表的生成,来源于客户的需求,所以需求定义不同,需要生成的报表也不同。本案例也是按需求来生成报表的。2020/4/24信息技术教学中心19开始数据分析-生成频数表2020/4/24信息技术教学中心20请自行点击各按钮,进入了解其功能和设置,设置好后点击确定,将在结果浏览器内显示报表,将报表导出到文档内开始数据分析-计算均值2020/4/24信息技术教学中心21回顾:S2n是经重新编码后的年龄,Q9n是经重新编码后的购物频次,请仔细体会变量重编码的作用,将分析结果导出到文档内,以供检查开始数据分析-多选题分析在前面的数据准备过程中,已经将多选题Q10设定完毕,但是在后续的分析中,如果希望进行正确的分析,必须使用专门针对多选题的分析过程来完成。选择分析—多重响应—频率菜单,将分析结果导出文档,以供检查2020/4/24信息技术教学中心22这是对缺失值的处理方式,分别对应二分法和多重分类法两种多选题编码方式,要注意正确选择,不要交错使用,本案例没有缺失值处理,所以可以不选项目案例总结通过一个真实的案例,演示了如何在SPSS种进行变量变换(重编码),如何设定多选题变量集,根据需求输出所需要的结果,可以清楚的了解到一个统计分析项目的主要流程但是在实际工作中,并非每一个项目都有现成的数据,分析师可能需要从头建立数据文件并录入数据,此外分析中所使用的数据整理和分析功能也更复杂,比如多个数据文件的合并、复杂的指标要求等等,我们将在后面逐步学习2020/4/24信息技术教学中心23