数据分析与挖掘DataAnalysis&Mining中国消费者信心指数影响因素分析2019/10/19信息技术教学中心1学习要点•分析方法:-方差分析模型,多元方差分析模型,最优尺度回归,多水平模型•分析过程–统计图:直方图图组、线图、条图、散点图–一般线性模型:单变量、多变量–混合模型:线性–描述统计:序列图–回归:最佳尺度(CATREG)2019/10/19信息技术教学中心2案例背景消费者信心是指消费者根据国家或地区的经济发展形势,对就业、收入、物价、利率等问题综合判断后得出的一种看法和预期,消费者信心指数则是对消费者整体所表现出来的信心程度及其变动的一种测度。它是20世纪40年代后期提出,60余年的历史证明了这一指标体系在预测未来宏观经济走向方面具有不可替代的价值,目前已成为各市场经济国家非常重要的经济风向标之一。2019/10/19信息技术教学中心3项目问卷S0受访者所在城市:100.北京200.上海300.广州S1请问您贵姓是?_______S2记录被访者性别:1.男性2.女性S3请问您的实际年龄是?_____S4请问您的学历是?1.初中/技校或以下2.高中/中专3.大专4.本科5.硕士或以上2019/10/19信息技术教学中心4项目问卷S5请问你的职业是?1、企事业管理人员2、工人/体力工作者(蓝领)3、公司普通职业(白领)4、国家公务员5、个体经营者/私营业主6、教师7、学生8、专业人士(医生、律师等)9、无/待/失业、家庭主妇10、退休11、其他职业S7请问你的婚姻状况是?1.已婚2.未婚3.离异/分居/丧偶S9请问您的家庭月收入(包括工资、奖金和各种外快收入)大约在什么范围?1.999元或以下2.1000~1499元3.1500~1999元4.2000~2999元2019/10/19信息技术教学中心5项目问卷5.3000~3999元6.4000~4999元7.5000~5999元8.6000~79999、8000~9999元10、1000~14999元11、15000~19999元12、20000~29999元13、30000以上98、无收入99、拒答C0请问您的家庭目前有下列还贷支出吗?C0_1房贷1.有2.无99.拒答C0_2车贷1.有2.无99.拒答C0_3其他一般消费还贷1.有2.无99.拒答O1请问您有家用轿车吗?1、有2、没有A3请问与1年前相比,您的家庭现在的经济状况怎么样?1、明显好转2、略有好转3、基本不变4、略有变差5、明显变差9、说不清/拒答2019/10/19信息技术教学中心6项目问卷2019/10/19信息技术教学中心7A3a为什么您这样说呢?(最多选两项)0中性原因90不知道/拒答10改善:收入相关110、恶化:收入相关20改善:就业情况相关120恶化:就业情况相关30、改善:投资相关130、恶化:投资相关40、改善:家庭开支相关140、恶化:家庭开支相关50、改善:政策/宏观经济150、恶化:政策/宏观经济相关A4与现在相比,您觉得1年以后您的家庭经济状况将会如何变化?1、明显好转2、略有好转3、基本不变4、略有变差5、明显变差9、说不清/拒答A8与现在相比,您认为1年后本地区的经济发展状况将会项目问卷如何变化?1、非常好2、比较好3、保持现状4、比较差5、非常差9、说不清/拒答A9您认为1年之后本地区的就业状况将会如何变化?1、明显改善2、略有改善3、保持现状4、略有变差5、明显变差9、说不清/拒答A10与现在相比,您认为5年后,本地区的经济将会出现怎样的变化?1、明显繁荣2、略有改善3、保持现状4、略有衰退5、明显衰退9、说不清/拒答2019/10/19信息技术教学中心8项目问卷A16对于大宗耐用消费品的购买,比如家用电器、电脑,以及高档家具之类,您认为当前是购买的好时机吗?1、很好的时机2、较好时机3、很难说,看具体情况而定4、较差时机5、很差的时机9、不知道/拒答2019/10/19信息技术教学中心9信心指数的计算方法问卷中的大多数主干题目均为五级得分,都需要转换为相应的题目得分,以反映消费者的乐观或悲观态度,具体方式为针对每一道题目,计算每个选项被选中的百分比,随后使用以下公式计算其相对得分:题目得分=100%+1.0*VF%+0.5*F%-0.5*U%-1.0*VU%这一数值反映的是答案偏向乐观的人群和偏向悲观人群的比例之差,当人群中两者比例基本平衡时,得分接近于100;如果乐观人群比例偏高,则得分大于100;反之则小于100.总消费者信心指数的计算是基于下面五道问题的回答进行的:A3、A4、A8、A10、A162019/10/19信息技术教学中心10信心指数的计算方法首先计算出上述5道题的题目得分,将其直接相加,再除以“基线”调查时的这一数值,即为当期的信心指数值。因此,计算出来的指数代表当期数值相对于“基线”调查数值的变动比例。如果乐观人群的比例高于基线,则指数大于100;反之则小于100.目前作为基线水平的是2007年4月的数值。2019/10/19信息技术教学中心11研究目的总目标:不同人口特征及背景资料的受访者(家庭)在消费者信心上具有怎样的差异,或者说不同人群之间是否存在信心指数的差异。分目标:1、上述指标对信心指数的作用是否存在地域差异2、上述指标对信心指数的作用是否细分至5个分项指标,即进一步考察其内部的详细作用方式北京、上海、广州在2007年4月、12月、2008年12月和2009年12月的样本。2019/10/19信息技术教学中心12分析思路首先拟合标准的方差分析模型,进行候选影响因素的筛选。利用最优尺度回归方法,对影响因素的作用做进一步的确认,并考虑各因素的内在作用方式尝试按照多水平模型框架,分析各影响因素是否存在深层次的变异构成拟合多因素变量的方差分析模型,进一步探索影响因素对各分项指标的作用方式。2019/10/19信息技术教学中心13数据理解考察时间、地域对信心指数的影响首先看总信心指数分布状况是否基本遵循正态分布,但是在多次使用了直方图工具后,希望这次能够走得更远点:直接在直方图中考察城市之间的信心指数水平是否存在差异,具体操作如下:1.选择“图形”——“图表构建程序”菜单命令。2.从图库中选择直方图组,将右侧出现的简单直方图图标拖入画布3.在变量列表中知道index1,将其拖入画布的横轴框中。4.在元素属性对话框中“显示正态曲线”复选框,注意随后一定要单击下方的“应用”按钮,否则相应的操作不会生效2019/10/19信息技术教学中心14城市对信心指数的影响5.切换至组/点ID选项卡:选中“行嵌板变量”复选框6.将S0城市选入画布上新增的嵌板框中。7.单击“选项”按钮,在选项对话框中确认未选中下方的“换行嵌板”复选框8.确定2019/10/19信息技术教学中心15时间对信心指数的影响1.选择“图形”——“图表构建程序”菜单命令。2.从图库中选择线图组,将右侧出现的多重线图图标拖入画布3.将月份time拖入横轴框中4.将总指数index1拖入纵轴框中。5.将城市S0拖入分组(设置颜色)框中,然后再双击该框,在弹出的“分组区域”子对话框中将分组依据由“颜色”改为“图案”。6.单击“确定”按钮绘制出图形,然后双击图形进入编辑状态,将均值连续轴刻度范围修改为85~105,小数位数更改为0,拖放调整图例位置和绘图区大小至合适比例。2019/10/19信息技术教学中心162019/10/19信息技术教学中心17考察性别、职业、婚姻状况等对信心指数的影响1.选择“图形”——“图表构建程序”菜单命令。2.从图库中选择条图组,将右侧出现的简单条图图标拖入画布3.将职业S5拖入横轴框中4.将index1拖入纵轴框中5.确定6.双击图形进入编辑状态,选中类别分类轴,在属性对话框的“类别”选项卡中,“排序依据”改为“统计”,“方向”改为“降序”单击“应用”按钮。2019/10/19信息技术教学中心18职业影响2019/10/19信息技术教学中心19性别影响2019/10/19信息技术教学中心20学历影响2019/10/19信息技术教学中心21婚姻状况2019/10/19信息技术教学中心22收入的影响2019/10/19信息技术教学中心23年龄的影响1.选择“图形”——“图表构建程序”菜单命令。2.将简单散点图图标拖入画布3.将年龄S3拖入横轴框中4.将index1拖入纵轴框中5.确定6.双击进入图形编辑状态,依次单击“元素”——“总计拟合线”7.在“拟合线”选项卡中,将拟合方法更改为loess,单击“应用”按钮8.关闭图形并退出。2019/10/19信息技术教学中心242019/10/19信息技术教学中心25标准GLM框架下的建模分析建立总模型1.依次单击“分析”——“一般线性模型”——“单变量”2.将总指数Index1选入“因变量”框3.将月份time、城市S0、性别S2、学历S4、职业S5、婚姻状况S7及家庭收入S9选入“固定因子”列表框4.将年龄S3选入“协变量”框5.进入“模型”子对话框,将各因素的主效应选入“模型”框6.进入“保存”子对话框,选择保存“未标准化预测值”和“标准化残差”。7.进入“选项”子对话框,选择“缺乏拟合优度检验”2019/10/19信息技术教学中心268.确定9.选择“图形”——“图表构建程序”菜单命令10.将简单散点图图标拖入画布11.将未标准化预测值拖入X轴框,标准化残差拖入Y轴框12.确定13.双击进入图形编辑状态,在图形中添加Y=0的横线。2019/10/19信息技术教学中心272019/10/19信息技术教学中心282019/10/19信息技术教学中心29两两比较下面进一步考虑同一因子各水平之间两两比较的问题,由于模型中引入了协变量年龄,因此不能直接用两两比较子对话框中的相应方法,需要采用选项中估计边际均数的功能来完成,操作如下:1.进入“选项”子对话框2.将time、s0、S4等需要计算边际均数的因子全部选入右侧的“显示均值”列表框中3.选中下方的“比较主效应”复选框4.置信区间调节选择“bonferroni”5.继续。2019/10/19信息技术教学中心30多元方差分析模型的结果拟合多元方差分析模型1.依次单击“分析”——“一般线性模型”——“多变量”2.将QA3、QA4、QA8、QA10和QA16选入“因变量”框3.将月份time、城市S0、职业S5、婚姻状况S7及家庭收入S9选入“固定因子”列表框4.将年龄S3选入“协变量”框5.进入“模型”子对话框,将各因素的主效应选入“模型”框6.进入“选项”子对话框,选择“缺乏拟合优度检验”7.确定2019/10/19信息技术教学中心31最优尺度回归问题1.家庭收入等变量目前按照无序分类被引入模型,如果考虑有序的特征,又该如何对模型进行改善?2.同样是家庭收入这个变量,数据中约有10%为缺失值,这些案例在方差分析模型中被直接删除了,如果将其加入模型,会有怎样的结果?3.年龄S3目前是以协变量的方式纳入模型,意味着它和因变量之间的作用方式只能是线性的,虽然在散点图中这一趋势得到了确认,但又没有更加灵活的方式,可以判断是否无存在其他关联趋势的可能。2019/10/19信息技术教学中心32最优尺度回归的本质首先对原始变量进行变换,将各变量转换为适当的量化评分,然后使用量化评分代替原变量进行回归分析。2019/10/19信息技术教学中心33利用最优尺度回归进行分析依次单击“回归”——“最佳尺度(CATREG)”“因变量”框:选入index1,在“定义度量”框中将测量尺度修改为“数字”将月份time、城市S0、性别S2、年龄S3、学历S4、职业S5、婚姻状况S7以及家庭月收入S9选入“自变量”列表框,在“定义度量”框中将测量尺度全部修改为“名义”“离散化”按钮:选择所有变量,将其离散化方法改为“秩”“缺失”按钮:选择所有变量,将其缺失值方案改为“为缺失值规因(附加类别)”“绘制”按钮:选择绘制所有变量的转换图。确定2019/