数学建模基础电子商务教研室张桓森13194312736第五章调查问卷设计及处理调查问卷从啤酒和尿布的故事开始,我们发觉简单的数据中可能存在无穷的奥秘,好奇心趋势越来越多的人投身到枯燥的数据中。在瀚如烟海的数据中,不论是科学研究还是商业调查,很大一部分数据是通过调查问卷的方式来获取的。在问卷星平台上,每天都会产生上万份问卷和100多万份答卷,但大部分用户的数据分析仅仅停留在简单的频率分析上。数据中隐藏的巨大价值,还等待着被人挖掘。1统计学基础及术语解释P值:也称显著性值或Sig值,用于描述某件事情发生的概率情况,其取值范围介于0~1,不包括0或者1。在大多数情况下,如果P值小于0.01(0.05或0.1),则说明某件事情的发生概率至少有99%(95%或90%)的把握。量表:通常是指李克特量表,其用于测量样本人群对于某件事情的态度或者看法情况。量表的尺度形式有多种,常见的是五级量表,即有五个答项。样本:通俗的讲即为填写问卷的人,对于样本的数量,通常情况下为量表题项的5倍或者10倍即可(无效样本在分析问卷前需要进行删除或者筛选)。频数分析:通常会涉及样本、有效样本、频数、百分比、累计百分比、有效百分比等。描述性分析:通常会涉及平均值、标准差、中位数等术语名词。1.1数据分析1.2信度和效度分析信度分析:在于研究数据是否真实可靠,通俗地讲,即研究样本是否真实回答了问题,信度分析只能分析量表题项。科隆巴赫系数:也称信度系数、内部一致性系数、Cronbachα系数或者α系数,此值一般大于0.7即可。校正的项总计相关性,也称CITC值,此值大于0.4即说明某题项与另外的题项之间有着较高的相关性。效度分析:用于研究题项是否有效地表达研究变量或者纬度的概念信息,通俗地讲,即研究题项设计是否合理,或者题项表示某个变量是否合适。内容效度:即使用文字叙述形式对问卷的合理性、科学性进行说明。结构效度:通常使用探索性因子分析(EFA)进行验证,通过因子分析对题项进行分析,如果输出显示题项与变量对应关系基本与预期一致,则说明结构效度良好。1.如果题项的因子载荷系数值小于0.4,则应该考虑删除该题项;2.KMO值应大于0.6;3.巴特球形检验对应的P值应小于0.05;4.根据方差旋转矩阵确定提取因子数量,如果某题项与某个因子对应的因子载荷系数值较高,那么该题项应当归纳对应至该因子。1.3变量关系研究相关分析:一种最基本的关系研究方法,其目的在于分析两个变量之间的相关关系,包括两者是否存在相关关系,以及相关关系的紧密程度。Pearson和Spearman相关系数:描述先关关系程度,通常绝对值大于0.7说明两个变量之间表现出非常强的相关关系;当绝对值大于0.4时,说明相关关系强;当绝对值小于0.2时,说明相关关系较弱。线性回归分析:研究X对于Y的影响关系分析方法,其中X被称为自变量,Y被称为因变量。R2或调整R2:代表X对于Y的解释力度,取值范围为0~1,该值越大越好。F值:用于检验所有自变量X中至少有一个会对因变量Y产生影响的关系,若F值对应的P值小于0.05,则说明所有自变量X中至少有一个会对因变量Y产生影响关系。Logistic回归分析:研究影响关系,即X对于Y的影响情况,此处涉及的Y是分类变量。Hosmer和Lemeshow检验、Cox&SnellR2和NagelkerkeR2、对数比等指标。对应P值需要大于0.05,即说明预期拟合情况与实际拟合情况一致。2问卷设计说明及注意事项量表题项需要有文献参考依据:也研究人员应该参考前人的文献量表设计,或者在前人设计的文献量表上进行适当的修改。量表题项数量:最好每个变量对应4~7个题项,不能太少也不能过多。量表题项设计要规范统一:同一个变量的题项不能混合使用多级量表,否则会导致数据处理不准确。量变反向题:若变量题项中有正向态度和反响态度题项时,就涉及反向题,应尽量不实用反向题。排序或打分题:直接让样本回答排序情况;使用五级量表或七级量表;使用打分题。计算每个选项平均得分情况,通过平均得分进行排序分析。2.1量表题项设计其他:若量表中填写需要一定条件,需要设置删选跳转题项。量表类问卷的设计框架从结构上可以分为6个部分,分别是筛选题项、样本背景信息题项、样本特征信息题项、样本基本态度题项、核心研究变量题项和其它题项。筛选题项:如果对样本特征有特殊要求,则需要将此类样本筛选题项设置在问卷前面。2.2问卷设计框架样本背景信息题项:加入样本背景题项,比如性别、年龄等。通常进行频率统计。样本特征信息题项:此类问题多为非量表类题目,可用于深入了解样本特征情况,通常是计算频率直观展示各选项选择情况。样本基本态度题项:此类问题基本为非量表类题目,了解样本的基本态度。核心变量题项:此类部分为问卷研究的核心内容,题项数量最多,通常情况下均为量表类题项。适用于各类统计方法(信效度分析、相关分析、回归分析、因子分析)。量表核心变量题项设计注意事项说明需要有变量参考依据题项是否有参考量表变量对应题项合理性每个变量对应题项数量是否合适因变量Y对应题项如果研究影响关系,那么是否有因变量Y对应题项反向题反向题是否需要,以及是否可以反向处理案例1:“90后”员工离职倾向调查问卷本案例研究相关因素对于“90后”员工离职倾向的影响情况,相关因素共分为6个,分别是薪酬福利、人际关系、工作本身、价值观、成就发展和企业文化。此问卷包含样本背景信息题项、样本特征题项、样本基本态度题项和核心题项。框架内容题项题项内容筛选题项Q1请问您是90后吗(如果不是,则结束回答)样本背景信息题项Q2性别Q3年龄Q4婚姻状况Q5学历样本特征信息题项Q6从毕业开始,累计工作年限为Q7当前公司工作年限为Q8您是独生子女吗Q9您曾有几次主动离职经历Q10你现在的职位Q11你现在所在单位的性质样本基本态度题项Q12如果离职,原因是什么(多选)Q13您对当前公司不满意的地方有那些(多选)框架内容题项题项内容核心变量题项薪酬福利Q14我认为我现在获得的报酬与付出的代价基本相符Q15单位的工资福利和其它单位相比更有吸引力Q16我认为我获得的报酬与付出的代价和同事相比基本公平Q17我对所获得的报酬感到满意人际关系Q18当我遇到困难时,能够得到同事或领导的关心Q19公司员工之间凝聚力强、合作融洽Q20我与上司关系和睦Q21在公司我有很好的归属感Q22公司内部的人际关系良好Q23我与同事关系融洽工作本身Q24现在的工作内容丰富Q25我现在的工作任务很有挑战性Q26我现在的公司有吸引力的一点是它提供弹性工作时间Q27现在的工作环境、条件比较差备注:Q27为反向题,样本对此题项打分越高,样本人群就会对工作本身这个变量表现出越不认可的态度。框架内容题项题项内容核心变量题项价值观Q28如果现在的领导不太有能力,我会不大服从他的指令甚至跳槽Q29在工作中体现我的自我价值,对我来说非常重要Q30在工作中能充分表达我的想法和意见,对我来说很重要Q31如果工作中不能充分表达我的意见,我会感觉郁闷Q32对我来说,好的工作最主要是自己喜欢,而不是别人的意见成就发展Q33公司提供了明晰的晋升机会和发展空间Q34公司效益、发展前景良好Q35在现在的岗位上,可以实现我的理想Q36我现在从事的工作有良好的前景企业文化Q37公司具有良好的企业文化Q38公司的领导和管理者能够信守诺言Q39公司的领导者和管理者具有独特的管理风格和管理方法Q40公司有明确的价值观来知道我们日常的工作Q41公司有明确的道德准则知道我们的行为,使我们明辨是非离职意愿Q42现在还没有找到合适的工作,一旦找到就立刻辞职Q43如果现在辞职,经济上的损失不能承受Q44我常常想到辞去我目前的工作Q45我在明年可能会离开公司另谋他就Q46假如我继续待在本单位,我得前景不会好备注:Q14~Q46属于核心变量题项,全部为量表题项(1表示非常不同意,2表示比较不同意,3表示中立,4表示比较同意,5表示非常同意)可以利用信度分析研究6个影响因素和离异意愿变量的信度情况,用相关分析研究6个因素分别与离职意愿的影响关系,还可以使用方差分析或t检验,对比不同样本背景特征人群对6个因素和离职意愿的态度差异。案例2:大学生理财情况调查问卷本案例研究大学生理财现状及理财态度情况,只有在校大学生才能回答后续问题。框架内容题项题项内容筛选题项Q1是否为在校大学生样本背景信息题项Q2性别Q3年龄Q4专业Q5月生活费有多少样本特征信息题项Q6您每月的支出有计划么Q7您对理财方面的知识了解多少Q8您平时会关注一些理财方面的信息吗样本基本现状题项Q9您是否使用过理财产品(跳转题,寻则否跳到Q12)Q10您选择过哪种投资理财产品(多选)Q11您使用过哪种互联网理财产品样本基本态度题项Q12您心目中合理的理财状态和结构是Q13您对当前公司不满意的地方有那些(多选)Q14您认为对大学生有必要制定投资理财规划吗Q15影响您进行投资理财最大额因素是Q16您最希望通过哪种途径了解理财知识Q17您对理财产品的了解程度是Q18您认为导致自己没有购买投资理财产品的主要因素是Q19您未来是否愿意或者继续购买理财产品对各部分题项进行频数统计后可以进行交叉分析,例如研究有购买经历和没有购买经历的样本人群在基本态度上是否有差异性。频数分析用于各个题项的选择情况统计,卡方分析用于研究交叉关系,二元Logistic回归分析研究样本基本信息或态度题项与样本购买经历或购买意愿之间的影响关系,找出影响因素并且提供相关建议措施。3量表类问卷影响关系研究1.样本背景分析:包括性别、年龄、学历、收入等。目的在于对样本基本情况有一定的了解;2.样本特征、行为分析:通过计算频数、百分比或平均值进一步了解样本人群的特征行为或基本态度情况;3.指标归类分析:使用探索性因子分析,使用软件自动找到题项与因子的对应关系,以得到更为严谨的科学的言论;4.信度分析:通过信度分析证明研究样本数据是真实可信的。信度高但效度不一定高,而信度低时效度一定低;5.效度分析:通过探索性因子分析(EFA)或验证性因子分析(CFA)对题项进行效度分析;6.研究变量描述分析:计算研究变量或者具体题项的平均值,了解样本对各个研究变量的基恩态度,进行详细描述分析;7.变量相关性分析:了解变量间的基本关系情况、是否有相关关系,以及相关关系的紧密程度;8.研究假设验证分析:提出假设并进行假设验证;9.差异分析:通过方差分析、t检验或卡方检验研究不同样本群体行为或态度的差异情况。3.1分析思路量表类问卷分析可以从以下9个部分进行:3.2分析方法具体分析思路框架与分析方法对应关系图:量表类问卷影响关系研究思路1.样本背景分析2.样本特征、行为分析3.指标归类分析4.信度分析5.效度分析6.研究变量描述分析7.变量相关关系分析8.研究假设验证分析9.差异分析频数分析描述性分析频数分析描述性分析探索性因子分析信度分析探索性因子分析描述性分析频数分析相关分析回归分析方差分析、t检验、卡方检验将研究题项进行分类并浓缩成少数因子α系数,即内部一致性系数,0.6以下需要修改量表内容效度:专家判断和问卷前测;结构效度:探索性和验证性因子分析Pearson系数,正态性,0.6强正相关、0.4较强正相关Spearman系数,非正态性线性回归、Logistic回归;F检验P值小于0.05;R2越大越好;t检验小于0.05且大于0.01;DW值越接近于2越好。方差分析:单因素和多因素分析;t检验:独立样本t检验、配对样本t检验和单样本t检验;卡方检验:分类变量间差异关系。3.3分析实例本案例为研究某在线英语学习网站上各种因素对课程购买意愿的影响情况,初步拟定是研究产品、促销、渠道推广、价格、个性化服务和隐私保护这6个因素对消费者购买意愿的影响情况。(数据:5-1.sav)1.样本背景信息统计(频数分析)分析描述统计频率将“性别、年龄、月收入、职业”放入变量窗口。2.样本基本特征情况描述(描述性分析)分析