ShanghaiUniversityofInternationalBusinessandEcnomics第7讲数据的编码、录入与整理ShanghaiUniversityofInternationalBusinessandEcnomics获取数据---建立数据文件数据清洗----数据转换、加工整理选择合适方法进行统计分析解释分析结果、辅助决策数据从哪来?ShanghaiUniversityofInternationalBusinessandEcnomics数据从哪里来?1.企业内部数据库2.问卷调查(网络问卷、街头问卷)3.访谈4.网络搜索5.专业的数据机构提供(如:辛迪加数据)6.文献资料7.实验ShanghaiUniversityofInternationalBusinessandEcnomics一、数据的编码概念1.原理就是把通过问卷调查获得的资料转变为SPSS能够识别的数据文件,为各种统计分析做好准备。2.数据编码概念数据编码是指把需要加工处理的数据库信息,用特定的数字来表示的一种技术。根据一定数据结构和目标的定性特征,将数据转换为代码或编码字符,在数据传输中表示数据的组成,并作为传送、接受和处理的一组规则和约定。ShanghaiUniversityofInternationalBusinessandEcnomics二、数据问卷与编码(举例)问卷量表序号调查内容选项1您的性别:(1)男(2)女2你的文化程度:(1)没上过学(2)小学(3)初中(4)高中(5)大专以上3您想选择下列哪些择偶条件(最多选三项):(1)相貌(2)文化水准(3)气质风度(4)志同道合(5)人品(6)家庭条件(7)个人收入(8)其他4您购买房屋时,会考虑哪些因素(任选):(1)离工作地点的远近(2)小孩所就读的学校(3)居家附近的环境5您对心理学感兴趣:(A)不感兴趣(B)感兴趣(C)非常感兴趣6您对学英语感到厌恶:(A)不厌恶(B)厌恶(C)非常厌恶ShanghaiUniversityofInternationalBusinessandEcnomics二、数据问卷与编码(举例)变量名编码样例第1题1-男;2-女男1第2题1-没上过学;2-小学;3-初中;4-高中;5-大专以上小学2第3题-11-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他文化水准2第3题-21-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他志同道合4第3题-31-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他人品5第4题-工作1-选;0-不选选1第4题-学校1-选;0-不选不选0第4题-环境1-选;0-不选选1第5题ABC(A-1,B-2,C-3)A1第6题ABC(A-3,B-2,C-1)A3问卷编码方案ShanghaiUniversityofInternationalBusinessandEcnomics三、编码类型1.非数值型数据的编码非数值型数据的编码,首先要确定编码规则,然后根据规则对变量赋予分值。双值型变量的编码多采用“0、1”或“1、2”来赋值;如编码示例中的第1题多值型变量的编码采用“1、2、3、…”来赋值;如编码示例中的第2题通常对非数值型数据编码,主要起到分组的作用,不能进行各种算术运算变量名编码样例第1题1-男;0-女男1第2题1-没上过学;2-小学;3-初中;4-高中;5-大专以上小学2ShanghaiUniversityofInternationalBusinessandEcnomics三、编码类型2.数值型数据的编码数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值。通常采用三点计分、四点计分和五点计分等方式进行评分如选项A、B、C计分为1、2、3如选项A、B、C、D计分为1、2、3、4编码示例中的第5、6题就是属于数值型编码第5题是正向数值型(被选项的程度越高,分值越大)第6题是反向数值型(被选项的程度越高,分值越小)变量名编码样例第5题ABC(A-1,B-2,C-3)A1第6题ABC(A-3,B-2,C-1)A3ShanghaiUniversityofInternationalBusinessandEcnomics三、编码类型3.多项选择题多项选择题就是题目答案的选项是多选项,标准定义有两种:二分法和多重分类法任意多项二分法表示每一次可以任选几个选项;编码方法把每一个被选项作为一个变量来定义,每个变量只能选择“1或0”;如编码示例中的第4题变量名编码样例第3题-11-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他文化水准2第3题-21-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他志同道合4第3题-31-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他人品5第4题-工作1-选;0-不选选1第4题-学校1-选;0-不选不选0第4题-环境1-选;0-不选选14您购买房屋时,会考虑哪些因素(任选):(1)离工作地点的远近(2)小孩所就读的学校(3)居家附近的环境ShanghaiUniversityofInternationalBusinessandEcnomics三、编码类型3.多项选择题多选项多重分类法限定了一次最多可以选择项目的个数;不能直接对题目进行编码,必须先确定最多选择,并给每个选项建立一个变量;如编码示例中的第3题变量名编码样例第3题-11-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他文化水准2第3题-21-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他志同道合4第3题-31-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭条件;7-个人收入;8-其他人品5第4题-工作1-选;0-不选选1第4题-学校1-选;0-不选不选0第4题-环境1-选;0-不选选13您想选择下列哪些择偶条件(最多选三项):(1)相貌(2)文化水准(3)气质风度(4)志同道合(5)人品(6)家庭条件(7)个人收入(8)其他ShanghaiUniversityofInternationalBusinessandEcnomics四、缺失值的处理(数据清洗)1.概念缺失值是指在数据采集与整理过程中丢失的内容,往往会给统计分析带来一些麻烦和误差。2.类型用户缺失值在问卷调查中把不回答的选项当作缺失值来处理缺失值可用研究者能识别的数字来表示如“0、9、99”系统缺失值指计算机默认的缺失方式,如输入数据空缺、输入非法字符等通常把缺失值标记为“.”ShanghaiUniversityofInternationalBusinessandEcnomics四、缺失值的处理3.缺失值处理方法替代法:采用统计命令或在相关统计功能中利用参数替代Transform→ReplaceMissingValues剔除法:剔除有缺失值的题目或剔除有缺失值的整份问卷ShanghaiUniversityofInternationalBusinessandEcnomics五、数据处理中的操作术语个案(Cases)一个研究对象就是一个个案;一个个案就是一条记录;在数据表格中表示为“一行”样本(Sample)是指具有共同属性的所有研究对象,如学生的所有信息样本包含多个个案,在数据表格中表示为“n行”变量(Variable)是指问卷中每一个问题,数据库里字段,数据表格中表示为“一列”量值(Value)是指问卷中的答案,也称为观测值,在SPSS系统里,单元格中的数值就是变量值ShanghaiUniversityofInternationalBusinessandEcnomics六、SPSS窗口与定义变量启动SPSS后进入数据编辑窗口,显示为一个空文件,输入数据前首先要定义变量。建立数据文件数据加工整理建模分析解释分析结果定义数据文件结构录入、修改、保存数据ShanghaiUniversityofInternationalBusinessandEcnomics六、SPSS窗口数据窗口输出窗口代码窗口脚本窗口ShanghaiUniversityofInternationalBusinessandEcnomics七、定义变量定义变量所包含的内容:变量名(Name):变量的名称变量类型(Type):变量的类型宽度(Width):存储变量值的最大值(1-可存储1个字节的字符,2-可存储1个汉字)小数位数(Decimals):变量为数值类型时,小数后的位数变量标签(Label):对变量名的注释。光标在变量名上时,会显示该标签变量值标签(Values):变量标签的取值缺失值(MissingValues):定义缺失的值,例如,当定义99为缺失值时,当该变量的值为99时,把它认为是缺失值显示数据的列宽(Colums):与上面“宽度”不同,它只管显示对齐方式(Align):左对齐、右对齐、居中量度类型(Measure):定比变量(Scale)、定序变量(Ordinal)、定类变量(Nominal)。只用于统计制图时坐标轴变量的区分和SPSS决策树模块的变量定义。ShanghaiUniversityofInternationalBusinessandEcnomics七、定义变量单击数据编辑窗口左下方的“VariableView”标签或双击列的题头(Var),打开变量定义窗口,进行变量定义。ShanghaiUniversityofInternationalBusinessandEcnomics七、定义变量1.定义变量名在定义变量窗口中Name下的单元格中输入变量名变量名必须以字母开头,长度不超过8个SPSS保留的关键词不能作为变量名AND、OR、NOT、WITH、TO、BY、GT、GE、LT、LE、EQ、NE、ALL等SPSS中允许使用中文变量名,但尽量不要使用,以免出现兼容性问题ShanghaiUniversityofInternationalBusinessandEcnomics七、定义变量2.定义变量类型、宽度及小数位数在Type下单击单元格,打开变量类型窗口,选择变量类型常用变量类型有:数值型(Numeric)日期型(Date)货币型(Dollar)字符型(String)在Width、Decimal下单元格,选择宽度和小数位数,系统默认为“8”和“2”;或者在变量类型窗口中设置ShanghaiUniversityofInternationalBusinessandEcnomics七、定义变量3.定义变量标签在Label下单击单元格,输入变量标签SPSS允许变量标签长度为255字节4.定义变量值标签变量值标签是对变量的每一可能取值进一步描述,当变量是定类或定序变量时,非常有用。变量值标签系统默认为None在Values下单击单元格,打开变量值标签窗口,输入变量值标签:“1”代表男,“2”代表女。选中显示值标签按钮,,可以通过下拉框录入性别。ShanghaiUniversityofInternationalBusinessandEcnomics七、定义变量5.定义缺失值在Missing下单击单元格,打开缺失值窗口,输入缺失值⊙Nomissingvalues:没有缺失值⊙Discretemissingvalues:定义1~3个单一数为缺失值⊙Rangeplusoneoptionaldiscretemissingvalues:定义指定范围为缺失值,同时指定另外一个不在这一范围的单一数为缺失值ShanghaiUniversityofInternationalBusinessandEcnomics七、定义变量6.变量定义的信息复制如果有多个变量的类型相同,可以先定义一个变量,然后把该变量定义的信息复制给新变量操作步骤:先定义