第3章变量级别的数据管理

lixunhuanc
1 ℃
2020-01-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第3章变量级别的数据管理2013.9数据管理：对数据进行加工处理。对同一个数据需进行不同侧面的研究，可采取多种统计方法，不同的统计方法对数据文件结构的要求不同，这需要对数据文件的结构进行重新调整或转换，以便适用于相应的统计方法。数据管理直接关系到数据分析的结果。数据文件的管理功能集中于：“转换”（Transform）菜单——变量级别管理“数据”（Data）菜单——文件级别管理“转换”（Transform）菜单的项目分为几类：计算新变量：“计算变量”（Compute）过程；变量转换：“重新编码”（Recode）“离散化”（VisualBander）“计数”（Count）“个案排秩”（RankCases）“自动重新编码”（AutomaticRecode）专用过程：日期/时间（Date/Time）创建时间序列（CreateTimeSeries）替换缺失值（ReplaceMissingValues）随机数字生成器（RandomNumberSeed）运行挂起的转换（RunPendingTransforms）3.1变量赋值所谓变量赋值是指在原有数据的基础上，根据用户的要求，使用SPSS算术表达式及函数，对所有记录或满足条件表达式的某些记录进行四则运算，并将结果存入一个用户指定的变量中。该变量可以是一个新变量，也可以是一个已经存在的变量。3.1.1常用基本概念1.算术表达式（NumericExpression），用于进行变量转换，是由常量、变量名、算术运算符、圆括号等组成的式子。2.函数，有70余种系统函数，分为8类，包括算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其他函数。函数名（参数）是函数具体的书写形式，系统已经规定好的；圆括号中的参数可是一个或多个（多个参数之间用单字符逗号隔开）；参数类型：常量、变量、算术表达式。3.条件表达式和逻辑表达式，是对指定部分记录进行计算和逻辑运算。如果上述三者同时出现，要先满足条件后计算。3.1.2“计算变量”过程“计算变量”（Compute）利用算术符号和函数生成新结果，结果保存到指定变量中，指定变量可以是新变量，也可以是一个已存在的变量。例3.1将年龄分为3组。又例1数据transform.sav平均成绩=（语文成绩+数学成绩+英语成绩）/3英语成绩在60分以上的学生语文和数学的平均成绩又例2调整后工资计算“个人”所得税。调整后工资额小于1200元，税为0；工资额在1200-1700之间，税为（调整后工资额-1200）×0.05；工资额在1700-3200元之间，税为（调整后工资额-1200）×0.1-25；工资额在3200-6200元之间，税为（调整后工资额-1200）×0.15-125。又例3辽宁样本家暴课题数据（部分）中，“出生年”变量计算为新变量“年龄”。3.2对已有变量值的分组合并重新编码(Recode)连续变量转换为等级变量（分类变量或离散变量）,如年龄、收入；将数值型变量转换为字符型变量,将字符型变量转换为数值型变量；将分类变量不同的变量等级进行合并，如教育程度；重新编码为相同变量（RecodeintoSameVariable）和重新编码为不同变量（RecodeintoDifferentVariable）。3.2.1对连续变量进行分组合并连续变量转换为离散变量（等级或定序变量），生成新变量值，新值可赋给原变量，可生成新变量。通过两个过程实现：“重新编码”（Recode）和“离散化分段”（VisualBander）例3.2以例3.1运用“重新编码”过程操作。又例数据transform.sav生成新变量grade。当英语成绩小于60分取值为“不及格”，60-70分为“及格”，70-80分为“良好”，大于等于80分为“优秀”。3.2.2分类变量类别的合并还以例3.1运用“重新编码”过程操作。又例数据transform.sav生成新变量grade2，将grade中的优秀、良好和及格合并为“PASS”等级，将“不及格”转化为“NOPASS”。3.3连续变量的离散化3.3.1可视离散化过程“可视离散化”（VisualBander）SPSS12.0中新增的功能；可以进行等距分组，或等样本量分组；采用图形化的操作方式。例3.2将S3年龄变量等间距分为10组。3.3.2最优离散化过程“最优离散化”过程是根据某些作为“关键指示变量”的分类变量，将原有的一个或多个连续变量按照该分类变量间差异最大化的优化原则离散化为分类变量，即可用离散化变量而非原始数据值进行后续分析。用于建模分析。当模型中的因变量为分类变量时，要对自变量进行离散化（分类化）。例3.3利用S3年龄变量对S4学历进行预测建模，要求基于此构思对S3进行最优离散化。3.4变量的自动重编码与数值移动3.4.1变量的自动重编码“重新编码”（Recode）“自动重新编码”（AutomaticRecode）例3.4S0城市的数值分别为100、200、300，自动编码为S0new又例在transform.sav数据中，将字符型变量city转化为数值型变量newcity。3.4.2变量值的移动3.5“转换”（Transform）菜单中的其他功能3.5.1指定数值的查找与计数“计数”（Count）过程：表示某个变量的取值中是否出现某个值，该值可是单个数值，可是指定区间，可给出条件，对部分数据进行操作。例3.5生成新变量S3Old，用于标识出S3≥55的个案。S2性别为“条件”3.5.2变量的编秩“个案排秩”（RankCases）编秩是对记录按照某个变量值的大小来排序。新变量代表名次举例：对按平均成绩排名，分数最高的第一名相同分数的名次处理与“对个案排序”（SortCases）的区别，“对个案排序”：升降序、多个变量排序。例3.6根据S2性别分组计算S3年龄的秩次又例在transform.sav数据中，根据性别分组计算数学成绩的秩次。

第3章 变量级别的数据管理

第3章变量级别的数据管理