第三讲数据的基本加工和处理SPSS数据的基本加工和处理数据文件的整理◆个案排序、个案选取、文件合并、文件转置数据加工◆计算变量、产生计数变量、分类汇总、文件拆分数据分组◆手工分组、自动分组、可视化分组数据文件的其它处理功能◆指定加权变量、缺失值的替代数据文件的整理个案排序(Sort)◆将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列◆快速查找异常值和极端值◆类似于Excel排序数据文件的整理个案排序(Sort)◆执行菜单命令:[Data][Sortcases]●指定排序关键字变量,用按钮选择到:“Sortby”中,可以是一个,也可以是若干个。即所谓的第一关键字、第二关键字、第三关键字…。●例如:按照顺序选择:语文、数学、外语。则首先按照语文成绩进行排序,对于语文成绩相同的个案将按照数学排序,对于语文、数学成绩都相同的个案将按照外语进行排序。●“SortOrder”将指定排序方式是用升序还是降序。●“OK”执行。数据文件的整理数据文件的整理数据文件的整理数据文件的整理数据文件的整理个案选取(SelectCases)◆对于全部个案按照某种方式选择部分个案进行统计分析。选择方式有:条件选择、随机选择、范围选择和运用过滤器变量。◆执行菜单命令:[Data][Selectcases]选择抽样方式:数据文件的整理个案选取(SelectCases)●Allcases全部个案,即不抽样,全部个案都参与统计分析。●Ifconditionissatisfied条件选择。即建立一定的条件表达式,对于满足表达式的个案将被选定。●Randomsampleofcases给定一个百分比,随机选定个案,或者从全部个案中选择若干个个案。数据文件的整理个案选取(SelectCases)●Baseontimeorcasesrange给定起始个案号和终止个案号。在该取值范围内的全部个案将是被选定的。●UsefilterVariable如果将某变量定义为过滤器变量,则抽样将按照该变量的值进行,这个变量值为“0”的个案将不被选定,而值不为“0”的个案将被选定。◆“OK”执行。Transform.sav选择计算Transform.sav选择计算Transform.sav选择计算数据文件的整理文件合并(MergeFiles)◆将两个数据文件按照文件中共同的变量名做纵向合并,或按照某变量的取值作为索引进行横向合并。●纵向合并是将外部某指定文件追加到当前文件的后面。参与纵向合并的两个文件必须有共同的变量名。●横向合并是将外部某指定文件合并到当前文件的右边。参与横向合并后的两个文件必须有共同的索引个案。例如:学号“ID”或姓名“Name”等。数据文件的整理文件合并(MergeFiles)◆纵向合并●首先需要打开一个文件作为当前文件。执行菜单命令:[Data][Mergefiles][Addcases]回答外部数据文件名,单击“打开”按钮。●在变量匹配窗口有两个列表框。如果两个文件具有全部共同的变量,则合并后的新文件中将可以具有全部共同的变量,在列表框“VariablesinNewWorkingDataFile”中将显示出来。数据文件的整理文件合并(MergeFiles)●两个文件有不匹配的变量,在列表框“UnpairedVariables”中将显示出不匹配变量名。只在当前工作文件独有的变量,后面将有(*)号。只在外部工作文件独有的变量,后面将有(+)号。●指定匹配。当两个文件中具有不同变量名,但数据内容是相同的时,可以采取指定匹配的方式。在[UnparedVariables]列表框中分别单击选择需配对的两个变量,按“Pair”按钮,该两个指定的变量将移入“VariablesinNewWorkingDatafile”列表框。数据文件的整理文件合并(MergeFiles)●更名匹配可以在“UnpairedVariables”列表框中选择变量,按“Rename”按钮,回答新的变量名。重命名后可以进行匹配操作。●强制移入在“UnparedVariables”列表框中选择变量,按按钮强行移入“VariablesinNewWorkingDatafile”列表框,可以将不能匹配的变量强行移入。由于不匹配,合成文件将出现缺失值。数据文件的整理文件合并(MergeFiles)●在合成文件中剔除某些变量在“VariablesinNewWorkingDatafile”列表框中选择剔除变量,按向左箭头,将该变量将被剔除。●生成个案来源变量选择“Indicatecasesourceasvariable”选项,将生成一个新变量:“0”表示此个案来自当前工作文件,“1”表示此个案来自外部文件。●应当强调的是:相配对的两个变量必须有相同的变量类型,宽度可以不相同,但当前变量宽度应大于外部变量宽度,否则会丢失数据的位数。数据的合并纵向数据的合并纵向数据的合并纵向数据文件的整理文件合并(MergeFiles)◆横向合并●首先需要打开一个文件作为当前文件。当两个数据文件的个案数不相等或顺序不一致时,应当对两个文件的个案进行相同的排序。●如果以一个或多个变量为标准对个案进行匹配,两个文件需要按照这个关键变量的升序对个案进行排列。数据文件的整理文件合并(MergeFiles)●执行菜单命令:[Data][Mergefiles][Addvariables],回答外部数据文件名,单击“打开”按钮。在横向合并变量选择窗口“AddVariables”中有两个列表框:“ExcludeVariables”为不能进入新工作文件中的变量。“NewWorkingDatafile”能够进入新工作文件中的变量。数据文件的整理文件合并(MergeFiles)●选择一个关键变量“keyvariables”在两个文件中都有的同名变量,只有这个变量可以作为关键变量。例如:学号“ID”或姓名“Name”等。●当两个数据文件中的个案数量不相等或顺序不一致时,应当选择“MatchCasesonkeyvariablesinsortedfile”,以确定是以哪一个文件的关键变量为标准对个案进行排列。数据文件的整理文件合并(MergeFiles)●一般情况下:如果两个合并文件的ID不能一一对应,则将要考虑以哪一个文件的ID为准了。若以当前工作文件的关键变量为准,则外部文件不在索引范围的个案将丢失。反之,若以外部文件的关键变量为准,则当前工作文件不在索引范围的个案将丢失。如果选择两个文件的全部个案按照关键变量排序,两个文件的个案都将进入新文件,但合并后没有数值的相应位置将按系统缺失值处理。数据文件的整理文件合并(MergeFiles)①“Bothfilesprovidecases”:两个文件的全部个案按照索引变量的关键字升序排列。无值处按系统缺失值处理。②“Externalfileiskeyedtable”:外部数据文件的个案按照当前文件索引变量的关键字升序排列。外部文件中若无相应值,将按系统缺失值处理。③“WorkingDatafileiskeyedtable”:当前工作文件的个案按照外部数据文件的索引变量的关键字升序排列。当前文件中若无相应值,将按系统缺失值处理。●生成标志变量“Indicatecasesourceasvariable”。对数据文件的整理横向合并,也就是变量值的合并。可以将两个或两个以上的具有相同个案的数据文件连在一起。数据文件的整理文件转置(Transpose)◆将数据文件的行列互换。执行转置后形成的新数据文件中的第一列为一个新变量名“case_lbl”,用来存放原来的变量名。◆将个案转换为变量,变量转换为个案◆如果想在新数据文件中指定新变量名,可以先定义一个变量,其变量值在转置后将是新变量的名称。数据文件的整理文件转置(Transpose)●执行菜单命令:[Data][Transpose]在源变量列表中选择转置变量,用按钮选择到Variable(s)中。在“NewVariable”中可以指定某一个原来的变量,将其值作为新变量名。①若该变量的值为没有重复值的字符串,则新变量名将取该值。②若该变量的值为有重复值的字符串,则新变量名将在重复值后添加数字序号。③若该变量的值为数值型,则新变量名将在该值前面添加字符K。同样,在重复值后将添加序号以示区别。数据文件的整理数据文件的整理数据文件的整理数据文件的整理数据的加工变量计算(Compute)◆产生新变量或对原变量进行必要的变换,如城镇化水平计算◆SPSS算术表达式和逻辑表达式◆SPSS函数◆与Excel函数计算相似数据的加工变量计算(Compute)◆执行菜单命令:[Transform][Compute]指定将生成的变量:“Target”,回答新变量名建立计算表达式:“NumericExpression”,通过菜单所提供的计算器和变量选择按钮选择变量。如果只对部分变量值进行指定计算,可以使用“If”按钮输入一个表达式,使满足表达式的变量值参与运算,而不满足的不进行计算。数据的加工数据的加工数据的加工数据的加工练习计算课程总成绩数据的加工产生计数变量(Count)◆对所有或部分个案,计算若干个变量中有几个变量的值落在指定的区域内,并将结果存入新变量中◆例如:新的变量定义为:优秀科目其变量值为:语文、数学、外语等若干门成绩超过85的门数。其中检验表达式为:语文、数学、外语的成绩85thruHighest数据的加工产生计数变量(Count)◆执行菜单命令:[Transform][Count]指定将生成的变量:“Target”,回答新变量名指定将要计数的变量:“NumericExpression”建立检验表达式;“DefineValue”通过窗口提供的计数方式框添加计数检验条件。如果只对部分变量值进行指定计数,可以使用“If”按钮输入一个表达式,使满足表达式的变量值参与运算,而不满足的不进行计算。计数变量对数据中每个学生的英语、数学和语文3门课程成绩中80分以上的成绩进行计数统计。计数变量数据的分组目的:了解数据的总体分布状况手工分组(Recode)◆将指定按照哪个变量进行分组:即指定分组变量◆定义分组变量的分组区间(不重、不漏)◆指定一个存放分组结果的标志变量◆与Compute方法不同的是:Recode方法不能进行运算,只能根据指定变量值作数值转换,且这种转换是单一数值的转换数据的分组手工分组(Recode)◆例如:年龄的取值是从18-----60的各种取值,对于分组讨论不方便,特重新定义为:Lowestthru25为126thru45为246thruHighest为3可以使原变量的值变为:123三个年龄段也可得到新变量,值为:123三个年龄段数据的分组手工分组(Recode)◆执行菜单命令:[Transform][Recode]两个子命令:[Intosamevariable][IntoDifferentVariables]分别代表在原来的变量名下更改数值或将更改数值生成一个新变量:“Outputvariable”。数据的分组手工分组(Recode)◆更新原变量执行子命令:[Intosamevariable]更新原变量的命令只能改变原变量的数值,不能改变其属性。即:数值型-------------数值型字符串型-------------字符串型指定要更新的变量:“Numeric”,选择变量建立新旧变量值的对应关系“Oldandnewvalue”回答:旧变量值回答:新变量值“Add”按钮:加入。数据的分组手工分组(Recode)◆产生新变量执行子命令:[IntoDifferentVariables]产生新变量的命令可以改变原变量的数值,也能改变其属性。数值型------数值型-------字符串型字符串型----字符串型---------数值型建立新旧变量的对应关系“Oldvariablenew”建立新旧变量值的对应关系“Oldandnewvalue”回答:旧变量值回答