学情检测变量与数据测量的尺度测量误差系统误差与随机误差第四讲数据处理与核查定性数据数据分类连续数据定量数据不连续数据表1考试数据实例区县区县代码准考证号学校类别性别英语口试英语笔试宝山区长宁区崇明区虹口区黄埔区嘉定区130530090114144085344122167145122331221112CBBAAC13212010074131104原始数据经过整理、编码、输入及适当的转换之后,才能作为统计分析的数据。这些包括数据收集的标准化、编码系统的建立、数据的编码与键入、数据检验与转换等步骤的严谨程度,是决定数据分析成败的关键因素。一、数据库的建立变量命名选择变量类型输入注解输入数值注解设定遗漏值选定格式设定测量尺度一、数据库的建立虚拟变量所谓虚拟是指在数据收集完成之后,再以人为的方式,将数据加以处理,赋予特定计量符号的过程。此一事后人为变量化的过程所产生的新变量,称为虚拟变量。一、数据库的建立虚拟变量例如,变量:宗教信仰1=天主教;2=基督教;3=道教或者,将每一种宗教分别视为一个独立的二分变量,0=否,1=是一、数据库的建立多选题的处理例:在兄弟姐妹、同性或异性同学朋友、老师与父母等各种角色之中:(可多选)1.长期以来对你影响最深的是:A.同性同学,B.异性同学,C.兄弟姐妹,D.父母,E.老师一、数据库的建立多选题的处理每一个选项都是一个二分变量(有无回答);一个有K个选项的多选题,必须被视为K各变量。一、数据库的建立排序题处理请在下列各种网络工具选项中,指出三种你最常用来和朋友沟通的工具,并依程度标出1、2、3的次序(1为最常使用者)1.ICQ2.CICQ3.E-MAIL4.MSN5.BBS6.聊天室7.一、数据库的建立排序题处理:处理方式类似于多选题,不同之处在于要进行多次多选题集的定义程序。一、数据库的建立废卷处理填答遗漏情况恶意作答情况在学术报告中,必须清楚地指明废卷处理的方式,提出修正的结果与淘汰比例的信息,以利审查人员或读者判断。二、数据检核(一)数据查核目的:确保数据的正确无误过程查核(定点、定时、专人)终点查核(可能性检查、逻辑性检查)技术:次数分布、统计图表二、数据检核(二)遗漏值处理遗漏值最大的影响是造成样本的流失遗漏的形态(系统性遗漏、随机性遗漏)遗漏的量5%二、数据检核(二)遗漏值处理事前预防删除:“完全删除、配对删除”取代:“转换——置换遗漏值”虚拟变量(针对系统遗漏)二、数据检核(三)偏离值的侦测与处置判断标准:三个标准差之外侦测技术:次数分布、直方图、箱须图偏离值处理:输入有误、胡乱作答(转换为遗漏值处理)、真实作答(大样本删除、小样本合并或转换)二、数据检核(四)反应心向受试者具有的一种比较固定的作答倾向。表现:伪善、伪恶、中庸、攻击、偏爱解释:系统性偏误、反应风格处理:废卷、事前(后)估计、使用其他测验形式三、数据与文档管理(1)数据查询编辑——查找(2)数据排序数据——观察值排序(sortcases)(3)观察值加权(Weightcases)下表:一个市场调查,研究人员搜集了83位光顾某大卖场的顾客的基本数据与付费方式。上午(B1)下午(B2)晚间(B3)男(A1)刷卡(C1)10512刷卡(C2)1566女(A2)刷卡(C1)5812刷卡(C2)181822三、数据与文档管理(4)分割文档两种分割模式:比较组别;依组别组织输出(5)选择观察值多种方式;过滤与删除(6)数据合并新增观察值;新增变量三、数据与文档管理(7)计算(Compute)(8)重新编码(recode)反向题;类别变量;连续变量(9)计数(count)