第四讲数据处理与核查.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

学情检测变量与数据测量的尺度测量误差系统误差与随机误差第四讲数据处理与核查定性数据数据分类连续数据定量数据不连续数据表1考试数据实例区县区县代码准考证号学校类别性别英语口试英语笔试宝山区长宁区崇明区虹口区黄埔区嘉定区130530090114144085344122167145122331221112CBBAAC13212010074131104原始数据经过整理、编码、输入及适当的转换之后,才能作为统计分析的数据。这些包括数据收集的标准化、编码系统的建立、数据的编码与键入、数据检验与转换等步骤的严谨程度,是决定数据分析成败的关键因素。一、数据库的建立变量命名选择变量类型输入注解输入数值注解设定遗漏值选定格式设定测量尺度一、数据库的建立虚拟变量所谓虚拟是指在数据收集完成之后,再以人为的方式,将数据加以处理,赋予特定计量符号的过程。此一事后人为变量化的过程所产生的新变量,称为虚拟变量。一、数据库的建立虚拟变量例如,变量:宗教信仰1=天主教;2=基督教;3=道教或者,将每一种宗教分别视为一个独立的二分变量,0=否,1=是一、数据库的建立多选题的处理例:在兄弟姐妹、同性或异性同学朋友、老师与父母等各种角色之中:(可多选)1.长期以来对你影响最深的是:A.同性同学,B.异性同学,C.兄弟姐妹,D.父母,E.老师一、数据库的建立多选题的处理每一个选项都是一个二分变量(有无回答);一个有K个选项的多选题,必须被视为K各变量。一、数据库的建立排序题处理请在下列各种网络工具选项中,指出三种你最常用来和朋友沟通的工具,并依程度标出1、2、3的次序(1为最常使用者)1.ICQ2.CICQ3.E-MAIL4.MSN5.BBS6.聊天室7.一、数据库的建立排序题处理:处理方式类似于多选题,不同之处在于要进行多次多选题集的定义程序。一、数据库的建立废卷处理填答遗漏情况恶意作答情况在学术报告中,必须清楚地指明废卷处理的方式,提出修正的结果与淘汰比例的信息,以利审查人员或读者判断。二、数据检核(一)数据查核目的:确保数据的正确无误过程查核(定点、定时、专人)终点查核(可能性检查、逻辑性检查)技术:次数分布、统计图表二、数据检核(二)遗漏值处理遗漏值最大的影响是造成样本的流失遗漏的形态(系统性遗漏、随机性遗漏)遗漏的量5%二、数据检核(二)遗漏值处理事前预防删除:“完全删除、配对删除”取代:“转换——置换遗漏值”虚拟变量(针对系统遗漏)二、数据检核(三)偏离值的侦测与处置判断标准:三个标准差之外侦测技术:次数分布、直方图、箱须图偏离值处理:输入有误、胡乱作答(转换为遗漏值处理)、真实作答(大样本删除、小样本合并或转换)二、数据检核(四)反应心向受试者具有的一种比较固定的作答倾向。表现:伪善、伪恶、中庸、攻击、偏爱解释:系统性偏误、反应风格处理:废卷、事前(后)估计、使用其他测验形式三、数据与文档管理(1)数据查询编辑——查找(2)数据排序数据——观察值排序(sortcases)(3)观察值加权(Weightcases)下表:一个市场调查,研究人员搜集了83位光顾某大卖场的顾客的基本数据与付费方式。上午(B1)下午(B2)晚间(B3)男(A1)刷卡(C1)10512刷卡(C2)1566女(A2)刷卡(C1)5812刷卡(C2)181822三、数据与文档管理(4)分割文档两种分割模式:比较组别;依组别组织输出(5)选择观察值多种方式;过滤与删除(6)数据合并新增观察值;新增变量三、数据与文档管理(7)计算(Compute)(8)重新编码(recode)反向题;类别变量;连续变量(9)计数(count)

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功