2010年12月30日安巧枝河南省第六次人口普查数据处理情况通报及工作部署总结取得的成绩分析当前面临的主要问题安排下一步工作(一)扎实的准备工作为我省光电录入工作的开展奠定了坚实的基础(二)各级积极努力,光电录入工作进展顺利1、领导高度重视,为数据处理工作提供基本保障。2、各级采取切实可行的措施,有序推进光电录入工作。3、各省辖市精心组织,光电录入工作进度较快(三)严格控制,光电录入总体工作质量较好(一)数据质量问题(二)数据安全问题(三)人员问题(四)设备保障问题(五)业务技术支持问题数据质量普查数据质量面临挑战百岁老人多配偶出生/死亡人口高无性别人多民族人数三个环节各有问题(原因:为赶进度、把关不严、简化流程)普查环节-编码光电录入-校对数据编审-核实数据质量:普查环节普查表:有小区无表,有表无小区;正常小区无短表、无长表;虚拟表的在数据编审时必须删除!全户死亡未填999;光电完成后,新增普查表;手工录入的必须上报说明,并单独报送对应的图象!数据质量:普查环节填表质量问题:主要是编码问题编码书写不规范编码与圈填不一致(百岁老人、多配偶),编码错误;未编码普查表污染填表质量问题:编码书写不规范,校对不认真识别为0933,1被提示校对0识别为1155,9被提示校对1识别为1441,9被提示校对4提示校对未被修改正确的识别为1904,6被提示校对0填表质量问题:编码与圈填不一致填表质量问题:编码错误(0编码为6)这里全部字符都应是0,某小区119个0误编了33个6,其中26个被自动识别为6,7个为疑似6,需人工校对。填表质量问题:未编码漏编、未编码现象较多,外省某县80万普查人有4000多未填性别;R6、R7漏编较多;民族漏编等填表质量问题:普查表污染表格被污染出生年被识别为1187表格被污染,出生年被识别为1墨水不是纯黑滤红后无法识别数据质量:光电录入光电录入:主要是校对不认真校对:不认真、不看原图;数据:识别为疑似,未改对的数量(见前页);“汉”易被误识为“水”、“白”、“侗”等;数据质量:“汉”被误识汉族水族汉族侗族连笔草书,“汉”字左边三点水写成一竖,易识别成“侗、回”等。“汉”被识别为疑似的其他民族,转入人工校对数据质量:“汉”、“哈”被误识“汉”被识别为疑似的其他民族,转入人工校对汉族白族连笔草书,“汉”字第一点写在上部偏中,下两点与“又”字连笔书写,易识别成“白”。“哈尼族”若只写”哈”易被识别为疑似的其他民族,转入人工校对数据质量:光电录入光电录入:认真校对识别引擎技术要求:数据(误识率0.05%)、汉字(误识率0.1%)民族的汉字识别:某省30万人的实际样本测试结果,人数少时错误率波动大总人数误识率校对率错误率3052310.0256%6.001%0.0459%(汉)988970.0243%0.7927%0.0273%哈尼720430.018%0.6607%0.0208%满族,49人0.0%7,14%4,8%数据编审尚未正式开始编审改错;人手不够,简化流程,不认真核实问题数据,未看原图;审核规则不全,即未用最新版数据处理软件和制度包;总结:数据质量圈填、编码、校对等所有环节形成的问题都在数据编审这个最后环节集中体现,压力确实很大!但必须把好最后一关,确保数据质量。数据质量:数据编审(一)数据质量问题(二)数据安全问题(三)人员问题(四)设备保障问题(五)业务技术支持问题(一)做好短表光电录入后的管理工作(二)做好短表光电数据及图像上报工作(三)做好短表数据编审工作,确保数据质量(四)做好死亡表、长表数据处理工作新年快乐!感谢大家的辛苦工作!感谢全省4000多名奋战在数据处理一线的同志们!