关于第二次全国农业普查数据处理工作情况一、农业普查数据处理工作量•农业普查基层普查表数量•农业普查基层表数据量农业普查基层普查表数量全国农户数量:约2.5亿户、9.4亿人广东农户数量:约1200万户普查表形式:A4幅面双面印刷平均每个农户2.5张表全国普查表总量:约6亿多张表广东普查表总量:约3800万张表农业普查基层表数据量•全国农户数量:2.5亿户•基本农户表数据量:每个农户300笔数据•总原始数据量:750亿笔数据(包括字符型、小数等)•总原始数据量转换计算机存储数据量:约7500亿字节(合750G字节)•图像存贮信息量:以每张普查表100K计算,约为60T广东农业普查基层表数据量•基本农户表数据量:每个农户300笔数据•全省总原始数据量:36亿笔数据(包括字符型、小数等)•总原始数据量转换计算机存储数据量:约360亿字节(合36G字节)•图像存贮信息量:以每张普查表100K计算,约为3.6T二、农业普查数据处理组织模式•农业普查数据处理模式:地(市)、省、国家三级进行数据处理的模式。•第二次全国农业普查采用光电扫描技术进行普查表数据录入,以电子文档形式存储全部原始普查表的扫描图像。•普查原始调查表的光电录入工作在地(市)组织进行。县级数据由地(市)通过网络组织反馈(不具备网络条件的地区可采用其他存储介质的方式进行反馈),在网络条件较好的地区也可采用远程登录方式进行县级农业普查数据处理工作。三、农业普查数据处理工作流程•以县级为单位将通过人工审核,并统一编码的普查原始表上报地(市)。•地(市)级统一组织光电录入、编辑、审核、汇总,组织数据上报和反馈。•省级接收地级上报普查基层数据、普查表图像文件,对数据组织复审、汇总,并组织数据的上报和发布。•国家级接收省级上报普查基层数据、普查表图像文件,对数据组织复审、汇总,组织数据的发布。农业普查数据处理流程图农业普查数据处理流程图地(市)级数据处理流程图像存储数据上报光电扫描OCR编辑数据审核服务器数据汇总数据评审通过数据上报数据反馈普查表图像应用与上报省级数据处理流程图像存储数据接收数据审核服务器数据汇总数据评审通过数据上报普查表图像应用与上报普查资料发布国家级数据处理流程图像存储数据接收数据审核服务器数据汇总数据评审通过普查表图像应用与上报普查资料发布四、农业普查数据处理技术特点•全面采用光电扫描方式组织录入•全部普查原始表图像以电子文档方式储存•普查数据的上报全部采用网络方式下进行•通过普查进度管理系统对数据处理工作进度实行网上管理采用光电扫描录入的优势一•速度快1、利用光电扫描仪进行数据录入:按照一台扫描仪录入总量为100万张普查表;扫描速度双面普查表A4幅面30页/每分钟;平均每天工作6小时;完成全部扫描任务时间大约100天左右(约需630台扫描仪)。2、采用人工进行数据录入:按照一个录入人员录入总量为6.5万张普查表;平均录入双面普查表A4幅面40页/每小时;平均每天工作6小时;完成全部录入任务需9个多月(约需近1万名录入员)。广东农业普查基层表数据量1、利用光电扫描仪进行数据录入:按照全省3800万张表计,一台扫描仪扫描速度双面普查表A4幅面30页/每分钟,平均每天工作6小时,每天可完成扫描任务10800张表,如每市配二台扫描仪,约84天可完成全部扫描任务。2、采用人工进行数据录入:按照一个录入人员录入双面普查表A4幅面40页/每小时,平均每天工作6小时,一天可录入240张表,同样要求84天完成全部录入任务,每个县(区)至少要配15个录入员(全省约需近1800多名录入员)。采用光电扫描录入的优势二•质量高1、通过国家863项目验收的我国光学字符识别技术已经是一项比较成熟的技术,利用这项技术进行普查数据的录入识别,一致性好,产生再生性错误的概率很小,录入质量高。2、通过录入人员进行手工录入,每个录入人员录入质量不一致,极易产生再生性错误。若通过数据复录方法进行录入质量控制,则录入工作量大大增加,完成任务时间无法保证。采用光电扫描录入的优势三•总体投入小1、采用光电扫描设备进行数据录入,基本不需要增加人员,但是需要光电录入设备和软件的采购经费。2、而采用人工进行数据录入,需要外聘一支庞大的数据录入队伍,除要支付近十个月的工资外,还要组织大规模培训、采购几千台数据录入微机。总体开支大于关光电设备购置费用。存储普查表光学图像的优点根据国家档案的保存和管理规定,普查的原始调查表都要进行保存。若是保存纸介质,则需要安排专门的库房,还要进行防潮处理,投入是很大的。采用了普查表光学图像的保存后,既节省空间,又能长久保存,同时便于查询。在普查期间还可作为质量控制的依据。需要配备相应的存储设备。五、关于普查数据处理软件•农业普查光学字符识别和编辑软件•农业普查数据录入工作站过程管理软件•农业普查普查表影象管理系统•农业普查制度管理系统•农业普查数据处理系统(普查数据的录、编、审、汇)•农业普查数据处理进度管理系统•农业普查数据库、名录库管理系统•农业普查质量抽查系统•农业普查资料开发系统、数据分析和挖掘系统六、农业普查数据处理设备•国家级需要配备数据处理能力较强的大型机、服务器、存贮设备、高速行打及相关系统软件;•省级需要配置能力较强的小型机,尤其是存贮容量较大的存贮设备;•设备配备的重点是地市级,主要包括光电录入设备、配套的计算机和服务器,用来形成数据录入工作站。数据处理成功三要素物质保障工作流程组织保障数据质量七、农普办数据处理组近期工作•完成数据处理设备需求分析•完善光电录入表的设计•对光电录入设备和识别软件进行调研和研究,制订光电录入方案•制订数据处理方案•形成数据处理软件的相关需求,开发原型系统谢谢!