1档案数字化扫描中的问题及对策社会学院刘婷程熙指导教师:张照余[摘要]本文通过大量实验,发现档案数字化扫描中存在的问题,提出具有理论及应用价值的档案数字化扫描对策,为各档案部门数字化工作提供可行性建议,以提高档案数字化扫描工作的质量。[关键词]档案数字化扫描问题对策[Absrtact]Thispaperisbasedonalargenumberofarchivesscanningexperiments,inwhichwehavediscoveredsomeproblems.Accordingtothese,weproposeseveralvaluableandfeasiblesuggestionstobenefittheefficiencyofarchivaldepartments'scanningworkandimprovethequalityofentirearchiveprogram.[Keywords]archivaldigitalizationscanproblemsmeasures档案数字化是档案信息化建设的重要内容,而扫描是纸质档案数字化中的关键环节,扫描工作的好坏影响着整个数字化工作的质量。目前,我国各级各类档案馆大量珍贵、重要和利用频繁的纸质档案亟待通过数字化方式来保护、备存和提供网络利用,任务十分繁重。因此,本文旨在针对档案数字化扫描中遇到的问题提出可行性解决方案,为各级档案单位在数字化扫描工作提供建议,以便更好地共享档案信息资源,满足档案信息的利用需求。1档案数字化扫描存在的问题笔者通过大量的文献调研,以及进行多次的数字化扫描实验,同时实地参与苏州大学资产评估科数字化扫描项目,发现数字化扫描中存在着许多亟待解决的问题,这些问题主要表现在以下几方面:1.1软、硬件基础设施配套不齐全2软硬件基础设施是档案数字化建设过程中必不可缺的基本条件,目前,很多单位没有成立专门的档案馆,档案由组织或人事部门分管,并不配备专门档案人员负责,同时经费不能及时到位,造成所需的一些档案数字化软、硬件基础设施配备不齐全,主要表现在:就硬件而言,在信息采集设备中,一般的扫描仪大多是适合A3、A4甚至更小的纸张,而实际工作中存在一些纸张较大的档案文件,设备配备并不能满足本馆实际档案的尺寸要求,这样的结果会造成扫描图残缺不全。信息存储设备的要求相对采集设备对本馆要求更高,没有相应的设备容量,档案进行数字化过程将受到限制,直接导致图像达不到规定的像素与清晰度要求。信息利用设备的配备不足会局限数字档案的利用,使得相当一部分数字化的档案无法识别。就软件而言,整体上,目前我国还没有建立一个达到数据交换的机读目录档案系统,软件系统使用的层次不一,规范性、开发性、服务性、共享性较差,不能适应档案信息资源共享的要求。纵观当前各档案馆、室所用档案管理软件,信息管理功能与信息通用功能的缺失是共有的弱点。现在档案部门所使用的计算机型号不一,规格各异,各自开发、购置的软件不能通用,并且没有一个既适用于文件检索又可用于档案信息管理的计算机管理软件系统。1.2纸质档案数字化扫描成本过高在大量的纸质档案扫描过程中,各级档案部门都不同程度地遇到了扫描成本过高的问题,扫描成本的增加必然会影响到整个档案数字化进程,进而阻碍档案信息的交流和共享,制约了档案部门的高效运转。扫描成本存在于扫描过程中的经济成本与时间成本方面,具体表现在:(1)经济成本增加。扫描中的经济成本包括两方面,一是设备购置和维修成本,国内比较先进的扫描仪每台在10000元左右,档案卸装订设备每台在20000元左右,如果将设备的维修、维护及耗材的定期更换费用计算在内,其费用之高并非一般档案部门可以承受;二是人力扫描工资成本,按目前市场价格(扫描和输入0.25~0.4元/页)来计算,以区(县)档案馆为例,一般区(县)档案馆馆藏量在12~15万卷,按每卷档案50页计算,大约共600~750万页。如果将这些档案全文数字化,一个区(县)级档案馆全文数字化将需投入150~200万元①。①郑鸥.关于档案全文数字化工作的思考[J].中国档案,2007(2):46-473(2)时间成本过大。影响纸质档案扫描时间的因素有很多,如硬件设备(扫描仪、计算机、存储设备等),软件设备,人员操作熟练程度等。在软硬件设备和人员配备条件不变的情况下,以县级档案馆为例,据统计,两人两台扫描仪全文扫描年扫3千卷(卷/100面)需要27年②。如此漫长的时间相对于我国档案事业所提出的“十一五”规划还有相当大的差距,也不符合档案部门工作科学化、规范化、信息化的整体发展要求。1.3纸质档案扫描过程不规范纸质档案全文扫描录入工作流程主要包括以下几个环节:档案整理、扫描准备、正式扫描、图像处理。其中,档案整理和正式扫描环节是最容易出现问题的两个环节,整理的不规范性直接降低了扫描的速度,并且带来漏扫与重复扫描的问题。正式扫描这一环节中参数设置的不规范性也会导致计算机存储空间与录入图像的清晰度之间的不平衡。档案整理与正式扫描过程中对档案原件处理不当也会对档案造成一定程度的损害。(1)漏扫、多扫与重复扫描问题数字化扫描中的漏扫多扫与重复扫描问题主要表现在:第一,漏扫描档案文件资料、大图纸的大量信息。有的档案页面折字遮字,信息没有全部扫描出来;有的统计报表漏扫描信息,如在一套表中两组数据的信息只扫描了一组;第二,对列为不进行数字化处理的对象进行扫描,如正式文本中的定稿(文件处理签及定稿中有领导人亲笔批示和审改内容的除外)、成批统计报表中的重复性填表说明文字、有正式转发件(发文)的被转发件(收文)等无须列入数字化处理的对象,实际上进行了扫描③;第三,重复扫描同一份档案文件。由于档案整理不规范,在扫描时扫描人员为了追求扫描速度很容易忽视扫描原件的内容,对已经案卷内存在的重复档案进行扫描。(2)参数设置问题目前,我国已出台了《电子文件归档与管理规范》(GB/T18894-2002)和《纸质档案数字化技术规范》(DA/T31-2005),各地也相继出台了一些相关标准,如《苏州市纸质档案数字化加工标准(试行)》和《天津市档案资料数字化加工指南(试行)》等。虽然这些规范标准对纸质档案扫描的色彩模式、分辨率等参数②阎朝科.走出档案数字化困境的尝试[J].档案时空,2005(10):26③吴绪成,陈素萍.档案数字化质量的规范处理[J].中国档案,2007(2):48-494设置方面给出了原则性的规定,但这些规定均是粗线条的,例如《纸质档案数字化技术规范》中提出“特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。”然而,在档案部门实际扫描的工作中,文字大小、密集、及清晰程度都需要扫描工作人员的主观判断,并且“适当提高”多少分辨率也是需要各单位根据自己的实际情况“量体裁衣”的。(3)数字化过程中对原件的损害问题实施档案数字化的操作过程,须对原有档案进行撤架、拆封、编号、标记、扫描、还原等一系列的处理工作,此过程如操作不当会对档案有一定的损害,主要是:第一,档案盒、案卷排列顺序、文件顺序、卷内文件纸张因档案数字化加工,会造成损害与混乱;第二,数字化工作人员在登记、标注时,书写字体偏大过重,易破坏档案的原貌,尤其是脆弱纸张,受损程度更大;第三,工作人员在扫描过程中对档案原件压制用力,翻页时动作幅度较大,也容易对档案原件造成损伤。1.4档案数字化后期管理不力档案的数字化是一项工作繁琐、环环相扣的工作,扫描工作量大,而档案数字化后的管理工作至关重要,影响到整个数字化工程的质量。因档案数字化的后期管理工作主要体现在对扫描件的检测与档案的还原两个方面,后期管理不力将造成数字化档案的不规范性,也会减损原有档案的凭证价值与历史价值。其间出现的问题具体表现在:(1)数字化扫描件与原件不符档案数字化扫描工作的性质决定了在档案数字化扫描过程中扫描件混乱、缺少、失真等情况时常发生,因此后期管理工作极其重要。如纸张比较大的档案需扫描多次,再经后期处理合成,稍有不慎会造成数字化合成档案混乱,又如批量处理的档案,会造成少数档案失真。后期处理不当,会导致出现数字化扫描件与原件对比时发生遗漏与缺失现象。(2)档案重新装订与原貌不符有些数字档案工作人员并不注重档案的后期还原工作,还原后的档案经重新装订与封装,序号混乱、纸张破损等现象时有发生。工作人员以为完成前期扫描工作便可,损害了档案的原貌,同时也直接造成了档案凭证价值与史料价值的缺5损,这种行为犯了本末倒置的错误,没有抓住数字化的根本目的,将手段与目的混为一谈。2.做好档案数字化扫描的对策2.1加强现代化基础设施建设,降低扫描成本软、硬件基础设施是档案信息化建设不可缺少的基本条件,是档案信息资源开发利用和信息技术应用的基础。先进齐全的软硬件基础设施能够在很大程度上降低扫描成本。各档案部门在制定数字化扫描方案中应考虑到其所使用的数据库管理系统和各种高中低档的扫描设备的兼容性问题,逐步减少在技术上各自为战的情况,提高软硬件系统的统一性和通用性。因此,在硬件方面,档案部门应配备先进的计算机、扫描仪等成套设备,使之适应系统中大量数据的快速处理,文字图片的扫描及声像资料的录入、网络系统的建设等;软件方面,投入一定的经费,开发一套功能强大的信息系统软件,引进统一的档案计算机系统软件。只有软、硬件基础设施同时具备,才能实现档案数字化的标准建设,才能符合档案信息化建设的基本要求。在总体上,档案数字化扫描工作要采取逐步推进、有的放矢、部分优先的原则,在有限的资金和时间投入下,优先扫描损毁度高、利用频率高、保存价值较高的档案,对于那些不太重要的档案可以延后扫描,有效地节省时间、人力和财力投入,提高扫描的效率,加快数字化进程。2.2规范扫描过程(1)加强档案整理工作,提高工作人员水平造成档案文件漏扫、多扫、重扫的主要原因包括以下两方面:一是档案整理工作不规范;二是扫描过程中扫描人员人为失误。因此,必须在扫描之前做好档案整理工作,领卷人员要检查案卷完整性并签字确认;扫描过程中,扫描人员要提高其专业水平,从主观上彻底消除扫描中因失误而造成的漏扫、多扫和重扫的问题。(2)明确设置扫描参数针对不同类型的档案采用不同的分辨率、色彩模式及存储格式,使得不同纸质档案经扫描后图像的清晰度与存储大小达到最佳平衡点,既有利于节省计算机存储空间,又能够清晰完整地保存图像,方便档案信息资源的传输、存储、共享6和利用。经过大量的实验,以A4幅面为例,我们为纸质档案数字化扫描的参数设置提出以下建议:Y1:文字较少,无底色的文字型文件;Y2:一般情况下无底色的文字型文件;Y3:文字偏小(五号以下)、密集或手写无底色的文字型文件;Y4:文字较大(五号以上),有底色的文字型文件;Y5:一般情况下有底色的文字型文件;Y6:文字偏小、密集或手写的有色文字型文件;Y7:底色发黄、年代久远的文件材料;Y8:包含有照片的现代报纸;样本分辨率(dpi)色彩模式大小存储格式Y1150黑白二值276KBTIFFY2200黑白二值499KBTIFFY3200黑白二值114KBTIFFY410024位真彩128KBJPEGY515024位真彩192KBJPEGY615024位真彩436KBJPEGY715024位真彩475KBJPEGY815024位真彩385KBJPEG(3)加强数字化过程中档案的保护纸质档案扫描前将进行一系列准备工作,其间在纸质档案上做标记时,笔迹不宜过重,字体不宜过大,在标记便于辨认与后期去除标记之间求得平衡,以免伤害纸张;翻动纸张时,不要用力过度,注意保护脆弱纸张;此外,还要选择适当的装备,采用科学的扫描方法。在纸张过大,而扫描仪比较小的情况下,需采用分块扫描,然后后期利用Photoshop及其他的图像处理软件进行合并。在这一过程中要注意以下几点:首先,过大的纸张不宜折叠,保护档案原件;其次,扫描过程中,仪器盖压制档案7时要轻放轻拿,不要因为用力过猛损害原件;再次,扫描的文件放在一个文件夹中,作为原来文件夹的子项,扫描图像应具有相同的属性与相近的像素大小,便于后期制作;最后,保证分块