大数据对档案工作的影响大数据时代对档案现代化影响和要求发布日期:2013-11-25发布:年代以来,随着计算机、网络和通信技术的迅速发展,人类社会开始由工业社会进入信息社会。特别是20世纪90年代互联网的出现,信息量呈几何级数增长。国际数据公司(IDC)在2011年发布了新的数字宇宙研究报告(DigitalUniverseStudy)——《从混沌中提取价值》(ExtractingValuefromChaos),该报告显示全球信息总量每过两年就会增长1倍。仅2011年,全球被创建和复制的数据总量就有1.82ZB,相较2010年同期上涨超过1ZB,预计到2020年这一数值将增长到35ZB。面对信息爆炸,人们采取了种种应对策略。近些年来,大数据的方法和思想得到了越来越多的重视和应用。在IT界,大数据一词虽然没有统一定义,但是对于它的特征达到了一定的共识。一般认为大数据具有四个方面的特征:一是数据全,即数据包含所有的样本,数据可能体量巨大,也有可能不大;二是数据类型繁多,包括网络日志、文本、图片、音视频、地理位置信息等;三是价值密度低,单位数据信息含量有限;四是处理速度快。人类社会即将或已经步入了大数据时代,它将深刻地影响社会的方方面面。中国论文网档案界在档案信息化过程中必须保持对信息技术发展的高度敏感,及时追踪新技术趋势,深入研究各种信息技术引入档案工作的可能性、必要性及其可能带来的积极意义和消极意义。大数据技术和思想对档案信息化工作的影响和要求主要体现在以下几点。1促成档案概念的泛化档案的概念与本质问题是档案学的基本问题,在档案学界已经讨论了多年。冯惠玲、张辑哲主编的《档案学概论》(第2版)中对档案的定义是“档案是社会组织和个人在社会实践活动中直接形成的具有清晰、确定的原始记录作用的固化信息”,认为“原始记录性”是档案的本质属性。虽然在信息时代,早已出现“电子档案”的概念,但是,在电子文件收集、整理、归档和保管过程中依然沿用纸质档案的分类和鉴定方法。在信息稀缺和保存信息代价巨大的纸质时代,甄选和保存对社会和个人具有明显价值的档案是合理的和必要的。许多信息虽然具有“原始记录性”,但因其单位信息价值有限而不能作为“档案”保存的,比如网络访问日志、鼠标在网页上的轨迹、顾客在购物商场里的行进记录等。但是,在大数据时代,大规模数字存储系统的应用使数据存储的成本越来越低,许多以前不能存储的信息都可以保存下来。当这些价值密度低的数据汇合成PB级别时,人们便可以从中挖掘出价值。商场可以根据大量顾客在商场的行进路线、滞留时间、关注方向等数据来设计商品的布局;日本先进工业技术研究所的专家可以根据人体对汽车座椅施加压力的数据建立模型进行乘坐者身份识别,从而实现汽车防盗功能;当收集了大量的机械运行时产生的震动、温度、转速等数据后,就可以建立预测模型,在机械故障发生之前消除存在的隐患。这些价值密度低的原始记录在大数据时代整体上便产生了巨大的价值,具有了档案的完全属性。这促使学者重新审视“电子档案”的范围。学者们一般把“档案”定义为事件结束后经过整理归档的文件,且将档案分割为小的相对独立的信息单元。在信息化时代,记录即是档案,数字化的记录一旦生成便变成了不可删改的档案。广泛应用于社会实践的税务管理系统、户籍管理系统、车辆交通管理系统等实时地将“记录”转化为“档案”,而每一条记录都将变成具有长期保存价值的档案,这些单位价值密度低的记录信息将作为不可分割的整体来发挥档案的价值。在大数据时代,档案概念存在着严重的泛化问题,不能不引起关注。2有利于破除档案信息化难题档案工作不管对于国家还是社会组织、企业来说都是一项基础服务性质的工作。档案工作长时间以来都存在着效益滞后的问题,使档案信息化工作陷进投入资金不足、领导重视不够的困境。财政对档案信息化建设的投入,是以获得良好的效益为前提的。传统纸质信息时代对大量的档案信息资源进行分析整合开发需要耗费巨大的人力物力。大数据时代的到来使这一问题迎刃而解。只要拥有良好的数字资源基础,计算机快速处理海量的不同类型信息的能力就能够快速地廉价地挖掘档案信息资源潜在价值,为经营和管理决策服务,从而产生看得见的效益。长期以来,档案信息化没有明晰的总体规划方案。人们普遍认为,“档案数字化的目的不外乎两个:为保护档案尤其是濒危档案而制作数字化副本;为实现网络环境下的档案信息共享利用而数字化”,这种认识将档案信息化局限于传统档案工作手段的计算机化而对档案信息资源整体价值重视不够,从而难以挖掘档案深层次的价值。帮助人们认识客观世界、辅助决策、产生效益才是档案利用的生命力所在。大数据分析并不是档案人员的专长,但是,为大数据分析提供基础数据则是档案工作在信息时代的价值所在。抓住大数据的机遇,才能避免被边缘化,从而使档案工作摆脱困境。大数据时代要求数据资源的开放,这对我国档案信息化建设也具有导向作用。2008年美国建成了data.gov网站,这是美国联邦政府的公开信息资料库。网站从2009年的47个数据集迅速发展起来,到2012年7月3周年时,数据集已达45万个,涵盖了172个机构,产生了广泛的社会和经济影响,有力地推动了美国社会和经济的发展。档案信息化必须在大数据时代构建社会公开信息资源库中占据一席之地,这也应当成为我国档案信息化的目的之一。3对电子文件工作产生深刻影响《电子文件归档与管理规范》(GB/T18894-2002)已经颁布,但是,在档案工作实践中档案工作者大多依然沿用纸质时代的鉴定方法对单份的电子文件进行归档处理。更有甚者,有些档案部门对电子文件界定不清而不愿接收电子化记录从而造成档案信息缺失。维克托·迈尔-舍恩伯格在《大数据时代》一书中指出,在大数据的价值链上有三种类型的公司,即,基于数据本身的公司、基于技能的公司和基于思维的公司。基于数据本身的公司是一些拥有大量数据或者至少可以收集到大量数据的公司,但不一定有从数据中提取价值或者用数据催生创新思想的技能,他们通过将数据授权给其他公司而创造价值。很显然,档案部门应该做大数据的拥有者。档案人员应该重新审视对电子文件的态度。长期以来存在着两种电子文件的保管模式,一种是分散式保管,一种是集中式保管。在大数据时代,数据是最核心的财富,最先考虑对数据的拥有才是明智的。不管是采用集中式还是分散式的管理模式,档案部门应该占据数据链的中心,处于收集数据和挖掘数据价值的黄金位置。在大数据时代,要求对信息进行“数据化”而不仅仅是“数字化”。数据化是指将现象变成指标分析的量化形式的过程,而不仅是转化成“0”和“1”的数字格式的过程。对电子文件管理来说,即是要求拥有完善的元数据和实现全文检索。目前,电子文件元数据的研究集中在保证电子文件现实的真实性、完整性、可读性、安全性方面,对电子文件未来的可能出现的开发利用重视不够。完善的元数据标准是为大数据分析与应用提供优质数据的基础。基于词频和语义的分析将是大数据分析的重要手段,因此,实现信息的全文录入就有了更重要的意义。当前,很多档案部门重“数字化”而轻“数据化”,对纸质档案进行图片化处理,造成文件格式混乱、元数据收集不全,这都将成为未来大数据开发利用的障碍。有些学者片面强调电子文件的技术安全性而人为地为电子文件设置重重技术保障措施,也将为利用增加障碍。对于电子文件安全性的保障应该更侧重管理制度方面的完善,而不是增加技术复杂度。信息技术的快速发展,使人类由信息稀缺的时代进入了大数据时代。大数据时代的到来深刻地改变着我们的思维、工作和生活方式。档案信息资源是社会信息资源体系中的重要组成部分,其未来的发展必然要面对大数据的挑战,也必然会改变档案事业的方方面面。正如国家信息化专家委员会副主任丁家俊所言:“如果你不能够顺应大数据的潮流,企业也好,个人也好,都可能变成一个落伍者!”只有积极地认识和准备这次挑战,档案事业才能得到健康的发展。(作者单位:河南省南阳市林业技术推广站来稿日期:2013-08-14)转载请注明来源。原文地址:“大数据”时代电子档案工作的若干思考发布日期:2014-12-24发布:篇摘要:电子档案是“转化”或“处理”而来,不是“建设”而来。理想化电子档案工作环境的功能设计在现实环境下缺乏可行性,仅靠加大档案信息化的资金投入并非电子档案工作的有效保障措施,唯有转变思维方式,学会运用信息化思维、技术性思维和商业化思维,才是档案信息化的成功之路。中国论文网关键词:大数据;电子档案工作;思考;商榷《档案管理》2013年第6期刊发了张淑芳同志撰写的《浅议“大数据”时代下的电子档案建设趋势》一文(以下简称“张文”)。作者从相关概念的界定、电子档案建设的政策依据、电子档案建设的保障措施三个方面,多层次阐述了“大数据”时代下电子档案建设的趋势,文章在给予我们许多新知识、新观念、新理论、新观点的同时,也有一些值得讨论和商榷的地方。这里提出来与张淑芳同志商榷,如有不妥之处请张淑芳同志及广大档案界同仁给予指正。1电子档案建设的提法有待商榷张文在题目中使用了“电子档案建设”这样一个词组,个人以为这种用法不妥。一是“电子档案建设”没有一个明确的含义,在知网中运用句子检索“电子档案建设”+“是指”,或“电子档案建设”+“指”,再或“电子档案建设”+“是”进行检索,没有检索到相关句子。这就是说,在现有文献中没有对“电子档案建设”进行明确的界定或定义。二是从词典上查阅,“建设”一词的意思是指:“创立新事业;增加新设施;充实新精神。”[1]电子档案组合在一起应该是创立、增加或者充实一种新的档案之义,但从张文中的表述看,“电子档案是指通过计算机磁盘等设备进行存储,与纸质档案相对应、相互关联的通用电子图像文件集合”。[2]是“以电子影像技术为支撑,将纸质档案转化为电子信息”或者是“把应用系统的电子信息进行凭证化处理后”的产物。是档案的另一种载体方式。简单理解即:“电子档案”是“转化”或“处理”而来的,不是创立、增加、充实得来的。三正是因为这个词组意思不明,用法欠妥,所以在文献中采用这种用法的也很少,百不及一。据笔者在中国知网文献数据库中检索,在篇名中涉及“电子档案”的2695篇文献中只有14篇使用“电子档案建设”,约占0.5%;在主题中涉及“电子档案”的10294篇文献中只有39篇使用“电子档案建设”,约占0.38%;在全文中涉及“电子档案”的60864篇文献中只有468篇使用“电子档案建设”,约占0.76%。据此,个人以为在标题中使用“电子档案工作”较为妥当。2电子档案概念存在矛盾关于电子档案的概念,我国的档案学者给出的定义不尽相同。这里我们不讨论张文中关于“电子档案”的概念与其他学者所下定义的差别,主要讨论张文中有关“电子档案”概念表述存在的一些矛盾之处。关于“电子档案”,张文中是这样表述的:“电子档案是指通过计算机磁盘等设备进行存储,与纸质档案相对应、相互关联的通用电子图像文件集合。在大数据背景下,电子档案是具备数量巨大、结构复杂、类型众多特征的数据集合。”[3]这一表述前后及与其文中其他部分关于电子档案的表述存在一些矛盾之处。其一:张文电子档案概念第一句中强调了三点:一是“通过计算机磁盘等设备进行存储”,二是“与纸质档案相对应、相互关联”,三是“通用电子图像文件集合”。而在后一句中则没有了“与纸质档案相对应、相互关联”,“通用电子图像文件集合”也变成了“类型众多特征的数据集合”。从范围上看,前一句中“电子档案”所指的是与纸质档案相对应、相互关联的电子图像文件,而后一句中则指的几乎是所有电子数据。从类型上看,前一句中“电子档案”所指的是电子图像文件,而后一句中则指的几乎是所有类型的电子数据。前后表述意思不一。