浅析档案数字化风险警示与对策
近年来档案数字化工作在各级档案馆广泛展开,由此产生大量的数字档案。围绕数字档案长期有效保存的论述也是林林总总,这些数字档案的保管和利用逐渐成为档案业界关注的焦点。但是,随着计算机网络技术的飞速发展,互联网2.0的推出,大数据、云计算等新事物的出现,上一代的数据管理方式,尤其是那种以脱机载体为主体的数据保管方式被发现的问题越来越多。数字档案长期保存的要求与计算机设备隔代不兼容的矛盾依旧突出,锁定既定的设备制定一系列保管措施的做法一直无法化解这对矛盾,数据丢失的风险依然存在。
一、脱机载体长久保存的技术风险
目前档案馆数字化工作一般都委托给专业公司,数字化以后的扫描件一是挂接到应用系统的数据存放区域,二是刻录到光盘。由于数据量很大,交付的光盘数量也多,一般都要上千张,加之有的档案馆为了保险起见,往往要求专业公司刻录3~4套备份盘,光盘的数量随之增加几倍,这对档案馆而言,实际上增加了管理负担。因为存放的光盘不仅仅是立放在库房的柜子里就相安无事,而是需要定期进行可读性检测,长期没有检测的光盘不能保证光盘中的数据是否可读,而光盘逐一检测又是一件费时费力的工作。
回顾档案信息化进程中的数据丢失案例,对于当前正在大规模进行数字化的档案馆是一个很好的风险警示。
20世纪90年代,上海一些区县档案馆开始了数字化扫描工作,采用了某一知名公司的软件和设备,投入了一定的人力物力。这批扫描件在当时文件命名规则不是采用档号或文件标✈题,而是采用随机码,后来随着计算机设备的不断升级,原软件系统无法在新设备中运行,需要重新开发新系统。问题是原系统程序中通过随机码将目录信息与全文信息链接的代码,新系统是无法识别的。目录信息与全文信息✘的链条断了,通过目录查找全文的路径也断了,以致大批扫描件基本废弃。尽管存放这些扫描件的光盘是好的,扫描件本身也没有损坏,就因为此技术路线问题,让投入的人力物力付之东流。
当时,上海一些企事业系统要求财会电算化的数据向档案室移交、归档。使用的是5英寸和3英寸软盘,随着电脑设备软驱的消失,这些软盘已经没用了,里面的数据也没有机会进行迁移。此外,有的档案馆接收了统计部门或其他部门存放在软盘中的人口普查资料和其他业务数据,最终也因为软盘的淘汰而造成数据全部丢失。之后存放在光盘或者磁光盘的移交数据也是如此。这些案例中的数据废弃,并非是载体损坏,而是计算机软硬件发展的一个隔代不兼容性问题。同样推理就会担心,若干年后,未来的计算机是否还有光驱来机读现在保存的光盘?
虽然在电子文件保存和光盘载体管理方面出台了一系列的标准,但是✯有一个无法回避的问题,档案馆开展数字化加工的档案其保管期限一般都在30年以上,相应的扫描件如何通过脱机载体存放这么长期限是一个未知数。对于30年以后的计算机设备是什么状况也无法预测。鉴于前30年的发展过程,这些存放巨量信息的载体在30年内被淘汰是大概率事件。当然有不少人提出用迁移的方法解决技术更新带来的不兼容问题,但是否有人真正考量过迁移成本和操作性。至少目前很多档案馆经过数字化后,一是迁移量很大,数据的增量都达到T B级别;二是数据结构和数据格式并不统一,这些数据相互之间都有一定的关联,例如目录信息与全文信息不在同一数据库中,而是通过标识符连接。再由于全文信息的格式很多,以及原来生存数据的操作系统、数据库环境与新一代的操作系统、数据库的兼容程度的不确定性,迁移成功率也是不确定的。即便统一操作系统、数据库环境,实施数据从光盘或移动载体导入到服务器与应用系统连接,也难免会出错。所以,一旦硬件设备完全更新、操作系统和数据库也同时升级更新,原数据可能要进行格式转换,迁移出错风险也会更高。因计算机技术发展引发的脱机载体的数据无效保存风险还只是一种技术风险,在很多领域的实践应用中,这种技术风险是可以避免的,但投入的成本也很高,需要思考的是这种高成本的数据保存方式是否适合目前❣各个综合性档案馆各自为政的保管模式。
二、档案馆计算机机房及信息系统正常运行的管理风险
随着数字化工作的快速推进,档案馆数据量的急剧增大,一方面档案查询效率不断提高,另一方面管理风险也不断增加。为了合理部署数据存储设备和安全因素,档案馆的信息资源的存放有在线、近线和离线三种方式,同时又不时有新增数据导入和离线数据导出。这种数据操作有的通过程序驱动相应设备自动完成,有的依靠机房管理人员手动操作。无论自动还是手动操作数据,在缺乏校验机制的情况下,数据出错的风险依然存在。
档案馆计算机机房的各项设备,包括应用服务器、数据服务器、数据备份设备、网络交换机、不间断电源、空调设备以及各类安全设施的正常运转,才能保障档案信息系统的正常运行。
计算机机房的设备管理和数据管理,一是需要管理人员具备相应的技术能力,二是责任心,三是管理措施保障。
现行机房建设的运维安全措施一般都有替代功能,某一设备发生故障,备用的设备会接替运行。如果有的档案馆没有这种安全措施,服务器崩溃影响档案馆正常工作的风险是很高的,严重的可导致数据丢失。
虽然发生火灾、地震或恐怖袭击等极端情况的概率很小,万一真的遇有极端情况发生,对目前一些档案馆也可能是致命的。尽管这些档案馆采用了异地备份,通过移动硬盘甚至光盘将所有的数据下载,并送至结对的档案馆存放,以备极端情况出现以后进行数据恢复。但是这些脱机数据并未经过有效性检测,也没有进行数据复原测试,这些数据能否复原还是个悬念。
常见的数据管理风险是在数据手动导入或通过应用系统导入、导出、删除操作中出现数据丢失和数据冗余,造成目录数据库和实体档案不能一一对应,长期操作错误的积累将导致档案利用的查全率和查准率下降,库房实体档案数量统计出现偏差。
应用软件系统的风险是取决于能否选对软件公司,低质量的应用软件故障率很高,直接影响日常工作。一旦软件公司撤离或倒闭,应用软件系统不得不废弃。同时与应用系统链接的数据库以及全文信息需要迁移到新系统时,又可能由于加密等原因,使得后续软件公司无法接手这些数据,造成数据废弃。
三、建立风险应对机制和档案信息资源保管体系
建立风险应对机制是为了避免管理风险和技术风险,扫描件没有复杂的元数据羁绊,其数据的格式、应用系统的数据调用以及运行环境是可控的。档案馆在开展数字化工作之前就可以进行数据规划,确定数据长期保存和利用方式,对未来可能出现的技术风险进行评估。
1.建立数据规划及实施方案
数据规划就要考虑档案馆可能产生的数据总量,每年的增量,数据的访问量,数据的格式以及数据在线、近线和离线存放的规则。如果没有数据规划,配置的存储设备或离线存储的载体过于冗余,结果不仅是浪费,而且还可能产生以为多备份几套就会保险的心理,而疏于管理。
没有数据规划的设备配置是盲目的,例如某一档案馆数据总量不足1T B,数字化开展后每年的增量也不超过1T B,数字化的数据除了磁带、移动硬盘、同时备份几套光盘之外,又配置了20T B的磁盘阵列,这显然很不合理。根据档案馆最大数据量测算,这个磁盘阵列的容量可以用20年,而磁盘阵列价格下降速度很快,所以没必要过早地预留大的存储空间。另外,大型网络数据库的使用、操作系统、W E B服务器、应用系统和硬件服务器的维护,需要购买相应的服务。
数据规划的实施方案是对数据安全的一种操作规定,包括数据全备、增备、异地备份的操作要求和检测要求,使档案馆管理人员对数据安全能够完全自主掌控。数据规划应依靠专业咨询公司帮助完成,其中包含了数据总量预测、数据存储方式、数据备份策略、数据安全防范措施、数据迁移方法和突发极端事件的应对预案。
2.采用技术手段进行事故干扰和报警
在以往发生服务器故障造成数据丢失的事件,并非缺少备份措施和管理制度,往往是因很多备份设备无人值守,自动执行备份,由于电压、电流不稳定或备份软件的问题难免发生错误,管理人员直到服务器出了故障,数据库重新安装,导入备份数据时,才发现数据有问题,但为时已晚。
将机房所有运行设备,包括数据备份都连上监ล管系统,只要一发生故障就及时采取相应措施并通过短信报警,使管理人员及时赶来检查、处理,避免造成更大的伤害。例如,检测系统发现空调停止运转,机房温度达到一个临界点,立即关闭服务器等设备,并发出报警短信。
3.从宏观层面设计档案信息资源长久保存方案
全国各级档案馆开展的数字化工作产生的信息量已经极其巨大,目前这种各自为政的保管模式隐含了诸多风险。当前社会信息化已经到了大数据时代,各种相应的计算机技术和存储设备也是日新月异,云计算这种在线分布式数据存储方式已经在很多行业应用。如何利用这些新技术解决档案数字化产生的巨量数据长久保存问题,是否建立一个档案云,这是需要档案行政主管部门牵头研究的项目。在一定的行政区域中建立一个档案数据中心,将分散的资源、分散的投入集中在一起,通过强大的技术力量、优越的设备条件和先进的管理方式,使得数字资源能够有效保存。
数字化是建设档案信息资源体系的必经之路,从宏观层面决策新技术的应用是规避风险的最佳途径。