浅谈档案数字化的应用
摘要:20世纪90年代以来,全球范围内掀起了新一轮的信息化浪潮,“数字地球”“数字城市”建设日新月异,信息技术在行政机关办公活动中,出现了新型载体文件和电子文件,整个社会信息流通的基础结构发生了变化。“电子文件的产生,决不仅意味着一种新型载体档案的诞生,而且也标志着人类记录信息、传达信息、存留信息的方式发生了革命。这场革命是纸张产生以来,是近现代档案学理论诞生以来,文书、档案工作领域最剧烈的一次变革,它直接影响到档案工作的运作方式、基本理论乃至思维观念”。
如何做好城市建设档案管理工作,如何确保档案资料的系统性、完整性,如何确保档案管理规范化、标准化。已成为档案管理面临的亟待解决的问题,诸如日积月累的档案数量越来越多,只有实现城市建设档案管理数字化,才能有效地解决新形式下出现的新问题。数字化档案必将成为今后档案的主要存在形式。
关键词: 数字化;城市建设档案
中图分类号: G271 文献标识码: A 文章编号:
1.数字档案建设的基础工作
♡“利用数据库技术、数据压缩技术、高速扫描技术等技术手段,将纸质文件、声像文件等传统介质的文件和已归档保存的电子档案,系统组织成具有有序结构的档案信息库。”①档案信息数字化管理的目的,就是达到档案管理手段、职能实现与服务方式的数字化。
档案数字化是数字档案建设最基础的工作,传统栽体的档案经高科技技术加工成数字档案形式,通过局域网、政务网、互联网进行计算机检索、阅读电子档案,为迎接档案信息服务新环境的挑战,提高管理水平、提高效率,增强档案业务部门的服务水平,为档案内部管理及面向客户服务提供高效率的全面服务。 完整的档案数字化建设流程包括案卷交接、档案整理、目录著录、档案扫描、OCR文字识别、图像处理、数据校对、数据质检、数据挂接、整理还原、案卷入厍等环节。
图1-1 城建档案数字化流程图
档案的数字化可以节省档案存贮空间,缓解库房压力,也可以减少因对档案原件频繁使用而造成的磨损,妥善解决珍贵档案文献的利用问题,有利于保护档案原件,尤其是珍贵档案的保存。目前,数字化在档案事业中发挥着重要的作用,已成为档案工作发展的必然趋势。
2.档案数字化平台
档案馆这个昔日信息化发展比较落后的部门,在今天也有了很大的改观,大部分大中型档案馆已经建立了自己的局域网,并且建设了档案数据库,开发了自己的档案管理系统。所有这些举措都大大加快的档案馆数字化的进程。在未来几年中,建立数字化档案馆已经成为各档案馆的中心任务。
建设数字化利用平台,首先要认识数字化利用平台。关于数字化档案馆以及数字化利用平台的定义有很多,基本上大同小异°。数字化利用平台是将档案数字化后按一定的方式存储在巨大容量存储器上,通过数据库管理系统以及相应的管理软件,通过计算机互联网为利用者提供利用,并对利用工作中各项事务进行管理的计算机系统。
数字化利用平台的定义,我们由此可以看到它主要由两个部分组成:数字化利用系统和数字化制作系统。
2.1 数字化制作系统
数字化制作系统的主要功能是将档案信息数字化,为数字化利用系统提供内容服务。 数字化制作系统的工作方式可归纳为:首先将传统的以纸张、照片、录音带、录像带为存储介质的各种原始档案资料,通过扫描、压缩、转化等手段转换成图片、声音和影像文件,然后按照一定的存储方式存储在磁盘阵列、光盘库等各种大容量的存储介质上,最后建立这些电子文件的路径索引信息,将路径索引信息和档案目录信息共同保存在数据库中。
2.1.1 数 ϡ字化对象的确定
这是我们首先需要解决的问题,它决定了我们工作的有效性。将任何没有利用价值的档案数字化,都是一种浪费。所以我们必须决定哪些档案应该数字化,哪些不需要数字化。对于需要数字化的档案应按照利用价值、利用频率的高低顺序进行数字化。此外对于馆藏的特色档案也应优先数字化。例如我馆馆藏档案中存有明初的《南海县志卷》、明末清初的《佛山市古街道图》、民国时期的《佛山通济桥》和《佛山市开通第一条马路庆典》照片等解放前的珍贵档案资料,这些资料对于研究解放前的城市规划和市政建设等有着不可低估的价值。因此,它们虽然急需数字化,但应事先做好调查工作,以免造成不必要的浪费。
2.1.2 设备的需求
数字化制作系统完成档案的数字化及数字化后电子文件的存储,所以主要需要两类设备,一类是数字化采集设备,一类是存储设备。
数字化采集设备一般包括:档案资料和照片的采集设备,如扫描仪;声音和影像的采集设备,如采集卡;其它的数字化转化设备,如缩微片扫描仪。存储设备一般包括磁盘阵列、光盘库。在设备选购方面主要以数字化对象的种类和数量、数字化速度、数字化质量为依据。如可根据数字化对象的种类来确定需要的设备,根据数字化对象的数量估算出档案数字化后需要的存储容量来确定存储设备的容量,根据每年要扫描的档案的画幅数来确定扫描仪的数量和速度,根据声音和影像的清晰度来确定采集卡的档次。佛山市城建档案馆现有馆藏档案132889卷,排架长度1490米;航测图为7343张,航测照片364张;照片105000张,Betacom录像带180盒,DV录像带500盒;馆藏资料1800册。
2.1.3. 档案数字存储方式
佛山市城市建设档案馆馆藏档案132889卷,这些档案是按照国家建设部制定的分类大纲共分19个大类、91个属类、386个小类。如何制定档案数字化后的存储方式,是数字化制作系统中急需解决的另一个问题。这个问题又包括数字化后文件存储格式的选择,数字化后文件名称的规范以及确定文件存储的逻辑结构等问题。同一种档案在数字化后可以转化成不同的格式。
3.档案数字化格式的采用
档案数字化实现文本的输入,主要是采用扫描方式将纸质的文件与档案转换为数字化的形式。扫描加工是通过中高速扫描仪和专用扫描软件将整理和分检好的档案资料批量转化成图像文件,并自动实现图像压缩存储的过程。
3.1 扫描技术发展趋势
扫描技术中最主要的是色彩模式选择和分辨率选择。
色彩模式无疑会朝着彩色扫描发展,而分辨率的选择需要根据实际业务进行灵活设置。一般情况下,为了满足网络化查询利用,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些,具体参数可以根据扫描清晰度和质量因素进行综合选择。
对于一些特殊的利用如承办展览等可以采用较高的扫描分辨率来进行。值得注意的是,分辨率的选择既不可过低,也不可过高。如采用了50dpi的扫描分辨率,虽然容量小、费用低,但是根本无法实现上网查询利用;另一方面,如果一味追求过高的分辨率,则会导致容量过大,对于网上资源的传播也是一种负担。
档案数字化后还要考虑文字识别的运用,一般来说,文字识别主要用于全文检索之用,而非真正将扫描后的图像文件还原为文档,因而,就这一点看,不要以OCR的识别率来设置扫描分辨率,《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率≥200dpi,这是一个比较中性的标准。
图1-2 城建档案数字化图解
3.1.1 实际操作中的做法
实际工作中,档案部门根据档案本身不同情况,一般都采用各类扫描仪进行扫描,数码相机则较少使用。另外,实际扫描中受档案状况或扫描设备所限,也存有一些暂时无法进行数字化转换的档案,如纸张过于破损、发脆,或者某些尺寸过大的图纸等。而这些只能等待设备或者技术的更进后才可以解决。
色彩模式的选择是依据现有的设备以及档案本身状况而定的,可以遵守循序渐进的原则。比如佛山市城市建设档案馆在进行纸质档案数字化时,一期以黑白扫描为主,二期对红头文件及其他带有红章的文件进行彩色扫描,三期则全部进行彩色扫描。无疑,彩色扫描的层次更加丰富,清晰度更高,可以更真实地显示档案原貌。
分辨率的选择与设备关系很大,在不同地区、不同部门也有所差别。如佛山市城市建设档案馆在纸质档案数字化的一期工程中,就将扫描分辨率定为300dpi,佛山市档案局的数字化扫描分辨率一般在200~300dpi左右,有的高达600dpi;而在一些设备相对比较落后的三水区城市建设档案馆,其扫描分辨率大都是按照国家规范来设定的,甚至于很多部门还达不到200dpi。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。
3.1.2国家规范中的有关标准
档案数字化直接标准除《电子文件归档与管理规范》外,就是《纸质档案数字化技术规范》。这一技术规范指出,“扫描应该根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。”另外,“纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。”②
扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。因为高分辨率容พ易使文件遭到复制,基于此,国家规范中规定采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择≥100dpi。如遇到文字偏小、密集、清晰度较差等特殊状况,则可以适当提高分辨率。而需要进行OCR汉字识别的档案,扫描分辨率一般建议选择≥200dpi。
扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具体又细分为三种:“页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。”③
4.数字档案的存储格式
4.1 文档数据的存储
如何在数字化过程中将馆藏档案统一转变为某些具有国际或国家标准的电子格式,是档案数字化首先应该考虑的问题。
《电子文件归档与管理规范》中推荐的通用文件格式为:文字型数据采用XML文档和RTF、TXT格式;扫描图像数据采用JPEG、TIFF格式。《纸质档案数字化技术规范》中规定:采用黑白二值模式扫描的图像文件,一般采用TIFF格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储;提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。从前者到后者,可看出存储格式是不断发展且多元的。
4.1.1.文本型数据存储格式比较
以下对常见的几种存储格式进行比较,其优缺点都比较显著。
存储文档 发布与
开发商 优点 缺 点 备 注
XML W3C组织于1998年2月发布 可扩展,可以在不同系统之间进行信息传输,发现数字化档案的迁移,并能进行全文检索 更适合于网络管理,不太适合早期的档案管理系统 已列入标准
RTF Microsoft创建 容易识别,编排功能强,可以进行不同格式间的转换 格式繁多,容易产生混乱 已列入标准
TXT Microsoft创建 文件体积小,使用方便,能被几乎所有的文字处理软件所识别 不能插入图片,容量较小,不易与外界进行交换 封闭式文档
DOC Microsoft Word创建 可在文件中嵌入图表、图片、数学公式、建立超链接等,表现力强,操作简便,是目前使用最多的文本格式之一 成为国际标准 未列入标准
PDF 由Adobe公司开发 传输速度快,可以边下载边阅读,已经成为全世界电子文档分发的公开的实际标准,子文档分发的公开的实际标准支持多种格式文件,完整保留文件信息,打印效果与原版的效果一致。有打印全文功能和机上摘录功能 文件有时比较大 运用广泛,已建议列入标准
CAJ 由清华大学开发 可以放大和缩小页面,并有在当前页面内的查找字符功能 尚未成为流行格式 未列入标准
CEB 北大方正电子公司开发 适合于电子公文的处理,对文件内容实现保真、保全 在电子公文以外的地方使用较少 已建议列入标准
4.1.2.文档数据存储格式发展趋势
电子文件的发展对电子文件的格式、元数据的封装及其管理提出了很高的要求,但决定文档格式是否具有长久可行的存储优势,主要取决于文档是否具有开放性。就电子文档而言,开放就意味着共享。从这个意义上说,XML文档格式是最具优势的,它具有自定义“电子文件类型定义”及封装元数据等功能,又具有很强的开发性,因而是一种具有生命力的存储格式。另外,随着网上期刊的增多,PDF和CAJ等格式逐渐显现出其优势,在以后的数字化档案存储格式中也会占有重要的一席之地。
但是,某些格式如TXT、CEB等随着技术的发展,可能会变得不那么重要。TXT格式虽是国家规范中的推荐格式,但在当前的工作中已经较少使用;而CEB目前也只是在政府机关电子政务公文处理中使用比较广泛,《基于XML的电子公文格式规范》的出台将会进一步扩大其应用和影响。
4.2 图像文件存储格式
4.2.1各类存储格式比较
扫描之后图像文件采用何种格式存储,是需要不断随技术发展和运用作调整的。目前看来,许多格式都可以作为图像存储之用,当然,究竟采用哪些格式,还要根据情况作选择。以下特作一比对。
4.2.2.图像文件存储格式的发展
上述格式虽然有着各自的应用优势,但由于档案数字化技术还不成熟,所以数字化后的格式一般还是采用国家规范中所推荐的TIFF、JPEG等常见格式。但随着技术的发展,一些新的格式还是显示了强大的发展后劲。特别是JPEG2000和DjVu两种格式。
JPEG2000作为JPEG的升级版,其压缩率比JPEG高约30%左右,同时支持有损和无损压缩。JPEG2000格式有一个极其重要的特征在于它能实现渐进传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。此外,JPEG2000还支持的“感兴趣区域”特性,可以任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。
以下对常见的几种图片存储格式进行比较,其优缺点都比较显著。
存储格式
或技术 发布与
开发商 优点 缺 点 备 注
TIFF 由Aldus和Microsoft公司开发 非失真的压缩格式,图像质量好 占有空间比较大 已列入标准
JPEG 由联合照片专家组开发 用最少的磁盘空间得到较好的图像质量,允许用不同的压缩比例对文件进行压缩,支持多种压缩级别,适合网络传输 有损压缩,容易造成图像数据的损伤 已列入标准
JPEG2000 是JPEG的升级版 压缩率更高,同时支持有损压缩和无损压缩,可以对指定部分进行压缩,向下兼容 尚未在档案数字化领域得到应用 未列入标准,但运用前途广泛
PSD 是Adobe公司图像处理软件Photoshop的专用格式 存取速度最快,功能很强大,方便修改设计 很少为其他软件和工具所支持,占有磁盘空间比较大 未列入标准
GIF 由美国在线信息服务机构CompuServe于20世纪80年代开发 压缩比高,磁盘空间占用少,可以进行动态图片的传输,可以较好地保存网页数据传输的图像文件 不能用于存储真彩色的图像文件 未列入标准
PNG 由Unysis公司拥有算法专利 色彩丰富,无损压缩,图像品质高,显示速度快,支持透明图像的制作 文件所占空间较大 未列入标准
DjVu 由美国电报电话公司实验室于1996年开发 压缩率高,能产生最好的图像品质及最小的档案,使网上图片的传输更为快捷 尚未在档案数字化领域得 未列入标准但应用前景好
JPEG2000和JPEG相比优势明显,且向下兼容,因此可取代传统的JPEG格式。JPEG2000既可应用于传统的JPEG市场,如扫描仪、数码相机等,又可应用于新兴领域,如网络传输、无线通讯等等。JPEG2000在当前的档案数字化中并未得到应用,但随着档案信息网络传输的开展,这一格式也可以成为档案数字化的标准格式。
DjVu是由美国电报电话公司实验室于1996年开发成功的一项新的图片压缩技术,通过这项技术,บ几乎所有的传统印刷资料都可在网上以高速传播。DjVu具有1000:1的高压缩比,通过DjVu压缩格式,以300dpi的分辨率扫描的彩色页面可以从25MB缩小到30至80KB,而且图像质量十分优秀。它能分辨出文字及图片的部分,并且分别储存在不同层,再分别对每一层图像以最佳化的方式进行压缩,因此能产生最好的图像品质及最小的档案。这种技术将能得到清晰的文件图像,而又能保持原始文件的图像品质。 5.数字化的城市建设档案创造良好的社会效益
传统管理方式保存的大量纸质档案资料往往造成库房压力大,查阅、调档效率低,原件易受损。佛山市城建档案馆于1996年在馆内计算机房投资130万元,配置有先进的硬件设备和获广东省建设系统科技进步二等奖的《佛山市城建档案馆管理系统》,声像室配有多种类型的摄像、照相设备,综合应用图像处理、视频处理和数据库技术对档案进行现代化管理。 佛山市城建档案馆于1997年11月18日晋升省特级城建档案馆;1998年10月9日晋升国家一级城建档案馆,同年被国家建设部授予全国城建档案工作先进集体;2001年被佛山市委、佛山市人民政府命名为佛山市文明窗口单位。编有各种分类目录325本,并逐步以计算机检索代替手工检索,2002年7月开始对外试运行触摸屏查询系统。1986年至2001年共接待到馆查阅人次30345人次,调阅案卷22079卷,为规划管理、房产确权、工程扩建、查处违章、拆迁补偿、爱国主义教育、国有资产登记等方面提供了大量翔实的依据,创造了良好的社会效益,其中为国家、单位和个人避免经济损失达14亿7千万元。
档案工作的数字化建设是顺应潮流、适应时代发展的新举措、新要求。档案作为一种原生信息资源,其重要性正日益凸显出来,逐步掌握信息技术为档案工作服务,为社会主义经济建设服务,为社会主义精神文明建设服务。