中国地方志(旧方志)资源库的设计与展望
中国地方志资源库的设计与展望 中国地方志资源库的设计与展望 地方文献论文 更新:2006-4-8 阅读: 中国地方志资源库的设计与展望
一. 中国地方志资源库建库缘起
地方志,也称为“方志”,“志”就是“记”,是记录、记载、记述的意思。顾名思义,“地方志”就是一个地方从古到今,从自然到社会方方面面情况的总览。中国国家图书馆特色馆藏,就包括1949年以前编纂的地方志,不论质量还是数量均居海内外各藏书单位之首。对于先人留给我们的这一宝贵文化遗产,我们有责任保护、利用和推介。采用数字化的形式,整理、加工旧方志资源,是实现这一目标的有效途径。
方志资源库采用什么样的结构模式,是建库之初首先遇到的问题。国家图书馆资源库的发展历程伴随着图书馆发展的脚步,也经历了从传统馆藏资源———馆藏资源数字化———数字图书馆资源库发展三部曲。我馆现在已有的数据库,大多是将传统馆藏经过数字化处理生成的。方志资源库如采用原有的思路,即把志书平行地转换成数字化内容,那我们最终实现的仅是把纸质志书转换成电子志书。就载体形态来说,志书数字化使其发生了质的飞跃,但就内容而言,它仅是形式的变化。而当今信息网络技术的发展,信息网络资源的迅速扩大,越来越影响和改变着人们选择信息、使用信息的行为和方式。人们对知识的需求已不满足于以文献为单位,而是希望通过简单、快捷的方式检索到所需文献中的具体事件、数据、结论等知识单元,同时将所需知识单元和与其相关的信息进行整合,在最短的时间内获取最大的信息量。为了最大限度地开发方志资源,多角度、多侧面地深入揭示方志内涵,依据信息时代人们的信息需求特点和信息网络技术发展所提供的技术保证,达到知识创新的目标,因此,方志资源库的建库模式应定位在数字化信息资源的重组与多媒体展示的平台上。在此,先论述图书馆数字化和数字图书馆之间的联系与区别以及其他几个基本概念。
二. 方志资源库的几个基本概念
1.图书馆数字化:从字面上看,传统图书馆馆藏经过数字化技术处理和加工,为用户提供服务,这个过程就叫图书馆数字化。这方面的工作我们在十几年前就开始了。例如:八十年代后期我们就在M150机上编制“国家书目”,九十年代前期我们开始编制的地方志书目数据库及以后编辑的地方志人物传记索引数据库,直到目前我们还在做的“古籍书目”数据库以及我们将要建的地方志资源库中的全文影像库等都属于图书馆资源数字化的范畴。其工作对象和结果仅限于传统资源本身,或者说它只是一种载体形式的转换。
2.数字图书馆:数字图书馆是把传统图书馆的功能由信息的查询和图书资料的借阅扩ญ展到知识服务的新阶段。其中两个关键的技术是信息资源的整合和知识的创新。前者就是要依据统一标准,将相互关联的信息资源重新组合并进行科学的分类和标引,强调重组后的信息资源的有序化和关联性,而后者突出的是知识的增值与创新。如果把前一过程比做物理学中物质所发生的“物理变化”的话,则知识创新所引发的就是物质的“化学变化”。即通过分解、重组,形成了新的信息知识网络,较原来的传统信息资源在功能、用途等方面都发生了质的变化。对此许多专家、学者都有严谨的描述和解释,在这里就不一一赘述了。通俗一点儿说,它有以下几个特征。
信息资源数字化:数字图书馆内的所有信息资源都经过数字化处理。
服务手段网络化:它借助网络技术、计算机技术和现代通信技术传播知识,突破了馆舍的时空局限,用户可以随时随地得到所需信息,是不局限于图书馆场馆的。
资源实体虚拟化:它是基于互联网的多维知识网络,突破了传统载体的限制,延伸、拓展了传统图书馆馆藏外延。它不仅提供传统的基于印刷介质的服务,还可通过跨库检索,对数字信息进行重新组合,提供重组后的信息服务。因而,它是对馆藏资源的再开发。例如:“昭陵”和“玄武门之变”分别是景观和事件对象资源,它们都与“李世民”相关联,分别收藏在景观库和事件库中,但重组在一个页面里,以视频、音频、图像等多媒体手段展现在用户面前。
检索方式良序化:依据统一规范即统一的元数据标准,对数字信息资源进行科学的分类和标引,达到对数字信息处理的良序化,保证了分散的数字资源经重组后提供给用户精确的检索,检索效率很高。这一点有别于一般的网络搜索引擎。网络搜索引擎是通过网络机器人自动搜索并生成相关的著录信息,存入数据库中供检索之用,其检索系统由于采用自动标引,检索后的网上信息还需要人工识别处理,检索效率太低。
信息利用共享化:由于数字化图书馆内的信息资源的加工、发布都依据统一的标准和规范,所以它可以最大限度地实现信息资源的共建共享。
3.元数据:传统图书馆流程中重要的一步工作就是图书、期刊的编目,便于用户查找。数字图书馆中的数字资源同样需要编目。元数据就是为了满足数字资源的编目需要应运而生的,它是数字图书馆编目的新规则,是一种有效的信息资源组织和管理的工具。它具有描述性、结构性、管理性。就描述性而言,我们以前用的卡片目录,现在用的MARC格式都属于元数据的范畴。但元数据又比卡片目录、MARC格式具有更强大的描述能力,而元数据所具有的结构性和管理性使它能更全面的反映了数字文档的各个方面,为数字资源的保存和利用提供了更有效的工具。
4.资源库:经过专业人员组织、加工、整合而成的符合数字图书馆规范的资源的集合。它具有数字图书馆的基本特征。资源库是完全网络化的,具有强大的检索平台和丰富的检索途径。一般资源库都包括了文字、图片、视频、音频等丰富的多媒体资料,对各种媒体都具有良好的支持。各种专题知识资源库组成了数字图书馆的物质基础。资源库的建设不可能一蹴而就,它要随着时间的推移、知识的不断更新,动态地更新内容。由于资源库的信息资源使用统一的加工、发布标准,可吸收各信息资源优势单位参与共建,形成系列知识库群,使信息资源最大限度地被公众所共享。
三. 方志资源库的结构和内容
根据方志内容特点和用户需求,我们的方志资源库设计成由一个全文影像库,一个OCR数据库和八个专题子库组成。
用户既可通过全文检索进入全文影像库或OCR库,也可通过“跨库检索”、“字段联接”和“词语置标标引”等方式进入各个专题子库,再通过8个专题子库跨库进入全文影像库或OCR库,该方法实现了不同专题库中的字段及字段中的内容的链接。
1 全文影像库:就是将国图分馆所藏的1949年前编纂刊行约6000余种地方志书进行全文扫描,即志书的数字化处理,全文影像库并没有改变原有的信息组织,它只是对纸制志书的载体形式进行了一次平面转移,即将纸制旧志通过扫描处理,变成可在网上阅读的电子书。在全文影像库用户除了阅读原书,还可以做多幅影像的比较即版本校勘。。
2 OCR数据库:OCR是英文Optical Character Recognition 的缩写。意为“光学字符识别”,也可简称为文字识别。通俗地说就是计算机认字,是一种文字自动输入方法。它的作用是将全文影像库中的志书影像转换成文本格式再进行切词标引,按设计要求规定标引到志书中的“标目”。在OCR数据库中,用户不但可以阅读到旧志的原文,还可以对志书进行全文检索,也可进行精确到“标目”的词组检索。同时用户还可以根据需要进行个性化处理,例如添加标记、注释,选择自己需要的内容进行编辑、复制,对文本形式的不同版本的影像进行多屏幕比较研究等。
以上两个库内容的外延都没有超出志书提供的内容。而只是将原书载体形式做了转换,以电子图书的形式显现。
3 八个专题子库:八个子库的建库原则是以原书为基础,按照元数据标准进行规范化处理,多角度、多途径地丰富、补充、扩展原书内容,将原来分散或不完整的方志信息集合起来,形成地方志知识网络。八个专题资源库彼此相连,并且都与全文影像库和OCR库相连接,专题资源库的检索条件可以单独使用,也可以两个检索条件组配,进行复合检索。在专题资源库,用户根据需要,从一个知识点入手检索,就可以方便、快捷地跳转到全文影像库、OCR库或不同的专题资源库,检索到与入口知识点相关的各种信息,从而为用户节省大量的精力和时间,最大限度地为用户提供个性化的服务。
人物资源库
凡出现在方志人物、选举、职官等篇目中的有较详细传记资料的人物,按照元数据标准进行规范处理,通过“单纯参见”或“相互参见”建立规范人名与非规范人名之间的联系。人物资源库基本内容包括:规范人名、又名、性别、籍贯、民族、生卒年、主要活动年代、人物关键词、分类、相关信息等。一般人物以其“名”作规范名称,知名人物以人们熟悉的通行名称作规范名称。例如清代著名藏书家黄丕烈,字绍武,又字绍甫,号荛圃,别号荛夫、老荛、复翁等,室名学耕堂、百宋一廛、龟巢。在人物资源库中,此条数据的规范名称选黄丕烈,而其字、又字、号、别号、室名等则入“又名”字段,同时在规范名称与又名之间建立单纯参照关系,用户可从黄丕烈的任一名或字、号入口检索,机器自动指引到规范名称———黄丕烈,检索出与他生平相关的信息。用户还可以通过相关人物字段检索到和黄丕烈同时代的苏州另外三个著名藏书家周锡瓒顾之逵、袁廷的相关情况。通过跨库链接检索到黄丕烈的著作以及和他有关的地名、事件、插图、景点、研究文献等),用户也可以根据需要回全文影像库或OCR库查看原文。人物资源库多侧面、多角度地描述被传人物。
事件资源库
事件资源库收录了志书大事记篇或杂ฑ记中记载的重大事件。内容包括灾祥、战事等。依据元数据标准,对事件资源进行规范著录、标引。事件资源库基本内容包括:事件名称、发生时间、地点、事件简介、分类、关键词、相关信息、影像原文、OCR原文和出处等。
例如清光绪二十四年,以康有为为代表的资产阶级维新派发动了资产阶级政治改良运动,即著名的“戊戌变法”又称“百日维新”。此条数据的规范名称选用“戊戌变法”,事件又名为“ป百日维新”,规范名称与事件又名之间是参见关系,用户不论是从规范名称“戊戌变法”还是从事件又名“百日维新”都能检索到事件信息。用户还可以通过分类号、关键词等途径检索事件信息。通过相关信息跨库了解戊戌变法的代表人物康有为等的生平事迹、康有为的著述、事件发生地北京的情况,也可以返回全文影像库或OCR库查看在志书中的记载。
作品资源库该库收录了方志艺文志、人物志中记载的著述、诗词、游记✪、散文、墓铭志等作品,依据元数据标准进行规范著录、标引。它与研究文献资源库的区别在于作品库的内容一定出自志书,所做的补充和扩展都是为了保证志书的作品的完整性而进行的。例如:《武功县志》上有关于骆宾王的记载,而艺文志中他的诗文作品收集的又不全,这时为了保证有关骆宾王诗文作品在作品库中的完整性,可以从志书其他方面进行补充和完善。
作品库内容包括:作品题名、作者、作品出处、出版情况、现存版本、发表时间或历史时期、关键词、分类、原文等、作品出处、提要和制作信息,并增加了相关地名、人物、事件、作品、景点、插图、研究文献、影像原文和OCR原文链接,使作品资源库内容更丰富、充实。以著名藏书家黄丕烈的著述为例,用户通过作品库不但可以检索到《苏州府志》著录的黄丕烈的著述:百宋一廛书录、百宋一廛赋注、士礼居诗抄二卷、还可以十分方便地检索到作品主人其他方面的信息,如研究文献《黄丕烈评传》。
插图资源库
插图资源库将志书中的舆地、器物、肖像、景观和营造等类插图,依据元数据标准进行规范著录、标引,建立插图资源库。该库内容包括:插图代码、名称、版框尺寸、出处、关键词、分类、相关链接、图象信息。用户可通过插图名称、关键词、分类号等途径,检索到志书插图并能自动连接到同一志书的其他插图。还可以通过“原图”、“原文”按钮或输入URL网址与全文影像库、OCR库链接。
景观资源库该库将方志中记载的名胜景观,依据元数据标准进行规范著录、标引,建立景观名称和它的又名之间的相互参见关系,并在该库中增加了景观图片、视频、音频资料,相关人物、事件、作品、地名和研究文献等信息,使景观内容更丰富、充实。该库内容包括:景点名称、位置、景观介绍、分类、关键词、景观文化、周边景观、下层景观并可以链接到影像原文或OCR原文。
目次资源库该库记载国家图书馆志书收藏信息。依据元数据标准,对志书题名和志书中的卷次篇目进行规范处理。通过该库用户不但可以检索到志书书目,还可以对书中的卷次篇目进行检索。目次资源库的基本内容有:志书名称,目次名,版本项、载体形态、相关信息等。
研究文献资源库收录后人对志书、志书版本、志书内容的评论、研究、考证论文、论著。依元数据标准进行著录、标引。该库基本内容有:文献名称、作者信息、原文、分类、关键词、文献发表时间、发表刊报、相关链接、影像原文、OCR原文等。
全文影像库,OCR数据库和八个专题子库相互关联,互为依托,构成数字方志资源库的主体。为了更好地说明方志资源库的内部结构,我们以陕西省《武功县志》为例,分析方志资源库中各个专题库之间的相互链接关系。
假如我们从地名库进入,以“武功”做检索词,则在地名库这个条目下不但可以检索到武功县和与之相临的礼泉县的情况,还可以通过字段联接和词语置标标引等手段从地名库直接跨库进入相关子库检索到与“武功”有关联的人物、事件、作品、景观、插图、研究文献、目次等,同时这些专题子库都可以与全文影像库和OCR库相链接,用户随时可以根据需要查看原文出处。同理,用户也可以从其他任意一个专题子库进入,检索效果相同,如图。
四.方志资源库的建库进程及展望
我们在对馆藏情况进行认真分析、调研后,就方志资源库的结构、规范、收录范围、工作进度、共建共享等问题反复论证、规划,在此基础上,我们推出了方志资源库演示版,并在2002年7月召开的《北京国际数字化公众信息服务与技术展览会》上进行了展览和演示,得到了与会各级领导和专家及观众的关注和肯定。现在我们已经开始了全文影像库的建设,到2002年底,我们计划完成330万页旧志的全文扫描,同时,对7月推☁出的演示系统进行完善,从明年开始着手制作与之配套的OCR数据库及地名、人物、事件、作品等八个规范化的专题子库。方志资源库完全建成后,应包括本馆所藏6000余种地方志及其相关信息资源。此外,我们还设想待今后条件许可继续扩大收录范围,一方面希望联合全国地方志收藏单位,参与我们方志资源库的建设,另一方面将吸收我馆普通古籍中所藏的各种专业志资源,丰富其内容,将其建设成为更广大意义上的中国地方志资源库。
通过上面叙述,可以看到正在建设的方志