地方文献数据库建设初探
吉安地区坐落在赣中南,是一座历史悠久的地理文化名城,拥有丰富的地方文献资源。建立吉安地方文献资源数据库,为地方经济建设服务,是图书馆与地方经济建设相结合的有效途径。
1 吉安地方文献数据的采集
地方文献是指有关当地的一切资料,表现为不同时期各种记载形式的文献,如:图书、杂志、报纸、图片、影片、画片、拓本、表格、传单、票据、文告、手稿、簿籍等。因此,地方文献的数据可以从时间、空间、内容等方面进行采集。
1.1时间顺序
1.2空间范围
地方文献具有典型的地域性,使得地方文献的出现始终与一定的地域相联系。吉安地理位置复杂,从地形、地貌到各区方言,再到各地习俗都有很大的区别。所以,我们可以按照地理空间,一般是按行政区划来划分。市下设县,县下设乡镇,直到村。以地名来收集地方文献,按地域区分隶属关系,以地名作为细类和子目,将库容文献各归其类,有利于编制地名归类文献检索子系统,形成一个树杈式的检索结构。
1.3 内容范围
地方文献是某一地域自然现象、社会现象的知识记录。天、地、人、事、物,包罗万象,按内容进行划分可分为:
1.3.1人文、历史类数据
吉安地区研究数据 (历史、现状、人文)。对于吉安市近500 年的历史,按时间空间顺序,对期间的历史、现状、人文、风俗进行收集,形成该地研究数据库。我馆历时 3年之久,编撰了《井冈山革命斗争史研究资料索引》,汇编了全国图书、报刊文献当中所载的有关井冈山斗争资料1300余条,集中反映了井冈山革命斗争史和井冈山精神。
本地区名人数据。吉安自古以来就人杰地灵,从“人生自古谁无死,留取丹心照汗青”的文天祥,到一代文豪欧阳修,再到贺子珍、袁文才、王佐等一代革命家,到曾庆红等新一代国家领导人。以这些历代名人组成专题数据库,对于其中的有特殊贡献的名人,可追加全文数据库、照片数据,辅之以字画、印章等必不可少的内容。我馆目前正在建立《古代吉安名人研究资料索引》,计划将陆续出版欧阳修、文天祥、杨万里、刘过、刘辰翁、周大必等古代名人的研究资料索引,目前已出版 《杨万里研究资料索引》、《欧阳修研究资料索引》。
古籍数据。包括本地的全部古籍地方文献的专题数据库。由于古籍珍贵,甚至有的是孤本,不便于查询,可通过光电扫描技术,存入计算机。如《杨万里研究资料索引》中收录了杨万里的诗、词、文;《欧阳修研究资料索引》中收录了其诗、词、文赋以及其史学观、经济观、书法等。
地方志数据。包括本地全部史志的专题数据。按照地域范围,依次逐步采集。
姓氏渊源数据。建立专题数据库,可根据需要建立全文数据库。
谱牒多媒体数据。
、 两种数据在 《杨万里研究资料索引》和 《欧阳修研究资料索引》当中都有所反映,资料分别介绍了欧阳修、杨万里ฒ的家世、生平、年谱。
1.3.2 商情类数据
(1)行业动态数据。包括吉安地区热门、重点行业,如政策动态、市场、投资趋势,形成旅游、电子、生物等行业特色专题数据。
(2) 地方企业名录数据。吉安有许多企业,如电线电缆总厂、江西电视机厂、八三四厂。建立地方企业名录数据库,以公司名称、业务经营范围、产品名称等反映公司行业主题特征的字段作为基本索引字段,以公司地址、电话、员工数字段作为辅助索引字段。
(3)地市名特产数据。吉安地区有许多地 ツ方名特产,如:遂川狗牯脑茶叶、泰和武山乌骨鸡、安福火腿等,以他们的产地、用途、成分等字段来描述,形成专题数据库。
(4)旅游资料数据。吉安旅游区和待开发旅游区,如:井冈山旅游区、遂川汤湖、吉安青原山道教胜地、八都毛主席故居、君山湖度假村等,按他们的地理位置、主要景点、服务项目、历史典故等字段形成数据库。
(5)地区农业科技数据库。吉安是个以农业为主的地区,开发多种经济作物,如:茶叶、玉米、烟叶、甘蔗等等,数据库重点介绍地方特色产品的历史、种植、栽培、加工等技术。
1.3.3 综合数据
介绍该地各行业、各个方面的百科全书性综合数据。
2 吉安地方文献数据库的设计
2.1书目型数据库
书目型文献数据库即二次文献数据库,储存原始文献的题名、著者文献出处、文摘、主题词等项目。其价值在于把用户指引到所需要的原始文献,如欧阳修研究,把对欧阳修研究的文章进行二次加工,形成书目索引,可设计为书目型数据库。在对吉安地方文献进行分类时,可把本地区名人数据,人文、历史类数据,古籍、地方志数据建成书目型数据库。目前我馆建立的《古代吉安名人数ฟ据库》,就可按照其索引资料建立书目型数据库。
2.2 源数据库
源数据库即一次信息库,储存用户作为检索目的而要求获得的数据、事实或文本。其价值在于检索的结果可以直接满足用户的信息要求。按照信息形式不同可分为:
(1)数值型数据库。如:吉安地方工农业总产值、市场等。
(2)词典型数据库。把姓氏渊源数据、地方企业名录、地市名特产品数据、旅游资源数据、农业科技等建成词典型数据库。
(3) 全文本数据库。名人著作数据库、古籍数据库等可建成全文本数据库。
有些数据还可能是上述 3 种形式的结合。如:本地名人数据库中欧阳修、杨万里研究资料,包括了他们的原著及其研究论文、政治思想观点、家世生平和年谱等等,内容复杂,可建成一些复合式专题数据库。
2.3 数据库地址指针在数据库文档组织中的使用
利บ用倒排挡形式,把由基本索引字段构成的基本索引款目和由辅助索引字段构成的辅助索引款目采用倒排的形式,描述其特征标识、存取号、字段位置。在实践中,为了提高联机响应的速度,常采用两级索引的倒排文档结构,即将倒排文档分为词典文档和存取号文档,
词典文档也称为ม索引文档款目,内容包含特征标识、含有该标识的记录总数、关联到存取号文档的指针。词典文档相当于一个索引词表,其规模由索引词数量决定,基本不受数据库文献或数据记录增加的影响,可以极大提高系统对检索终端的响应速度。存取号文档的款目主要包括与词典文档指针关联的存储地址、含有该标识的记录存取号,以及该标识在记录中所处的字段及其位置。这样的两级索引结构不仅包括了原倒排的全部内容,而且使主机联机响应速度得到极大的提高。这是由于特征标识与含有该标识的存取号及其字段位置的分离。虽然使文档的结构更为复杂,却突破了原先倒排文档的索引款目会因记录的增加而数百倍增加,进而因文档的规模扩大而影响检索速度的限制。在 《欧阳修研究资料索引数据库》当中,由于数据库规模大,所以也可使用指针来达到提高联机响应的速度。如使用辅助索引倒排的两级结构。
另外,使用链接link把书目型数据库和文摘型数据库、全文数据库都可以连接起来,实现根据检索需求,查找地方文献的题录、文摘或全文的目的。
〔出处〕 科技情报开发与经济2003