大数据架构下的文献资源管理应用
摘要:本文介绍了在图书馆情报领域数据管理中存在的信息孤岛、数据类型缺乏统一架构等问题,通过对实际应用中数据类型的分析,利用大数据存储的系统架构,使用关系型数据库与非关系型数据库结合,同时辅以内存数据库和分布式文件系统,对内部用户提供统一元数据管理,对外部提供统一数据访问平台和统一数据搜索引擎,从而实现对多种结构数据资源的管理和应用.
关键词:图书馆;大数据;数据存储;异构数据;非关系型数据库
作为以图书馆为基础的情报研究机构,随着近年数据资源量的不断增加,各类文献、图书、期刊、基础数据等都需要进行稳定的存储与高效率的分析。同时,基¡于这些数据的知识库、咨询服务智库等系统的建设也都迫在眉睫。为了能充分管理众多数据,为各类系统提供数据基础,有必要建设一个结构统
一、技术先进、可重复利用的数据资源平台,统一管理各类数字化资源。
1存在问题
面对大量的数据资源,在信息化过程中通常会碰到以下问题:1.1信息孤岛现象这种现象是指需求建设的应用系统存在相互之间在功能上不关联互助、信息无法共享互换以及信息与业务流程和应用相互脱节等问题,缺乏统一元数据管理。1.2多种类型数据缺乏统一数据架构每个业务环节都会有大量非结构化、结构化、半结构化数据♡,如何对这类数据进行统一分析管理。在这些多种结构的数据中存在大量内在关联,只有统一数据存储,才能进一步挖掘出数据中存在的深层价值。1.3软硬件环境重复购买现象在信息化建设过程中,新建应用系统都会根据自身需求重新搭建软件、硬件环境,大部分系统运行所需软硬件并没有达到资源的满负荷利用。1.4缺乏统一数据标准由于多年系统建设过程中由不同团队开发,造成相同数据内容格式不统一,存在大量冗余数据,彼此数据更新不畅通。1.5缺乏统一数据安全管理方案在日常工作过程中需要进行大量数据交互与实时操作,缺乏统一的信息化安全手段对数据分配权限进行管理,并实现定期的资源备份。
2建设目标
基于以上状况,考虑基于大数据架构的文献资源管理方案应可达到以下目标:
(1)实现基于统一元数据定义的信息集中管ธ理和信息共享,为数字出版、数据加工、咨询服务、日常管理等各项工作提供统一数据资源平台。
(2)实现统一大数据环境,满足各个应用对于文档数据、关系型数据、非关系型数据和内存型数据的统一存储需求。
(3)构建基于SOA架构的应用系统,保证在应用对于数据访问权限的统一管理。
(4)建设统一搜索环境,满足于各种数据资源能够统一搜索查询访问。
(5)建设必须具备高度的先进性、可靠性、可用性、安全性并具备良好的扩展性和灵活性。
3建设方案
3.1资源建设方案
图书馆中常见资源主要包括文献、图书、期刊、数值型数据、动态信息等。依据数据结构的不同,可主要分为基础数据、结构化数值型数据、非结构化数据、动态信息、其他文字类信息等几类。其特点如下:
(1)基础数据:主要如书目、期刊文献等数据;
(2)动态信息:主要包括各类网站、媒体发布的信息,时效性比较强;
(3)非结构化数据:主要包括格式不够统一的数值型数据;
(4)结构化数值型数据:可以定期获取的格式相对规范的数据,如海关进出口数据、图书期刊销售数据;
(5)其他文字类信息:更新频度较慢的文字类数据,如各类法律库、研究报告等;针对不同类型的数据资源,应对其采用特定的方式进行处理、保存及利用。3.1.1基础数据包括如数据、期刊文献等基础数据都应经过数字化加工、元数据定义、自动标引、关键数据提取等多个步骤,分别保存至相应数据库。3.1.2动态信息动态信息的来源主要是各个网站,包括网站文章及各类舆情信息。可以由技术手段完成从信息采集、分类整理到分发的所有过程。整个流程由三个规则来体现:分别是采集规则、分类规则、分发规则。采集规则:采集规则由编辑确定,包括来源网站、栏目等。利用爬虫技术,可对所有网站的资源进行自动增量采集,并装入“待分类库”。分类规则:分类规则利用到词表、词库以及自动标引技术。由专家及编辑对所有资源进行多维度分类,并提供相应的语料,经过学习,对之前进入“待分类库”中的所有数据进行自动标引。之后,所有的数据将被从多个维度被分类。保存后即可方便准确的提取。分发规则:在完成上述两项工作之后,所有的动态信息已经被分门别类的整理好。通过分类、关键词即可快速提取相关的信息。对于已经经过规范化处理的动态信息,也可以直接利用形成产品,同样依据自有的多维分类,即可把相关的动态信息直接推送给用户。3.1.3结构化数值型数据结构化数值型数据包括海关进出口数据、统计局数据、产品库等众多格式相对规范资源。由于数据量的不断增大,需要考虑使用数据仓库技术对所有的结构化数据进行规范保存,利用建模的方式保存数据。这类数据的主要用途分为两部分对内提供数据的查询,对外提供报告的自动生成。
(1)数据查询。规范化存储之后的数据可以方便的通过多个维度进行查询、钻取,内容的研究人员可以直接通过输入查询条件进行数据的查询,同时生成各类图表。
(2)自动报告。对外可以以产品的形式提供多种数据报告,利用预先准备的模板,在用户选择所需报告之后,利用已有数据,套用不同模板形成一份自动的报告。3.1.4非结构化数据对于非结构化数据,将主要通过两种方式来处理。
(1)非结构化数据的结构化。部分非结构化数据本质是结构化数据,因为某些原因才造成了数据的不完整,对于这类数据,需要整理结构的最大集并将相应的数据填入对应字段。在完成此步骤之后,可采用类似对于结构化处理的方式对这些资源进行处理。
(2)非结构化数据的标引分类。除上述的数据之外,还有一部分非结构化数据过于零散,只能采用标引的方法实现这些数据的归档利用。方法和动态信息的处理方式类似。3.1.5文字类信息文字类信息的特点是实效性不强,每次发布后都会长期使用。比如法律法规、咨询报告等。这类资源应主要采用自动标引的技术进行处理。首先也需有多个维度的分类、词库、词表以及语料,经过学习后将每篇文章进行标引分类,之后再将文章内的段落进行二次标引。这样,所有的资源都可以通过关键词、多个维度的分类进行提取,即可获取具体段落资源、也可以获取完整的文章报告。这类规整后的信息可提供给内部科研人员作为资料进行调用,同时可以为结构化数据的自动生成报告提供文字资源。
3.2技术建设架构
针对资源建设的方案,考虑采用关系型数据库与非关系型数据库结合的方式建立存储架构。3.2.1数据存储技术一个完整的数据环境,需要面对来自于各个方面的数据存储需求挑战,主要存在的数据存储需求为:
(1)文档型数据存储需求
(2)关系型数据库数据存储需求
(3)实时型数据存储需求
(4)非关系型数据关系型数据库的优势在于保持数据的一致性,由于以数据标准化为前提,数据更新的系统开销很小,同时可以方便的进行Join等复杂查询。MySQL是目前最流行的关系型数据库管理系统。尤其在WEB应用方面,它与PHP语言的结合是目前最为成熟、稳定、安全的技术之一。针对现有数据,绝大多数的结构化数据都可以保存在该类数据库中,从而实现复杂条件下的检索操作。同时,关系型数据库担任保存整个系统元数据架构与基本数据的任务,是其他结构数据库存储及导入导出的基础。NoSQL泛指非关系型的数据库。它的优势在于性能,由于NoSQL是基于键值对的,可以想象成表中的主键和值的对应关系,而且不需要经过SQL层的解析,所以性能非常高。另外可扩展性同样也是因为基于键值对,数据之间没有耦合性,所以非常容易水平扩展。它可以最大程度的解决关系型数据库所不擅长的大量数据的写入处理和为有数据更新的表做索引或表结构变更等问题。用NoSQL可以方便的保存系统中的非结构化数据,并根据实际需求随时调整其结构。分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。由于系统中数据资源过于庞大,为提高其使用访问效率,利用HDFS的一次写入、多次读写的特性。数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,从而响应各种各样的数据分析任务请求。以Redis为代★表的内存数据库,是基于全部数据都存在内存中的技术体系,抛弃了磁盘数据管理的方式,它在采用半持久化模式运行时所有数据都是保存在内存中,然后不定期的通过异步方式保存到磁盘上。通过这种方式,内存数据库在保证读写速度远超过传统数据库的基础上,又可对其数据进行分布式存储且具有可恢复性。针对以上需求内容,结合各种软件的特性:
(1)MySQL满足关系型数据库需求;
(2)NoSQL满足对数据结构要求灵活需求;
(3)HDFS满足文档类型数据存储需求;
(4)Redis内存型数据库,满足高速存取需求;提供统一数据存储环境,为后续数据统一元数据管理、数据统一权限管理、数据统一搜索等建设提供了充分必要条件。3.2.2数据访问平台统一数据存储提供大容量数据存储环境,满足数据存储的大量、高速、多样的需求。在这个基础上,还需要有统一元数据对存储的数据结构进行定义,统一数据访问安全控制对数据访问者进行权限控制,用数据统一搜索打通各种类型数据,为后续数据挖掘分析提供数据高速访问接口。3.2.3统一元数据管理元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataaboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。将所有资源的元数据统一管理,是进一步应用的前提。3.2.4数据统一搜索在具备数据存储与数据访问平台基础上,构建满足于融合关系型数据库、非关系型数据库、文件数据库以及内存数据库的统一搜索引擎,并在构建搜索索引过程中融入专业词库词表。以Web服务方式提供搜索引擎服务,对用户所输入的文字进行分词,并结合搜索引擎索引,进行词关系匹配,并按用 ツ户所需排序格式提供数据排序给用户。搜索服务提供web服务方式给应用系统使用,应用系统需根据自身权限范围进行数据搜索范围设置。通过上述平台的组合,可以为图书馆中文献、图书、期刊、数值型数据、动态信息等为主的各类型数据提供完整的管理解决方案,并通过具有词表技术的搜索引擎提供对外接口。
4结束语
虽然关系型数据库有着技术成熟、易维护、支持SQL方式的复杂查询、丰富的完整性约束等诸多优势,且在图书馆情报领域被广泛应用。但随着数据量的不断增大,数据类型的不断增多以及应用模式的不断变化,尝试传统数据架构+大数据架构的存储、管理和应用将是图情领域未来的技术架构发展方向。
参考文献
[1]朱洁,罗华霖.大数据架构详解:从数据获取到深度学习[M].电子工业出版社,2012.
[2][美]汤姆,怀特(TomWhite)著.王海,华东,刘喻,吕粤海译.Hadoop权威指南:大数据的存储与分析[M].清华大学出版社,2011.
[3]栗蔚,魏凯.大数据的技术、应用和价值变革[J].电信网技术,2013.
[4]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013.
[5]申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的nosql系统研究综述[J].软件学报,2013.