大数据对图书馆的影响研究
关键词:大数据;数据服务;图书馆
摘 要:文章在简述大数据特点及与云计算关系的基础上,分析了大数据带给图书馆的机遇和挑战,同时提出了图书馆的应对策略。
作者简介:范春玲(1978―),黑龙江省图书馆副研究馆员。
1 引言
目前,大数据技术还处于探索发展阶段,尚未得到广泛应用。但笔者认为,作为以信息保存、开发和利用为首要任务的公共图书馆来说,应明确认知,在大数据时代对纷繁复杂数据的保存和分析是必须面对的挑战。同时,图书馆人还应以特有的信息敏锐性和职业前瞻性来思考大数据对未来图书馆发展的影响。
2 大数据概述
大数据是互联网发展到现今阶段的必然产物,是由人们日益普及的网络行为所伴生的,受到相关组织、企业采集的,蕴含数据生产者喜好、真实意图的,非传统结构和意义的数据。因此,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。基于大数据分析的情报信息成为组织机构、企事业单位进行科学决策、生产发展、科技创新的主要依据,因此业界有三分技术、七分数据,得数据者得天下的说法。
2.1 大数据特点
大数据的概念自提出以来,仁者见仁,智者见智,目前尚未有让大家认可的标准表述。但业界对大数据的4V特性保持了一致意见,即:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。大数据的4个“V”也就是4个方面的特点:①Volume指数据体量巨大。从TB跃升到PB级别,也就是只有PB级别的数据才可称为大数据。②Variety指数据类型繁多。如目前流行的网络日志、视频、图片、地理位置信息等众多类型的数据。③Velocity指数据处理速度快,即可从各种类型的数据中快速获得高价值的信息,这和传统的数据挖掘技术有着本质的不同。④Value指只要合理充分利用数据并对其进行准确、正确的分析,将会带来非常高的价值回报[3]。
2.2 大数据与云计算的关系
大数据的数量级通常达到PB级别,必然无法用单台的计算机进行处理,而必须采用分布式架构。分布式架构的特点是对海量数据进行分布式数据挖掘,但它必须依托云计算的虚拟化技术、分布式数据库、分布式处理和云存储。因此从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分,但二者也存在一定的区别:云计算强调的是计算能力,数据是操作对象,而大数据使数据可增加、可共享,管理数据是重点。
3 大数据带给图书馆的影响
虽然大数据在国内尚处于初级发展阶段,但其对各个行业的推进力正日益显现。图书馆历来是新信息技术的研究和实践基地之一,大数据不可避免地对图书馆的发展产生一定的影响。下面笔者将从大数据带给图书馆的机遇和挑战两个方面进行阐述。
3.1 大数据时代图书馆的机遇
3.1.1 大数据使图书馆能清楚了解读者流失原因,应对生存危机。图书馆是我国数字文化服务体系的重要组成部分,在文化大发展大繁荣的背景下,图书馆得到了进一步的发展建设,但是由于更多的数字资源可直接从网上获取,而蓬勃发展的社会化网络交流服务平台也使得图书馆的参考咨询服务不占优势,诸如此类的众多原因,导致公共图书馆的价值被淡化,读者流失较为严重。而在大数据时代,图书馆可以借助大数据技术来分析读者的信息行为,了解读者的需求意愿,还可以更进一步地通过挖掘用户在交互型知识服务过程中的潜在需求,来对读者开展有针对性的特色服务甚至智能化服务,从而吸引读者的到来,应对图书馆的生存危机。
3.2.☠1 图书馆基础设施的挑战。大数据时代,数据成本的降低促使数据量飞速增长,而读者的一言一行、一举一动等产生的是大量的半结构化和非结构化信息数据[4]。这些信息数据的类型格式、组成结构、存在形态等都非常复杂,传统的IT架构和信息储存形式已无法满足要求。虽然云计算的出现理论上解决了海量数据的存储问题,但由于云计算的应用远没有达到理论所期待的程度,图书馆现有的软硬件等基础设施尚无法架构成满足需求的云存储。所以,在大数据时代图书馆的基础设施是首要面对的挑战。
3.2.2 图书馆员思想观念和能力的挑战。大数据技术到目前为止仍然是一项新兴的技术,由于种种原因其尚未被广泛应用,大数据理论仍有待于市场的验证和核实。因此,对于图书馆人来说,对大数据的领悟基本处于模糊的概念认知阶段,认为其离自己很遥远,在心理和行动上无法跟上大数据时代的节奏,在面对一些“可能是良好机会的数据”时没有清醒的认知,没有形成将数据转换成知识的服务意识。而有些馆员即使具备了用大数据技术服务读者的意识,却不具备应用大数据的能力。
3.2.3 图书馆面临技术应用挑战。图书馆界缺乏专业IT技术人才是不争的事实,因此,在大数据时代图书馆如何应用云计算技术及大数据技术来认识、管理和分析其所拥有的各种结构化、半结构化和非结构化数据,如何建立软硬件一体化集成的大数据综合解决方案来完成知识获取、存储、组♪织、分析和决策等。这些是图书馆在大数据时代不得不面对的技术应用挑战。
3.2.4 图书馆大数据的安全与隐私问题。首先,大数据时代图书馆应用云存储是必然的趋势,但由于云计算尚未制订统一的行业标准和规范,所以,云存储本身给图书馆的大数据带来了存储安全问题;其次,图书馆应用大数据就是对读者在图书馆内不同地点留下的数据痕迹进行分析和挖掘,当从不同独立地点将读者的信息行为汇聚在一起,其隐私很可能被暴露出来。而如何在不暴露读者个人隐私的基础上进行数据分析和数据挖掘,对图书馆来说是一个挑战。
4 图书馆的应对策略建议
大数据时代,图书馆在获得机遇的同时必须面对上文所述的各种挑战和问题。因此,笔者建议图书馆采取以下应对策略。
4.1 图书馆应抓住机遇改善软硬件条件
2013年文化部全国公共文化发展中心提出了实施国家公共文化数字支撑平台项目,该项目以文化共享工程等公共数字文化建设已有的网络及信息化软硬件设施为基础,应用云计算等最新信息技术,构建新型数据中心。为支持该项目的运作,文化部全国公共文化发展中心同时下发了各级中心的软硬件配置最低标准。图书馆应以此为契机,争取地方政府的更大支持和投入,积极改善软硬件条件来应对大数据时代图书馆数据存储能力和运算能力的挑战。
4.2 图书馆应主动尝试应用和研究大数据
一项新技术的产生、发展和成熟必然需要时间的洗礼,大数据技术亦不例外,虽然大数据技术目前尚处于初级发展研究阶段,但图书馆作为信息技术应用的重镇,应勇敢面对质疑的声音,在现有条件允许的范围内积极尝试应用和研究大数据技术,以便让大数据技术更好地服务图书馆界。国外图书馆的一些经验值得我们学习,例如美国的弗吉尼亚州立大学组建科学数据咨询小组,图书馆员充当咨询顾问的角色[5]。还有美国各类型图书馆与俄亥俄州经营电子书、有声读物的经销商OverDrive公司长期合作,公司从图书馆中收集大量数据提供给出版商和其他有合作关系的图ღ书馆,以供开放存取,这些数据主要有图书馆网站访问数据、电子书和数ฎ字有声读物的流通数据以及读者的图书需求数据等。同时,OverDrive公司也通过“Buy It Now”网上商店等渠道为图书馆提供其所不具备的书目记录,为读者开辟了发现新图书的途径[6]。OverDrive公司利用大数据技术分析后发现,图书馆的电子书借阅数据分析在拓展图书馆的服务范围的同时,也会提高出版商和经销商图书的销售额,从而取得“双赢”的效果。
4.3 图书馆应注重培养大数据的应用型人才
大数据环境下,图书馆的工作方式和内容都将发生本质的变化。相应的图书馆员的角色和所需专业技能也将发生变化。美国研究图书馆协会提出,研究数据管理将成为大数据时代图书馆员的一项基本能力,而目前绝大多数图书馆员不具备数据管理者必备的综合素质。因此,图书馆当前的任务是在现有基础上,积极拓宽馆员知识面,增强其业务能力,培养和造就一支懂技术、懂管理的大数据建设专业队伍,使之成为学科信息资源的组织者、传播者、导航者、教育者,促进图书馆事业更好的发展。
4.4 图书馆应充分重视数据安全和读者隐私保护
目前公共云存储有待法律法规的进一步规范以及行业标准的统一来提高其安全性。此时图书馆可以通过混合云存储来规避安全风险,比如把涉密和敏感数据放在私有云上,而把经常使用的、公开的数据放在公共云上;还可以通过云计算技术把文件分割成文件碎片,分别存储在私有云和混合云上。而图书馆利用大数据分析读者信息行为产生的个人隐私问题,需要从技术和人员两个层面解决。在技术上要求在不泄露读者个人隐私的前提下进行数据分析和数据挖掘。同时,图书馆要建立完善的隐私保护制度,要求馆员以良好的职业素养,坚决维护读者的隐私权,达到既不侵犯读者隐私权又能充分发挥大数据的优势为读者服务的目的。
5 结语
目前,大数据技术的研究还处于起步探索阶段,但其会随着云计算、物联网和移动互联网等信息技术的发展而走向成熟。而成熟的大数据技术会将隐藏在图书馆大量数据背后的世界清晰地呈现出来,这将会给图书馆带来革命性的变化,对以往图书馆的☑服务能力和服务机制产生创新和颠覆。