大数据时代高校图书馆信息资源管理的创新与发展

时间:2024-11-10 17:13:25 来源:作文网 作者:管理员

作者简介:张颖(1968-),女,湖北省武汉市人,华中师范大学图书馆馆员,主要从事 ϡ情报网络数据研究。

摘要:大数据分析实现了当代高校图书馆在图书情报信息资源管理中的高效性和便捷性。在高校图书馆文献管理中,运用大数据理论进行数据挖掘、海量数据分析、高维数据阅览等,体现了大数据技术的优势所在,通过科学统计与分析网络阅读等结构复杂的大数据,能够极大促进高校的科研与教学工作,提高工作效率。大数据技术使得高校图书馆在网络时代能够与其他学术研究机构进行成功合作,大数据技术在当代高校图书馆中的运用已经成为信息资源管理创新性发展战略的标志性成果。

关键词:大数据;高校☿图书馆 ;信息资源;数据管理;创新性

中图分类อ号:G250.73文献标识码:A

一、大数据分析在高校图书馆数据管理及文献与知识模块中的运用

大数据(big data)分析在高校图书馆管理中的第一个明确分析对象是海量阅读数据。从数据分析的表象来看,分析海量数据可以理解为对读者所感兴趣的文献信息资料等阅读对象的记录进行归类管理,大数据技术适用于高校图书馆数据管理,同时具有时间和空间属性。海量数据分析与管理的一项重要功能是对所确定的数据目标进行分析整理,以提供数字图书资源存在的价值与依据。其中,海量数据中的阅览数据既能体现文献的重要与否,又能体现文献的被利用率。文献知识是概念的诠释与表达,阅读的数据则是揭示知识存在的模式与关系的重要素材。单一的数据记录并不能说明知识的价值、可靠性和认知程度,只有将不同记录的数据进行有序的组织与关联,通过大数据分析,把握读者阅览的信息等,同时把与该知识文献相关的共性与差异阅读信息的关键线索进行对比分析,对数据中的有效信息进行有序解读,实现对隐藏于数据中的知识结构与线索的归纳与推理,才能证明该知识的可靠性和价值。

用大数据技术分析图书馆文献知识的过程具有一定的复杂性。知识的获取可分为显性知识获取和隐性知识获取。与获取显性知识阅读量数据相对应的是显现数据,显性数据的海量数据分析是按照某种规律或理论通过测量归类而得到的数据,用以描述观察到的文献阅览总量和对知识概念的获取,比如文科学科分类阅览、理论文献查阅、新闻事件的点击阅读、网上参与公众知识媒体平台的程度,等等。数据分析的作用是客观真实地评估高校图书馆信息资源的整体利用的程度与强度。然而,许多知识与信息是不可直接靠量化而获得的,这部分无法直接测量的知识与信息就需要通过模型辅助来推断。而用于未知概念推理建模的数据称为隐性数据,隐性数据分析的重要作用是揭示显性知识信息与资源成立的可靠依据。以PBL(problembasedlearning) 教学模式的数据分析研究为例。PBL是以问题解决为导向、以大学生自主学习的能力为教学目标的学习方法和相关知识体系,PBL教学模式能调动大学生学习的积极性与主动性,形成解决问题的技能和自主学习的能力。高校图书馆通过分析大学生查阅相关知识的点击量作为显性数据统计,研究分析表明学生在没有❥教师指导的情况下也能通过自己的阅读而独立解决问题。支持这个数据分析结论的理想数据还得益于一组高维隐性数据,即:参加实验的大学生在图书馆摄入的该知识的显性数据加上与该知识相关的学科知识的点击阅览数据作为隐性数据相加的总和。这个实验较为复杂,其成功的关键是如何实现双盲(double blind)数据设计与分析,通过尝试有效的隐性知识结构管理数据可能获得支持该研究质量不错的全面观察数据。图书信息采购、电子信息资源的阅览总量与相关隐性消费数据可以为该研究提供后续支持,如PBL问题意识较弱的学生关注本学科的研究成果,PBL问题意识较强的学生则关注与本学科领域相关的跨学科知识范围的信息获取。因此,我们研究PBL教学模式不能脱离高校图书馆信息技术的海量数据采集与分析,在充分采集显性数据的基础上还要利用大数据技术分析隐性的数据才能为科研项目提供客观科学的数据参考。

简而言之,利用大数据技术建立高校图书馆文献资源与信息综合平台,为高校学术研究提供数据采集、创建、检测、合成、编码、存储、发布、检索、提取、判断、问题解决和服务等形式多样的大数据分析服务,不仅大大扩展了数字化时代高校图书馆的功能,极大地提升了图书情报文献的利用率,而且很好地推动了从大数据中发现新知识和跨学科学习的知识创新模块,推动了当代高校图书馆信息资源管理模式的发展与创新。

二、大数据视域下的云计算与高校图书馆数据挖掘

云计算和图书馆数据挖掘技术提升了高校图书馆的利用效率,文献海量阅读数据又为高校教学与学术研究提供进一步研究的依据,同时也为著作者、图书出版发行单位提供电子书和图书文献的供求与出版方面的信息。云计算和数据挖掘技术支撑的信息网络技术已经将高校图书馆打造成为一个巨大的数字世界,在高校图书馆这种集中人类智慧结晶的知识智库中,大数据、云计算技术便捷地收集着任何时段所保留下来的反映知识世界与主体客观认识过程中的数据,以前所未有的速度将信息资源拼接在一个时空下供读者阅览,“大数据、云计算、图书馆数据挖掘丰富了当代高校图书馆情报与管理学的内容,引发了学界对如何用好数字化时代图书馆资源平台共享的探索与相关思考”\[4\]。

三、学术机构研究合作的大数据案例分析

大数据技术的运用开始体现在学术机构与高校图书馆的密切合作上,该研究已有成功案例――该案例旨在研究学术成果的跨机构合作规律以及其在高校图书馆信息资源管理、学术文献和知识函数中的广泛应用前景。高校图书馆大数据是建立在以学者研究成果为基础的学术共同体和相关学术机构信息交流及相关学术文献交流的备份信息上。大数据分析不仅为各学科的跨界交流研究提供了个体化的研究成果总汇,而且数据的汇总案例在揭示学者个体在研究机构中所从事学术活动的基本单元、在学术机构中的地位以及机构之间合作提供了重要参考;同时,对跨组织机构的不同学者间的学术合作进行差异化研究,为科学人员的学术交流和学科评价服务的最终用户提供更为全面的数据分析和信息检索服务。

本文案例数据来源于中国知网的文献记录,这些数据包括文献的作者和作者单位等信息。作为大数据案例分析,首先要根据这些统计数据信息分析高校图书馆在构建跨学科科研机构之间合作的网络平台,其中以网络节点表示科研机构(即文献作者所在单位,高校图书馆信息采编部门将科研机构限定在中国普通高等院校与中国科学院、中国社会科学院以及与中国科研机构有合作关系的国外高校之间),网络中的边表示相应的两个节点所代表的研究机构共同发表过的文献,边的权重由对应的两个研究机构共同发表的文献数量所决定。不同的科学研究机构在合作网络上呈现一个无向图,共179个节点,779条边,即共有179个不同的研究机构,这些机构之间存在779个两两合作的关系。假设用 G=(V,E)表示研究机构合作网络。其中V表示小节点集合,E表示边的集合,其中,WVW表示图中顶点V和W之间的边数,计算边的权重,m是总边数。网络边的权重定义如下:

Wvw=∑kδkvδkw2

nk

其中:Wvw为机构,v和w之间为边的权重;nk表示论文K的不同研究机构和不同作者的单位数,当机构V在论文K中出现时,δkv等于1,否则为零。案例公式计算边的权重意义在于一篇论文对整个科研机构合作网络只贡献一个单位的边权重。这一边的权重分析合理地避免了某篇文献因为由多个科研机构合作共同发表而过高评估了该篇论文对整个机构合作网络的影响。网络数据分析见表1。

表1不同科研机构的科研合作成果权重统计表

nodelnodelweight

1首都经贸大学中国财经大学3.33333

2首都经贸大学中国人民大学3

3航空航天大学吉林大学3

4航空航天大学哈尔滨工业大学2.33333

5武汉工程大学中国地质大学4

6武汉工程大学清华大学2

7华中科技大学北京大学3.33333

8华中科技大学武汉大学5.33333

本案例的数据存放在高校图书馆的“affiliations、txt”数据硬盘内。本案例的原始数据名为dt.txt,根据以上节选部分之内容,其中每一行表示一条边,第一、二列表示网络中的节点,第三列表示网络中边的权重。下面借助软件包igraph基于dt数据构建无向图,并给出有关科研机构之间的合作在网络上呈现的基本信息。通过使用require(igraph)加载R包igraph软件以调用数据。

FN算法为: plotcg, layout=L, vertex,color=color vertex,lable=NA)

FN算法关于高校机构研究合作在网络上数据挖掘的结果见表2。

表2合作高校网络数据挖掘结果表

合作区域合作高校及科研机构名称机构数量

2.东北中国科学院 哈尔滨工业大学 吉林大学 大连理工大学 吉林财经大学…26

3.华东复旦大学 南京师范大学 南京财经大学 南京农业大学 浙江大学…18 4.华南中山大学 暨南大学 华南理工大学 华南师范大学 华南农业大学…10

☤5.华中武汉大学 华中科技大学 华中师范大学 中南财经政法大学 中南大学…28

6.西北西北大学 西安交通大学 陕西师范大学 西安理工大学 重庆大学…17

根据网络信息数据挖掘结果继续进行数据分析,其目前最优化、最流行的方法是非负矩阵分解。非负矩阵分解有着运算速度快、可解释性强等优点而受到越来越多的高校图书馆研究部门的关注,同时非负矩阵分析技术也适用于高校图书馆馆藏电子图像存储,文本数据及文献文档归类整理等多个领域。其具体公式创建如下:

首先创建一个可以进行非负矩阵分解的函数NMF,利用该函数对合作高校及科研机构进行数据挖掘。先安装R包RColorBrewer,然后,安装每个节点的机构类别require下面的调色板, pal-brewer.pal

crf-color Ramp Paletter(pal,bias=1)

cols-crf(lenght(unique(mem_nmf)))

color-cols\[mem_nmf\]

plot(g,layout=L,vertxt.size=4,vertxt.

Color=color,vertxt,Lable=NA)

如第一个合作区域的北京主要集中在清华大学、北京大学、中国人民大学、中国社会科学院等合作高校及科研机构。第二个合作区域主要高校及科研机构分布在中国的东北三省,第三个合作区域至第五个合作区域主要是位于中国华东、华中、华南等地的高等院校,第六个合作区域是中国西北地区的大学。高校图书馆通过对合作高校及科研机构在网络上的数据挖掘结果与分析,对相应的R包“entropy”编程方式进行了说明\[5\]。大数据技术克服了不同地域的学者们和各地机构之间在物理上的距离感,高校图书馆运用大数据技术在网络上对各高校及科研机构的学术成果进行数据的深度归纳、整理、统计与计算,可以分析得出中国高校与主流科研机构之间的研究成果在互联网资源平台上资源共享与深度学术合作的大致情况,这其间,高校图书馆信息资源平台成为合作高校和科研机构合作之间的数据枢纽,为中国科研学术资源的跨地域合作提供了充分的信息技术支持。

\[参考文献\]

\[3\]刘鹏,黄宜华,陈卫卫.实战Hadoop:开启通向云计算的捷径\[M\].北京:电子工业出版社,2011:57.


热门排行: 教你如何写建议书