CAJD电子文件研究高被引文献的知识图谱分析

时间:2024-12-26 04:26:50 来源:作文网 作者:管理员

1引言

在借鉴已有研究成果和研究方法的基础上,本文采用自编的计算机软件进行了相关统计,并利用可视化工具CiteSpace绘制知识图谱进行分析。

ญ 2文献来源、研究工具与数据处理

2.2研究工具。本文研究工具主要有两个,一是由美籍华人陈超美开发的信息可视化软件CiteSpaceⅢ[6](版本号3.7.R7),可用于生成知识图谱,导出相关数据和统计报表,计算突变率、中心性等;二是作者自编的关系型数据库软件,可用于部分数据项的规范或补充,添加必要的统计项,提取同名作者进行区分,选择用于统计分析的样本,快速生成相关统计数据或报表,生成用于CiteSpace处理的数据格式文件。

2.3数据处理。文献分析是否准确可靠,最重要的就是数据质量。作者将下载的题录信息导入自编½软件,对照原文逐一核对了作者、篇名、机构、关键词、刊名等字段,对明显不合理的关键词进行了必要的拆分或合并,补充了部分内容不完整的字段,规范、统一了大多数机构名称和部分关键词,删除了CAJD中计算机自动标引(机标)的关键词,同时剔除了不相关文献。

经过以上处理,由自编软件生成了可用于CiteSpace的WOS格式数据文件。

3研究文献的计量与可视化分析

图1CAJD高被引电子文件研究文献的年度分布

表1高被引样本文献来源期刊载文统计(单位:篇)

3.2样本文献作者和机构统计与分析

启动CiteSpace软件,建立一个项目及项目目录和数据目录,将WOS格式文件装入数据目录,选择网络节点为“Author”,完成相关设置(主要设置见图谱左上角,下同),由软件生成作者网络图谱(图2),为便于图谱的识读和分析,对软件生成的图谱的节点位置进行了调整。图中的圆为作者节点,圆越大,表明作者发文越多(包括非第一作者);节点色环的颜色代表发文年份(对应图上部色条颜色代表的年份),色环的厚度代表相应年代发文的多少;节点间的连线表明作者间有论文合作,连线的粗细代表合作的频度,连线颜色对应的是首次合作的年份。

图2CAJD高被引电子文件研究文献作者网络图谱

由图2可以看出,国内已形成了几大电子文件研究的团队,图中圈出了部分科研产出能力较强的团队,如以冯惠玲、刘越男等为核心的中国人民大学,以张正强为核心的解放军南京政治学院上海分院,以何嘉荪为核心的浙江大学等。团队中节点数量较多,大节点较多,且色环颜色多样,表明团队作者及高发文作者较多,1996年以来的多数年份都有成果。节点间连线仅17条,表明合著文献较少。

表2高发文作者及发文量(单位:篇)

表3高发文第一机构及发文数量(单位:篇)

对照表2、表3和图2,表中数据结果与图谱呈现基本一致,同时也验证了科研产出能力较强的团队是中国人民大学、解放军南京政治学院上海分院等。

3.3样本文献主题统计与分析。在期刊文献中,关键词最能反映文献的主题,因此,利用关键词进行主题分析。样本文献中有机标关键词文献556篇,无关键词文献10,为减少可能出现的偏差,主题统计与分析未使用机标关键词。在CiteSpace中选择网络节点为“Keyword”,运行并经手动调整后,得到主题网络图谱(图3)。图中的圆为关键词节点,圆越大,表明该关键词出现的频次越高;节点色环的颜色代表该词出现的年份,色环的厚度代表相应年度出现频次的多少;节点间的连线表明关键词共现于同一篇论文中,连线的粗细代表共现的频度,连线颜色对应的是首次共现的年份。图中部分节点外环呈紫色,表明这些主题的中心性较高。[7]

图3CAJD高被ธ引电子文件研究文献主题网络图谱

值得一提的是,图谱清晰地呈现出了电子文件(数字档案)研究的特点,图中各节点与电子文件、数字档案、档案管理和管理等具有高中心性的关键词连线最多,说明如何管理电子文件是研究的动因;与管理相关的自然是电子政务、对策(安全保存、信息安全)、管理系统以及信息化等。

表4高频关键词的中心性及词频数

表4中,电子文件、数字档案、档案管理、管理、电子政务、对策这几个关键词的中心性值均大于0.1,关键词安全保存和信息化的中心性值接近0.1,这些关键词代表了电子文件研究的热点。

3.4样本文献被引统计与分析。文献被引频次一般反映出文献在某类研究中的价值。由于CAJD下载的题录不带引文,无法利用CiteSpace生成相应的知识图谱加以分析,进而总结经典文献和知识基础。为弥补这一不足,作者利用CAJD的被引数据和自编软件生成了高被引作者文献被引统计表(表5)、高被引文献被引统计表(表6)和年度文献篇均被引统计表(表7)。

表5高被引作者文献被引统计表(单位:次)

表6高被引文献被引统计表(单位:次)

表7被引文献年度篇均被引统计表(单位:次)

4结语

通过以上统计分析,研究结果可以归纳为:电子文件研究热度持续,每年都产出有一定影响力的高水平成果;中国人民大学、解放军南京政治学院上海分院、武汉大学、浙江大学、苏州大学等是国内电子文件研究科研产出能力较强且水平较高的机构;冯惠玲、何嘉荪、刘越男、刘家真、安小米、于丽娟、张照余等高产且高被引的作者是国内电子文件研究领域最具影响力的作者;库克是对国内电子文件研究产生深刻影响的国外学者;以解决管理问题为目标和驱动的电子文件研究始终是研究的热点。

本文采用的研究工具CiteSpace是近年国内进行文献分析使用较多并公认较好的一款软件,目前在档案文献的分析研究中运用还不多。尽管该软件可用于分析中文文献,但使用中会面临两个主要问题,一是需用转换程序将分析数据转换为WOS格式,但无论转换前还是转换后要对分析数据进行清洗都比较困难和麻烦(包括部分数据项的规范、缺项补充、剔除重复和误检题录、机标关键词是否采用等);二是由于CiteSpace相关阈值等的不同设定可能导致图谱节点大小及报表个别数值与实际统计结果有些不完全一致,如作者发文数量ง不区分作者排序、不区分同名作者而使得图谱数据与用通常方法统计结果的个别ป不一致。作者用自编的软件较好地解决了这些问题,同时自编软件的计量结果还可与图谱及由工具软件导出的数据相互印证。因此,分析工具再好,也需要有“干净”的数据做基础,更需要使用者严谨的研究态度。

参考文献:

[2]冯惠玲.认识电子文件《拥有新记忆――电子文件管理研究》摘要之一[J].档案学通讯,1998(1):44~48.

[4]曹芳.近十年来我国电子文件研究论文的统计与分析[J].档案学研究,2003(4):45~49.

[6]ChenChaomei.CiteSpace:VisualizingPatternsandTrendsinScientificLiterature[CP/OL].[2014-06-15].http://cluster.ischool.drexel.edu/~cchen/citespace/download.html.

(作者单位:北京电子科技学院图书馆(档案馆)来稿日期:2014-10-17)


热门排行: 教你如何写建议书