语义出版物的内容组织架构研究
[摘 要] 语义出版物是科学交流和学术出版领域一种新兴的数字出版物模型,适应了机器读取和理解文献内容的需要。本文以科学交流理论、文本功能理论和修辞结构理论为基础,在系统论视角下重点关注语义出版物内容组织架构中两个核心基本要素:组件单元和语义关系,并以语义出版物发展过程中的两个关键模型――纳米出版物模型和微型出版物模型为例,从模型架构、核心组件、语义关系、论证模式四个角度对语义出版物的内容组织架构进行探索性分析。研究表明,微型出版物模型具有明显的模块化、结构化、形式化和网络化特点,但在知识表示能力和内容组织架构上仍存在不足。揭示和形式化表示叙事性论文中的潜在知识是语义出版物内容组织架构设计面临的挑战。
[关键词] 语义出版 纳米出版物 微型出版物 内容组织架构 比较研究
[中图分类号] G254 [文献标识码] A [文章编号] 1009-5853 (2017) 04-0020-08
Content Schema of Semantic Publication:A Comparative Analysis Based on NanoPublication
and MicroPublication
Wang Xiaoguang Song Ningyuan
(School of Information Management, Wuhan University,Wuhan,430072)
[Abstract] Semantic Publication(SP) is a new kind of digital publishing model for scientific communication and academic publishing, suitable for machine reading and understanding. This article is based on the scientific communication theory, textual function theory, and rhetorical structure theory. From the view of system theory, we focus on two core elements, which are article component and semantic relations. And two key SP models, Nanopublication and Mircopublication are chosen as the two instances to conduct a comparative analysis from four lens, in order to figure out the knowledge organization architecture of SP models. The results demonstrate that MicroPubilcation is more powerful than NanoPublication in knowledge representation and knowledge organization structure, and has four special features, which are structuralization, explicitnessฏ, formalization, and networking. But these SP models are still not enough detail on the granularity of knowledge organization, and the free transformation from traditional narrative text to machine-readable is still a challenge along with the development in semantic publishing.
[Key words] Semantic publishing Publication model NanoPulication MicroPublication Comparative analysis
1 引 言
科W交流是科研活动的重要环节。自1865年第一本学术期刊出版以来,代表正式科学交流形式的科学论文的结构基本上没有改变过。作为印刷时代的产物,论文在内容组织与知识表示上一直受到纸张媒介的天然约束,比如版式结构固定、内容难以重用、阅读方式单
一、结果难于验证等。近年来,随着语义出版的快速发展,传统论文的固有缺陷正在被消除[1],威利(Wiley)[2]、爱思唯尔(Elsevier)[3]、美国科学公共图书馆(PLoS)[4]等知名出版机构和SWJ [5]、Cite4Me [6]、DOMEO [7]、Reflect [8] 等语义出版项目的实践都表明对论文进行语义增强,如结构化处理、添加语义标签、增加实体链接等可以改进读者的信息获取效率[9]。语义增强后的论文常被称为增强型出版物(Enhanced Publication),其内容形式的丰富性和互动性都有较大提升[10],但还是没有从根本上改变科学论文的内容组织架构。
在增强型出版物快速发展的同时,全新的语义出版物也悄然浮现。2009年以来,多个语义出版物模型陆续出现,如纳米出版物模型(NanoPublication)[11]和微型出版物模型(MicroPublication)[12]。与增强型出版物模型不同,这两种出版物模型并非传统论文的内容增强版,而是具备全新内容组织架构的语义出版物模型。 为了分析语义出版物的特点,本文以纳米出版物与微型出版物两类语义出版物模型为代表,通过比较分析深入探索语义出版物模型在组件单元、语义关系和组织模式上的特征及其演化逻辑,并以此为基础,对出版物内容组织架构的发展方向进行展望。
2 语义出版物的产生与定义
2.1 语义出版物的产生与发展
从出版物模型的发展历程来看,出版物内容组织架构的创新与XML语言的应用关系密切。正是在XML语言支撑下,科学论文可以被表示成树状的有序分层内容对象(OHCO)[13],基于这种思想,语义出版物模型日益浮现。此外,论文内容模块化的思想也促进了语义出版物的提出与发展。1998年,克尔兹(J. Kircz)提出模块化论文模型,将科学论文拆分为摘要、研究现状、研究方法等独立模块,认为不同模块可以按照一定逻辑关联进行重组[14]。2008年,亨特(J. Hunter)等人提出了科学出版物包裹(Scientific Publication Packages)的概念[15],同样强调科学论文的模块化结构。
近年来,科学交流领域“超越PDF”的呼声渐起,增强型论文开始出现[16],并逐渐得到主流学术出版机构的认可。增强型论文借助可交互的图表和外部资源的链接实现论文可理解性(Understandability)的增强,但主要还是面向读者的内容增强,而非面向机器可读性(Readable)的增强,所以本质上属于数字环境下科学论文内容组织模型的优化。
2009年以来,较为成熟的语义出版物模型逐渐浮现,如巴瑞安德・蒙斯(Barend Mons)和杨・维尔特隆(Jan Velteron)提出的纳米出版物模型;2010年,吉安奇格里安(Giunchiglia)等提出的液体出版物模型(Liquid Publication)[17];2013年,艾莉森・卡拉汉(Alison Callahan)等提出的 (Ovopub)模型[18];2014年,哈利德・贝哈伊姆(Khalid Belhajjame)等提出的研究对象套件模型(Research Object Suit)[19]、克里斯蒂安・波尔林(Christian B?lling)等提出的语义证据模型(Semantic Evidence)[20]以及蒂姆・克拉克(Tim Clark)等提出的微型出版物模型。这类语义出版物通过关联数据、RDF、本体、知识表示等技术与思想,优化出版物知识组模式,提高机器可读性,是一种新型的出版物知识组织架构。
作为一种人工产物,不同的语义出版物模型设计思想不同,注重解决的问题也不一样,从而造成内容对象及关联方式的差异。比如液体出版物模型侧重于动态重组不同粒度的知识对象;研究对象套件模型侧重于提供一种结构化的容器,用于封装研究数据、研究方法及元数据信息;语义证据模型借助RDF对论证框架下的科学论断、证据、支撑材料等进行关联;Ovopub模型设计了对数据及相关信息的结构化描述方案,侧重于对科研数据的整合与应用;纳米出版物形式化表达并关联了科学论断;微型出版物则表达了科学论文内容的论述过程。
纳米出版物模型和微型出版物模型一经提出就受到学界的强烈关注,因为它们具有全新的知识组织架构,是两种面向未来的、具有实用价值的语义出版物模型。
2.2 语义出版物的定义
语义出版物是借助语义技术实现的,能够揭示概念、命题、论证等显性和隐性科学知识,有利于知识重组和再利用的新型出版物模型,具备结构化、模块化、网络化等特征。语义出版物能够提高出版物的机器可读性,有利于机器代理(Agents)操作知识单元,实现更高级的知识服务[21]。
设计新型的语义出版物需要从提升出版物知识结构化水平和表现能力两个方面入手。近年来出现的大部分语义出版模型都围绕这两方面进行了创新设计。知识结构化的目的是提高知识对机器的可理解性。结构化可以分为两个层次,第一个层次是对构成论文的显性章节、段落、语句等逻辑单元进行置标,形成带有结构化标签的论文,例如使用期刊标注标签集(JATS)表示的论文。第二个层次是要对论文内的知识单元、论证结构等潜在知识进行显性化和形式化表示,借助RDF表示论文内各种类型的知识单元及其相互之间的关系,以此让机器“读懂”论文。知识表现性增强是为了提高知识对人的可理解性,包括提高内容的可视化程度、增加实体链接(Entity Linking)以便于读者理解关键术语和概念等。
图1展示了不同语义出版物模型的差异。液体出版物模型侧重于揭示论文内的不同知识单元,语义证据模型侧重于表示论文的论证结构,带有结构化标签的出版物侧重于揭示论文的章节结构,增强型出版物侧重于提高知识表现能力。与这四种语义出版物模型相比较而言,纳米出版物模型和微型出版物模型具有更优秀的知识组织架构,特别是在内容结构化维度上有较大改进,十分有利于机器读取内容。下文我们将对这两种模型进行比较分析,以期发现语义出版物模型中知识组织架构的基本特征、演化逻辑和发展趋势。
3 语义出版物的内容组织架构分析框架
科学论文是知识的容器,具有不同语义功能的内容组件包含了大量知识实体,并通过组件间的关联关系进行组织。语义出版物内容组织架构针对语篇逻辑结构,主要考虑出版物内容的组件单元及组件单元间的语义关系,通过形式化语言对组成语篇的内容组件单元及关系进行建模,进而实现对出版物内容的组织与关联。
3.1 组件单元
出版物组件单元的设计必须考虑其所承载的科学交流功能。从现有科学论文组件单元的相关研究来看,论文是由情报功能各不相同的各种粒度形式的组件单元组成,包括细粒度的术语、实体、公式、图像,中粒度的句子和段落,以及粗粒度的章节、数据集、附加资料等。这些不同粒度的组件单元之间相互组配形成论文的各个模块和有机整体。明确定义和划分组件单元的类型虽然十分重要,但是学界对组件单元的分类一直缺乏完整的框架,而且不同的学科看待论文内容的视角不同,导致对组件单元的分类也有较大差别。 在情报学领域,研究者侧重于从出版物内容的功能属性进行组件单元的定义。国内学者提出知识单元的概念,并自顶向下(Top-down)地探讨了知识单元的概念和类型。王子舟等人曾将知识单元定义为客观知识系统中有实际意义的基本单位[22],温有奎等人[23]、赵蓉英[24]、文庭孝[25]等人采纳类似的观点,他们侧重于分析知识单元的特征,但没有提出更为具体的知识单元分类框架。国外的研究并不强调知识单元,使用了更为具体的概念,如核心科学概念和功能单元,而且在方法论上更侧重于自下向上的(Down-top)枚举式定义。列卡塔(Liakata)在核心科学概念(Core Scientific Concept)框架中定义了假设(Hypothesis)、动机(Motivation)、目标(Goal)等11种科学概念[26][27]。张蕾(Zhang Lei)以体裁分析(Genre Analysis)为基础,对科学论文中的41类功能单元进行定义,包括研究回顾(Review Previous Research)、结果总结(Summarize Results)、陈述发现(State Findings)、提出猜想(Present Hypothesis)、实验步骤(Experiment Procedures)等[28]。
在学术出版物研究领域,研究者侧重于从修辞功能的角度对出版物组件单元进行规范化定义,形成了适用于不同目的的科学论文内容本体。具有代表性的内容本体诸如篇章要素本体(Discourse Element Ontology,DEO)[29]、修辞块本体(Ontology of Rhetorical Block,ORB)[30]、文献组件本体(Document Ontology,DoCO)[31]等。修辞块本体定义了科学论文内容的修辞框架,在将科学论文内容分为头部(Head)、主体(Body)和尾部的同时,结合IMRD模型将主体部分定义为引言(Introduction)、方法(Method)、结果(Result)、讨论(Discussion)四个部分。篇章要素本体借鉴了修辞块本体,详细定义了诸如数据(Data)、材料(Materials)、方法(Methods)、模型(Models)等论文内容组件。文献组件本体在篇章要素本体的基础上,从结构特征和修辞功能两个角度定义了文献组件。
总之,科学论文是知识型内容的容器,不同粒度的知识单元是构成论文组件的基础。
3.2 P联关系
科学论文是一种语篇类型,关联关系是将论文中的组件单元联结形成一个有机整体的关键。传统的语篇研究主要从修辞结构理论视角展开。在此理论视角下,科学论文由各具功能的文本块(Text Span)组成,较小的文本块组合成较大的文本块,直至生成整个语篇[32]。语篇具有整体性和连贯性,它们源于各个文本块都服从于语篇的中心思想这一原则。语篇的修辞结构有三种类型,分别是类型结构、句法结构和关系结构,其中关系结构是多语句语篇的主要结构。关系结构揭示了句子之间的关系,英语语篇中大约包含20种非对称性修辞关系[33]。这些修辞关系揭示了语篇的结构性知识,或者说是句子型知识单元之间的关联关系,对于语篇整体意义的形成具有十分重要的价值。修辞结构在任何由自然语言形成的多语句语篇中都是天然存在的。只要语义出版物支持自然语言,并包含多语句形成的文本块,就必然包含修辞结构和修辞关系。语义出版物的知识组织模型设计要在可计算性上强于传统出版物模型,就必须对修辞结构和修辞关系进行显性化编码处理,而且编码越清晰越便于机器阅读和“理解”内容间的语义关系。
论证结构是传统的科学论文内容必备要素之一。科学论文的论证系统由论证要素、论证过程与论证结构组成,它是保障论文内容可信性的关键。图尔敏(Tou Lmin)[34]曾提出论证的六要素,分别为断言(Claim)、数据(Data)、保证(Warrant)、反驳(Rebuttal)、支援(Backing)和修饰语(Qualifiers)。此外,还定义了诸如支持(Support)、证明(Prove)、挑战(Challenge)等论证关系。维尔哈吉(Verheij)在图尔敏的论证理论基础上,使用形式语言对论证框架进行重构,并引入人工智能领域,进而得到广泛应用[35]。
对任何形式的科学论文而言,命题、观点、论据和结论都是论证系统的必备要素,常以语句或图表数据的形式存在,但论证过程和论证结构常常隐藏在语篇之下,难以被发现,而它恰恰是一篇论文被学界同行接受的关键。任何语义出版物内容组织结构的设计都不能忽略论证系统的内嵌和自洽性设计,即使它不体现语篇的叙事逻辑,也要为论文观点和结论的可信性提供足够的和必要的支撑。
4 纳米出版物模型与微型出版物模型的比较
4.1 纳米出版物模型
纳米出版物模型是巴瑞安德・蒙斯和杨・维尔特隆[36]在2009年提出的一种新型科学文献模型,也是一种全新的科学知识表示与组织模式。随后,保罗・格鲁斯(Paul Groth)[37]对纳米出版物的结构进行更深入的剖析,提出概念关联及构建纳米出版物的具体方式。纳米出版物模型是一种以陈述为基础(Statement-based)的模型。其中,Nano代表“具有科学意义的、机器可读的、最小的出版信息单元”。从整体结构上看,纳米出版物包括内容性和功能性两个部分。内容性部分又分为结论(Assertion)、出处(Provenance)、支持性信息(Supporting Information)三部分,其中结论是纳米出版物的基础,包括作者得出的科学事实、实验结果或结论,以及实验得出的有效性指标等。出处即结论的出处和起源,包括结论的发布时间、发布者、版权所有者等信息。支持性信息提供了结论的背景和语境信息,包括实验条件、实验室环境,以及结论的引用情况、其他人对结论的观点、同行评议信息等。功能性部分包括纳米出版物ID和完整性秘钥(Integrity Keys)。纳米出版物ID是用于识别纳米出版物的唯一标识符。完整性密钥则提供纳米出版物作者身份的认证以及纳米出版物版本的控制。 目前,纳米出版物模型在自然科学与人文领域都有应用,如蛋白质知识平台neXtProt项目[38],哲学事实集成项目EMTO项目[39]。纳米出版物模型最知名的应用是开放医学概念三元组库(Open Pharmacological Concept Triple Store,Open PHACTS)项目[40],该项目以纳米出版物模型为基础,集成了多种药物信息,用于支持药物发现研究。
4.2 微型出版物模型
微型出版物模型(MircoPublication)是由哈佛大学的蒂姆・克拉克等人在2014年提出的一种新型语义出版物模型,该模型以图尔敏论证理论为基础,在吸收维尔哈吉的相关研究成果后,完成了对科学论文论证框架的建构,不仅适应机器读取和“理解”内容,也适合被人阅读。相较于其他形式的语义出版物模型而言,微型出版物模型结合科学论文的具体语境,突出了论证结构在科学论文知识组织中的重要地位。
从整体上看,微型出版物的构成要素分为两大部分。一部分是概念,分为基础类,包括实体(Entities)和代理(Agent)。实体是现实存在或想象中的事物,代理指人和机构。人工产物(Artifacts)是一种实体,由代理创作,拥有特定的属性;还有表达类(Representation),表达是一种人工产物,说明(represents)了某种实体,主要形式包括以句子形式存在的声明(Statement)、情景(Context)、限定(Qualifier),此外还有作为证据存在的数据(Data)、方法(Method)、材料(Material)等。另一部分是概念之间的关系属性,包括支持关系(Supports)、挑战关系(Challenges)、讨论关系(Discusses)、子类关系(isA)、限定(Qualifies)关系、有属性(HasAttribution)关系等;微型出版物的核心模型结构如图3所示。
微型出版物是另一种以陈述为基础(Statement-based)的模型,主要用于生物医学领域,因其支持对证据、资格、断言的建模,所以解决了纳米出版物模型知识组织结构过于简单的不足,将证据和支持关系引入模型,使得模型更为强大,为构建跨文档的支持图谱(support graph)和断言图谱(claim graph)等不同形式的复杂知识网络奠定了基础。
4.3 两者的差异与发展逻辑
{米出版物和微型出版物作为两种典型的语义出版物模型代表,其发展过程能体现语义出版物模型发展的逻辑,为了分析这种演进逻辑,笔者对这两个模型进行细致比较,如表1所示。
表示方式的规范化。语义出版物模型表达方式的选择取决于其构建目标与知识组织方式。纳米出版物用于关联不同的命题及断言,强调知识实体间的联系,没有过多涉及对不同纳米出版物之间语义关系的定义,所以使用弱语义的RDF作为模型表示语言。微型出版物侧重对论证结构的表示与关联,定义了更为丰富的组件单元与关系类型,需要复杂的条件约束与推理机制,因而选择更为规范的OWL 2做为模型构建语言。
☣表达方式的规范化程度决定语义出版物语义表达能力的强弱。相较于纳米出版物,微型出版物使用OWL 2准确地定义更复杂的语义关系,揭示文献的论证结构,语义表达能力更强。
组件类型丰富。从知识表示和组织的角度来看,出版物模型中的组件单元定义越细致,意味着出版物模型越强大。语义出版物中的组件单元都有其明确的定义和语用功能,并且具有较高的独立性,在出版物自洽性形成过程中扮演着不可获取的角色,所以组件单元类型越多,意味着出版物的模块化属性越明显。
图2和图3分别描绘了纳米出版物和微型出版物的本体结构,由此可以看出纳米出版物核心部件是结论,它是纳米出版物所要表达和传播的核心知识,支持信息和出处信息为结论提供了支撑作用,但没有受到足够重视。微型出版物模型中类的定义和分类更为丰富和准确,如大类实体、子类人造物、子子类陈述等。这种详细的组件类型定义意味着微型出版物的知识组织模式更为精细,知识组织模型的描述能力更强。
论证知识的显性化。科学论文作为科学知识的一种容器,内部隐含了很多类型的知识。论证过程是一种隐藏在文字符号表面之下的知识类型。从表现形式来看,纳米出版物借助RDF三元组生成的命名图(Named Graph)作为出版物的基本表现形式,形式化表示与发布知识。虽有结论、支持信息和出处三个部分,但是论证知识的表示不明显,这就无法解决论文阅读过程中的可信性判断问题,属于明显的知识组织模型缺陷,无法承担科学论文数据化处理的重任。
微型出版物模型强化了论证这种隐性知识的表示,通过组件定义的丰富,明确定义论点(一种特定类型的叙述)、论据(包括数据、方法、材料等形式的叙述)、论证结构(由论点和论据构成的论证过程和论证方式)。相比较而言,微型出版物模型借助本体技术和OWL语言在知识类型的形式化和明确化表示上更进了一步。
语义关系的明确化。语义关系指的是知识单元之间的联结关系,分为两大类,一类是论文内部各类细粒度知识单元之间的关系,另一类是论文整体之间的关系。由于组件单元定义的丰富,组件单元之间的语义关系也可以更加明确地定义,所以在新开发的微型出版物模型中知识单元之间的关系定义更加清晰,如论文内部各知识单元之间的属类关系(isA)、表示关系(represent)、支持关系(support)、挑战关系(challenge)、情景关系(hasContext)等。论文之间的关系得到明确,出现了有元素关系(hasElements)、声明关系(asserts)、引述关系(quotes)、支持关系(supportedBy)、质疑关系(challengedBy)等关系。这一进步意味着我们可以在跨论文层面进行知识组织,构建诸如支持图谱(support graph)和质疑图谱(challenge graph),这为知识融合和整体性知识网络构建提供了支撑。 5 讨 论
5.1 面向机器和面向读者目标之间的平衡
语义出版物的设计目标显然是增强论文中各种知识,包括隐性知识和显性知识的表示能力,提高机器“理解”和操作出版物组件单元的水平,便于各种智能代理高效地抽取、集成和再利用科学知识,最终形成可挖掘的知识资源数据集。为了实现这一目标,语义出版物彻底改变了传统出版物利用线性的叙事型文本进行科学知识记录与表达的模式,转而利用以RDF和XML为基础的结构化文本实现科学知识的记录和表示。
从语义出版物知识组织架构的演进过程来看,早期的纳米出版物是一种中间形态的出版物类型,它难以被读者直接阅读,但十分适合机器读取,所以该类型出版物主要用于知识存储和知识资源间的关联,以支持溯源、探索、推理等知识发现活动。面向读者阅读时,纳米出版物需要在表现形式层上做转换。微型出版物比纳米出版物更加强大,它满足了文字叙事与内容计算两种需求,既支持自然语言,又支持形式语言;既适合机器读取,又适合人类阅读,是一种调和型数字文献形式。这种发展变化显示,语义出版物并非完全面向机器读取的文献形式,而应该结合人工阅读和机器读取双重目标,并在双向选择中寻找一种兼容和平衡机制,以满足科学知识被科研工作者理解的终极目的。
5.2 语义出版物在科学知识网络构建过程中的角色
在修辞结构理论、论证理论和功能单元理论基础上,语义出版物实现了科学知识表示与组织模式的创新,应用了谓词逻辑表示法和语义网络表示方法[42]。在这些方法支撑下,出版物内部以观点、假设、事实、结论等科学陈述为基本形式的陈述型语义元素和以文字、图片、数据为代表的多模态数据型语义元素都得到形式化表示与组织[43]。从传统出版物向语义出版物转换过程中,大量开放性的主题词表和领域本体用于概念消岐、映射和关联,由此实现不同知识单元的互联与序化,进而形成可追溯的和可扩展的语义网络。这使得传统的以论文发表为主的科学交流过程,变成协作式的知识网络构建过程,使得语义出版物模型从一开始就为实现“情报组织从文献层面向知识单元层面过渡”的宏伟目标奠定了基础[44]。
5.3 语义出版物对科学交流系统的影响
科学交流系统以学术文献为核心,包括创作、评审、出版、集成、检索等任务。近年来,随着科学研究活动进入数据密集型研究范式时代,科研数据呈现爆发式增长。数据密集型研究范式要求更高的数据透明性与可验证性,更加注重科学数据的溯源与重用、实验方法的开放、文献知识的P联和融合[45]。语义出版物模型从一开始就将科研数据与学术文本进行统一的表达与组织,使得数据和科学论断之间建立较为明确的语义关联,这在一定程度上克服了传统论文结论难以重复和验证的天然缺陷,提高了科研数据可用性以及科学交流系统整体的有效性。
从科学交流系统的发展走向来看,科研领域存量论文的结构化处理与语义化编辑工作是一项长期任务,短期内语义出版物并不会取代传统的出版物。随着结构化知识资源的积累、数字知识基础设施的完善和语义บ出版平台的创新,语义出版物的创作门槛和加工成本将大大降低,智能化的编写软件与各种“语义插件”将支持科学论文从写作一开始就以语义出版物的形式存在。由此产生的网络效应将加速语义出版物对传统出版物的替代步伐,所以从整体上看,随着语义网的发展和普及应用,新型的语义出版物可能会最终替代传统的论文模型,成为科学交流系统中的主流知识组织模式。
5.4 现有语义出版物模型的不足
目前,语义出版物模型仍然存在一定的不♡足,主要表现在四个方面:
(1)语义出版物内容组织架构中的内容单元定义不够细致,无法揭示和规范化表示对于科学交流必要的各种潜在知识,比如命题论证过程。
(2)语义出版物内容与传统的叙事性内容如何协同工作考虑不周。现有模型突出了内容的机器可读性,但也导致人工阅读不够方便,如何实现两类内容的协同工作以及自由转换还需考虑。
(3)论文内容的验证问题仍未解决。尽管语义出版物模型能够将数据集作为证据用于论证网络的构建,但囿于模型本身的推理机制缺失,导致论文内容特别是各种科学论断仍难以由机器自动验证,如何与领域本体协同支撑科学知识的推理验证是一个难题。
(4)适用领域有限。相比较而言,现有的语义出版物模型更适用于自然科学领域,较难用于人文社会科学领域。如何开发适用于人文社科领域的模型,也需要进一步研究。
6 总 结
语义出版物是语义网时代的新型数字出版物形式,对于实现语义出版系统和高级知识服务具有重要意义。从语义出版实践进展来看,增强型出版物已经被出版商和读者接受,但新型语义出版物的实例应用仍不多见。
本文从模型架构、组件类型、语义关系、论证结构四个角度对纳米出版物和微型出版物进行比较分析,以此探索语义出版物的知识组织架构。研究表明,语义出版物内容组织架构在发展过程中体现出明显的演化逻辑,即表现方式的规范化、组件类型的丰富化、论证知识的显性化以及语义关系的明确化。尽管语义出版物模型仍有许多不足,可以肯定的是,随着语义网的普及应用和科学交流系统的发展,语义出版物的内容组织架构会进一步得到优化和改进。
注 释
[1]Shotton D. Semantic publishing:the coming revolution in scientific journal publishing[J]. Learned Publishing, 2009, 22
(2):85-94
[2]The Smart Article [OL]. [2016-09-10]. http://as.wiley.com/WileyCDA/Section/id-817760.html
[3]Aalbersberg I J, Heeman F, Koers H, et al. Elsevier’s Article of the Future enhancing the user experience and integrating data through applications[J]. Insights, 2012, 25
(1):33-43 [4]Creative ways to semantically enrich an Open Access PLoS research article [OL]. [2016-09-10]. http://blogs.plos.org/everyone/2009/04/27/creative-ways-to-semanticallyenrich-an-open-access-plos-research-article/
[5]Hu Y, Janowicz K, Mckenzie G, et al. A Linked-Data-Driven and Semantically-Enabled Journal Portal for Scientometrics[C]// The International Semantic Web Conference(ISWC 2013). 2013:114-129
[6]Nunes B P, Fetahu B, Dietze S, et al. Cite4Me:a semantic search and retrieval web application for scientific publications[C]// The International Conference on Posters & Demonstrations Track. 2013:25-28
[7]Ciccarese P, Ocana M, Clark T. Open semantic annotation of scientific publications using DOMEO[J]. Journal of Biomedical Semantics, 2012, 3(S1):1-14
[8]Reflect [OL]. [2016-09-10]. http://reflect.ws
[9]Shotton D, Portwin K, Klyne G, et al. Adventures in Semantic Publishing:Exemplar Semantic Enhancements of a Research Article[J]. Plos Computational Biology, 2009, 5
(4):e1000361
[10]Breure L, Voorbij H, Hoogerwerf M. Rich Internet Publications:‘Show What You Tell’[J]. Journal of Digital Information, 2011, 12
(1)
[11][41]撬贾瘢李峰,张智雄. 知识资源的语义表示和出版模式研究――以Nanopublication 为例[J]. 中国图书馆学报, 2013,39
(4):102-109
[12]Clark T, Ciccarese P N, Goble C A. Micropublications:a semantic model for claims, evidence, arguments and annotations in biomedical communications[J]. Journal of Biomedical Semantics, 2014, 5
(1):1-3☒3
[13]Derose S J, Durand D G, Mylonas E, et al. What is text, really? [J]. Journal of Computing in Higher Education, 1990, 1
(2):3-26
[14]Kircz J G. Modularity:the next form of scientific information presentation? [J]. Journal of Documentation, 1998, 54
(2):210-235
[15]Hunter J. Scientific Publication PackagesCA selective approach to the communication and archival of scientific output[J]. International Journal of Digital Curation, 2008, 1
(1):33-52.
[16]Bardi A, Manghi P. Enhanced Publications:Data Models and Information Systems[J]. Liber Quarterly the Journal of European Research Libraries, 2014, 22
(4):240-273
[17]Baez M, Mussi A, Casati F, et al. Liquid journals:scientific journals in the Web 2.0 era[C]//Proceedings of the 10th Annual Joint Conference on Digital libraries. ACM, 2010:395-396
[18]Callahan A, Dumontier M. Ovopub:Modular data publication with minimal provenance[J/DB]. arXiv preprint arXiv:1305.6800, 2013
[19]Belhajjame K, Zhao J, Garijo D, et al. The Research Object suite of ontologies:Sharing and exchanging research data and methods on the open web[J/DB]. arXiv preprint arXiv:1401.4307, 2014 [20]B?lling C, Weidlich M, Holzhütter H G. SEE:structured representation of scientific evidence in the biomedical domain using Semantic Web techniques[J]. Journal of Biomedical Semantics, 2014,5(S1):1-22
[21]Schmidt N. Tackling complexity in an interdisciplinary scholarly network:Requirements for semantic publishing[J]. First Monday,2016,21
(5)
[22]王子舟,王碧滢. 知识的基本组分:文献单元和知识单元[J]. 中国图书馆学报, 2003, 29
(1):5-11
[23]温有奎,焦玉英. 基于范畴论的知识单元组织与检索研究[J]. 情报学报,2010,29
(3):387-392
[24]赵蓉英. 知识网络研究(Ⅱ)―知识网络的概念、内涵和特征[J]. 情报学报, 2007, 26
(3):470-476
[25] 文庭孝, 罗贤春, 刘晓英,等. 知识单元研究述评[J]. 中国图书馆学报, 2011
(5):75-86
[26] King R D, Liakata M, Lu C, et al. On the formalization and reuse of scientific research[J]. Journal of the Royal Society Interface,2011,8
(63):1440C1448
[27] Liakata M, Saha S, Dobnik S, et al. Automatic recognition of conceptualization zones in scientific articles and two life science applications[J]. Bioinformatics, 2012, 28
(7):991-1000
[28] Zhang L. A study of functional units for information use of scholarly journal articles[D]. Vancouver:University of British Columbia, 2011
[29] The Discourse Element Ontology [EB/OL]. [2016-09-15] .http://www.sparontologies.net/ontologies/deo/source.html
[30] R雨萌, 祝忠明. 科学篇章修辞块本体标准及其应用分析[J]. 情报杂志, 2012, 31
(10):112-116
[31] Contantin A, Peroni S, Pettifer S, et al. The Document Components Ontology(DoCO)[J]. Semantic Web, 2016,7
(2):167-181
[32] Mann W C, Thompson S A. Rhetorical structure theory:Toward a functional theory of text organization[J]. Text-Interdisciplinary Journal for the Study of Discourse, 1988, 8
(3):243-281
[33] 王伟. “修辞结构理论”评介(上)[J]. 当代语言学,1994
(4):8-13
[34] Toulmin S E. The uses of argument[M]. London:Cambridge University Press, 2003:25-27
[35] Verheij B. The toulmin argument model in artificial intelligence[M]//Argumentation in artificial intelligence. Springer US, 2009:219-238
[36] Mons B, Velterop J. Nano-Publication in the e-science era[C]//Workshop on Semantic Web Applications in Scientific Discourse(SWASD 2009). 2009:14-15
[37] Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services and Use, 2010, 30(1-2):51-56
[38] Gaudet P, Argoud-Puy G, Cusin I, et al. neXtProt:organizing protein knowledge in the context of human proteome projects[J]. Journal of proteome research, 2012, 12
(1):293-298
[39] EMTO Nanopub [OL]. [2016-09-10]. http://nanopub.org/wordpress/?page_id=644
[40] Williams A J, Harland L, Groth P, et al. Open PHACTS:semantic interoperability for drug discovery[J]. Drug discovery today,2012,17
(21)1188-1198
[42] 徐宝祥, 叶培华. 知识表示的方法研究[J].情报科学,2007,25
(5):690-694
[43] 李楠, 孙济庆, 马卓. 面向学术文献的语义出版技术研究[J]. 出版科学,2015,23
(6):85-92
[44] 马费成. 情报学的进展与深化[J]. 情报学报,1996
(5):337-343