基于知网义原信息量的词语相似度计算方法
摘要:国内利用知网计算中文词语相似度ก通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取。根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度。实验结果证明,该方法合理可行。
关键词:义原信息量;角色关系;词语相似度;信息处理
中图分类号:TP391
作者简介作者简介:李国佳(1986-),男,山西大同人,硕士,华北水利水电大学软件学院助教,研究方向为自然语言处理;杨喜亮(1981-),男,河南郑州人,硕士,华北水利水电大学现代教育技术中心助教,研究方向为智能信息处理。
0 引言
本文从整体性角度出发,给出一种基于义原信息量计算中文词语相似度的方法。基于知网的分类体系(Taxonomy),将义原及其角色关系整体作为词语相似度计算的基本单位,保留了描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想[4],用两个词语共有义原及其角色关系的信息量和所有义原及其角色关系的信息量来综合计算词语的相似度。
1 知网义原信息量
1.1 义原信息量
其中,P(A)表示义原A在某个语料库样本空间中出现的ถ概率。计算语料库样☼本空间中某个义原出现的概率很困难。知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,那么仅依☿赖知网分类体系本身而不需其它语料库,作为计算义原出现概率的样本空间也是合理的。本文给出一种根据知网的分类体系来计算✘义原信息量的方法。
由义原组成的知网分类体系是一棵概念分类树,在每类义原树状层次结构(以下简称为义原树)中,根结点义原是分类类别,是最大的分类,其它义原都是根结点义原的子孙。可以认为,分支结点义原包含越多的子孙结点,其信息量越小。叶子结点是最小的分类,所有叶子结点的信息量是相同的。
在知网的知识词典中,每个词语由DEF来描述其概念。将DEF分为两部分:主类义原和特性描述部分。
定义1:义原及其角色关系。
在词语概念DEF的特性描述部分中,将义原及动态角色与特征(Event Role and Features)[9]的层次结构的组合称为义原及其角色关系。
定义2:主类义原。
在词语概念DEF中,把描述词语概念最左边的第一个义原称为主类义原,也称为第0层义原及其角色关系。
例如词语“病菌”的一个概念:DEF={bacteria|微生物:domain={medical|医},modifier={able|能:scope={ResultIn|导致:result={disease|疾病}}}}。在“病菌”的DEF中,将“bacteria|微生物”称为主类义原,其它部分是特性描述部分。在特性描述部分中,将“domain={medical|医}”、“modifier={able|能 }”称为DEF的第一层义原及其角色关系,其中包含两个本层义原“medical|医”和“medical|医”;把“scope={ResultIn|导致}”称为第二层义原及其角色关系,包含一个本层义原“ResultIn|导致”,将“result={disease|疾病}”称为第三层的义原及其角色关系,包含一个本层义原“disease|疾病”,依次类推。
其中,I(pj)表示r所包含的第j个义原pj的信息量。
例如在词语“病菌”的DEF中,每层的义原及其角色关系中包含的本层义原信息量均为3.346,根据式
(4)可得“病菌”的义原及其角色关系的总信息量为7.946。
1.3 共有义原及其角色关系的信息量
3 实验结果及分析
综合来看,本文方法的结果整体表现更加合理,能够反映出词语间语义的相似性和差异,与人的判断结果比较一致,计算也简单。
4 结语
基于知网义原信息量计算中文词语相似度的方法根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,并根据知网这一关系系统的特性,从保留义原间关系的角度出发,将义原及其角色关系作为计算概念相似度的基本单位,更能全面反映词语语义的相似性和差异。基于知网通过义原及其角色关系的信息量来综合计算词语的相似度,计算量较少,计算结果合理可行。在词语相似度计算基础上,进一步研究句子间相似度计算方法,则有待下一步研究。
参考文献:
[2] 刘群,李素建.基于《知网》的词汇语义相似度的计算[C]. 台北:第三届汉语词汇语义学研讨会,2002,7
(2):5976.
[3] 董振东,董强,郝长伶.《知网》的理论发现[J].中文信息学报,2007,21
(4):39.
[6] 夏天.汉语词语语义相似度计算研究[J].计算机工程,2007, 33
(6):191194.
[8] 王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31
(11):7590.