专业术语新词自动发现技术
引言
大多数的数字图书馆和Web应用所实现的信息检索都是在词表的基础上完成的,词表中收录了特定专业领域内的所有重要概念,并进行了文献资源的标引、组织[1].词表需要不断的丰富,不断的补充新词,以保证词表的容量,但传统词表丰富工作是依靠人工维护的,不能跟上知识领域的快速发展.因此,研究信息检索领域的专家把重点放到了词表的自动生成上,即从自由文本中提取词汇间的关系来自动构造词表.
该文针对科学技术领域专业术语新词发现的要求,提出以概念为基本单位,通过概念之间的属分关系和相关关系进行组织发现新词,对词表进行自动更新的机制.本方案的设计特点:
(1)以概念为单元组织词表.此处的概念就是指WordNet中的同义词集合,同义的词是可以互换的,可以将同义词看成是一个单元,揭示同义词集合之间的关系,而不是词之间的关系[2].
(2)设计的基表不但包括词表本身,而且还包括书目记录的信息.这些书目记录是已经标引好的记录,具有正确的分类和主题.这样,概念就可以与书目记录之间建立对应关系,利用这一对应关系丰富词表的内容.
(3)利用书目记录本身的信息和书目记录与概念的对应关系发现新词,并确定其所对应的概念,自动丰富词表,从而提高词汇的等同率.
下面,就从词表丰富工作中所采取的三个关键步骤来介绍.
1规范化切词后的英文标题
从数据库中导出的标题被切分后存成文本♂文件,切分的结果中会存在一些英文的词组形式,它一般都会是科技文献论述的重要内容,需作为新词来对待.标题中英文的专指性一般很强,但是英文中的一些附带信息会使英文词组过于专指,或者由于大小写或其他格式不统一,导致原本的词组形式不被计算机所认识,从而影响后期的新词发现[3-4].所以,这里对英文进行以下处理:
2标题串中专业术语新词的提取
2.1停用词
停用词指的是没有构词能力的词和标点符号,可以作为发现新词过程中的分隔标志.在发现新词时,如果遇到停用词,则说明前面几个词的组合已构成新词,而且对停用词后面的词继续进行新词处理.在这里,只用高频的连词(如及、及其等)、最常用的助词的、符号(~、《、》等),一共14个.在确定停用词时,先将词按照在标题中出现的次数排列,然后在高频词中人工挑选出停用词[5].
2.2倒排档表
将切分处理后的词串建立倒排档表,用来保存这个词和它所在书目记录中的位置.
2.3利用正向最大匹配(MM)算法发现新词
(1)正向最大匹配算法的基本思想
对每条书目记录中的切分后的标题,用停用词做分隔,对每一部分从左向右找出尽可能长的词的组合.首先利用倒排档表找尽可能长的词的组合,然后判定这个标题中出现的几个词的组合是否在其他标题中也出现了,最后判断此组合在所有标题中出现的次数不小于预定的域值,则确定这几个词的组合是一个新词.
(2)发现新词算法的基本思想
新词是指有特定含义的短语,若它的意义确定,这里就把它当作一个词来处理.比如软件工程课程设计这个词,如果在分词软件中没有切成一个词,而是切成了如软件/工程/课程/设计这种形式,现在的任务就是将其合并成软件工程课程设计的形式.其基本思想就是如果几个词在不同的标题多次连续出现,而且出现次数超过特定的域值,就认为这几个词的组合可能是一个新词[1,6].再通过停用词表过滤,保证这几个词中没有停用词,最后过滤剩下的多个词的组合就认为是新词.
例如,标题为软件工程课程设计,切分后为软件/n 工程/n 课程/n 设计/n [7].
软件/n 工程/n在标题中出现17次,大于域值,软件/n 工程/n 课程/n出现2次,小于域值,所以认为软件工程是新词,将这个词和这标题对应的记录号存入新词表中.软件/n工程/n 课程/n 设计/n出现11次,大于域值,因为已经到了标题的结尾,所以也认为其是可能的新词.处理为软件工程课程设计.
将新词在标题中出现的次数填写在new_word(新词表)中的count_cn字段.删除所有出现次数小于域值的记录.在发现的新词的过程中可能包含一些新词的子串被当成新词的现象,比如软件/工程/课程/设计中的工程/课程被当成新词.如果Ⓐ标题中出现的软件/工程/课程子串全在软件/工程/课程/设计串中,则算法是★不会发现软件/工程/课程这个词的.但是,标题中有一个启动/工程/课程这个词串,因为启动工程课程出现次数小于域值,所以不能成为新词,但计算软件/工程/课程/设计出现次数的时候连工程/课程也计算进去,所以认为工程/课程是个新词.在进行后处理时,删除所有出现次数小于域值的新词记录的目的就是要去掉这种情况造成的错误.
3确定新词对应的概念
基本思想:由上一步的发现新词的算法可知,得到的新词一定对应了数量超过一定域值的文献.每篇文献都有一个或多个主题,每个主题对应一个或多个主题词,而每个主题词对应一个概念,即每篇文献可看作含有的主题词对应的概念的集合.这些文献对应的概念集合可能相交或相离,即他们可能有共同的概念或者没有.确定新词所对应的概念就是要看新词所在的文献集合中是否有大多数文献讨论同一概念.如果有这样的概念,则可以认为这个新词与这个概念是对应的.
确定新词对应的概念不但可以找出新词与概念之间的对应关系,也可以对新词进行过滤,使发现的新词更加具有检索的意义.例如:剩余时间是我们在上一步发现的新词,但是它所出现的文献包含的概念很分散,没有一个概念能够同时在大多数文献中出现,所以这个新词就没有对应的概念,也可以知道这个新词的专指性不强,没有检索意义.相反,例如自然码这个新词所出现的文献包含的概念就很集中,其中汉字编码这个概念就在大多数文献中出现,所以认为新词自然码与概念汉字编码是对应的.同时也可以知道自然码具有检索意义,是一个有效的新词.即有效词为具有检索意义的词.
下面,对此思想用形式化的语言加以描述:
4整体实验结果的分析
这次实验共用了3130条有效的CNMARC记录,分3次导入数据库.在每次将CNMARC记录导入数据库后进行了发现新词和确定新词对应概念的工作,记录下相应的测试结果,并对结果进行了一定程度的人工分析统计.通过对书目记录规模不同的情况比较,发现了新词和确定新词对应概念所得到结果的数量和质量的变化情况,也初步预测了其变化趋势.通过分析记录增加对发现新词ฉ和确定新词对应概念的数量与质量的影响,统计结果反映出以下问题:
(1)切分出来的不同词的数量基本上是随着不重复的标题数的增长而线性增长.若文献数量足够大,那么切分出来的不同词的数量应该趋近于切词系统词库中的词汇总数,而不应该是线性增长.
(2)经过确定新词对应概念这一步,可以将新词中的无效词过滤掉,从而很大程度上提高发现的新词的有效性.通过过滤,也去掉了一些有意义的新词(在表中没有对应概念的新词中的有效词列反映这些词的数量),但这种错误过滤的数量有限,基本上可以忽略.
(3)有效的有对应概念的词占有对应概念词的比例和有效词占发现新词的比例都是大体稳定的.随着文献数量的增加,有对应概念的新词中有效词的比例也ღ在增加.通过找出新词对应的概念,可以提高新词的有效性.
5结束语
新词发现技术一直是自然语言处理、信息检索、文本挖掘和机器翻译等领域的一项基础性研究.该文提出了用最大匹配法发现书目记录的标题中的专业词汇, 根据发现的新词与所在记录之间的对应关系,以及记录与主题的对应关系,确定新词是否有检索的价值,并找出这个新词对应的概念的技术方案.在实践证明,此方案可以有效地解决专业术语词表自动更新的工作.