语料库语言学与壮语语料库的建设
关键词:ป 语料库语言学 壮语语料库 建设
语料库语言学是对以语篇语料❥为基础的语言进行研究的一门学科,也是一种研究方法。四十多年来,语料库语言学不断扩大研究范围,取得了丰硕成果,巩固并提高了自己在语言学界的地位。尤其是运用不断更新的计算机技术建立的语料库,规模大、功能多、检索方便,使语言研究的手段和方法发生了巨大变化,对语言学理论探索也产生深远的影响。近年来在语言学界和言语工程界的共同努力下,我国在汉语语料库和中文信息处理技术方面取得了令人瞩目的进步。我国少数民族语料库和信息技术方面也有了一部分成果。1991年国内出现了“现代蒙古语文数据库”和蒙古文语料库的词类标注系统——AYIMAG。中国社会科学院民族研究所完成了1994年立项的社科基金项目——中国少数民族语言文字多媒体数据库。另外藏文、朝鲜文、壮文、满文等也在操作系统、电子出版系统、数据库建设等方面有了比较大的发展。而在壮语语料库的建设方面,我认为还可以有更好的发展。
一、语料库语言学的发展语料库语言学在其发展初期并没有引起太大的共鸣。计算机的发展促进语料库建设手段不断实现现代化和自动化,语料库在语言教学和研究中所能发挥的作用越来越大,从语言研究、语言教学、语言测试、词典编纂到人工智能等领域都开始应用语料库。现代语料库语言学开始得到越来越多人的重视。由于语料库搜集了大量的人们实际使用的语言,而且可根据各种研究需要通过计算机快速加以处理,故语料库为语言研究开辟了广阔的研究领域。
语料库语言学开始是以英语作为研究对象的,现在已发展到英、法、德、西、日、汉、蒙语等20多个语种。语料库语言学的发展可分为两大时期:计算机化以前的语料库和计算机化的语料库。计算机化之前的语料库主要有为词典编纂,语法研究收集的引语库,为教学目的收集的文章库,为语言调查收集的方言库。计算机化的语料库可分为三个层次:未加标注的语料库,标有词类附码的语料库,标有句法附码的语料库和标有语音韵律的语料库。二、语料库语言学的实际应用
语料库语言学的实际应用主要有四个方面。第一,词典编撰方面。大型语料库对词典编撰极有用处,如《科林斯—科贝尔特英语词典》有自己的大型语料库,《朗文英语词典》所依据的朗文语料库网包含三个子语料库:一是朗文—兰卡斯特语料库,含英美语各种类型的书面语3000万字;二是朗文学生语料库,含世界上唯一的各国英语学习者书面英语语料库;三是英语口语语料库,含第一个日常英语会话语料库。第二,语料库的检索功能和统计手段给句法研究、语篇分析、会话分析和语音研究提供了方便。互联网上现代英语国际电脑文档(I-CAME)介绍了许多近年来以语料库为基础的语言研究项目,说明语料库对于语言研究的重大意义。语料库语言学可以处理一定范围内的语料,揭示语言在某一历史阶段中的情况。第三,语料库语言学对语言教学与外语教学产生了直接的影响。语料库作为大量真实语言资料的来源,近年来在教学中得到越来越广泛的应用。母语习得和外语学习都离不开语料研究。语料库对新闻语言、科技文本等特殊用途语言的教学与研究也起了很大作用。第四,翻译研究语料库翻译研究是20世纪90年代才兴起的一种全新的翻译研究模式。适用于翻译研究的语料库主要是平行语料库和可比语料库。语料库翻译研究取得的较突出的成就是对翻译普遍性的研究。关于译文中存在的简略化,明确化和规范化的普遍特征的假设在语料库翻译研究中得到了一定程度的验证。
由于语料库在数据统计等方面的强大功能,它也被广泛应用在其他领域,如基于口语语料库数据对口语和书面语进行对比研究,对口语词汇、口语语法和会话中的词块使用特征、话语结构特征的描述,利用平行语料库研究英汉互译和语言测试问题,等等。三、建设壮语语料库的意义
从语料库语言学的发展和语料库的应用中,我们看到少数民族语言的语料库的建设对于少数民族的语言研究是有意义而且必要的。近年来国内专家学者对壮语的研究取得了进展。为了使壮语研究者更加方便地进行壮语语言的描写,方言比较研究和壮语和其他语言的历史比较研究,以及壮语词典的编撰、壮语语料库的建设是非常有必要的,其重要意义可归为以下几点。第一,语料库可以广泛地集录语言资料,最大限度地保存、保护语言资料,保存具有社会历史价值的语言文化遗产。在社会文化生活发生巨大变化的今天,不少语言日渐衰微,乃至面临消亡的危险,没有被很好地记录。尽管壮语没有面临濒危境地,但存在汉化现象,因此壮语语料库的建立是必要的。
第二,可以大大改进壮语研究手段。就目前语料库语言学经验来看,语料库可以有效帮助词语形式、词义、用法的研究,进行壮语单或多方言词汇、语法的分析比较。在语料库语言学中,语义韵律或语义协调研究是吸引人的闪光点,可发掘出语言单位间微妙的语义联系,值得关注。第三,对语言学习具有重要作用。如果根据壮语语料库和普通话语料库这种“双语”语料库进行教学,通过检索功能词,可以使学习者自己发现语法规则;通过检索同义词组,可以帮助学习者区分其用法,从而产生积极的效果。这种“双语”语料库进行教学的方法也可以用在英语教学方面。比如说壮语的一些人在学英语的时候,可以用壮语语料库与英语语料库进行语音上的对比。如,有些壮语方言中的发音/p/、/b/、/t/、/d/与英语中的发音不同,有利于该壮语方言区的人纠正他们所讲的英语中的相应发音。又如,有学者研究壮语的中动语态与英语中动语态的不同就可以运用壮语语料库作为语料来源。 四、壮语语料库的建设
1.建设壮语语料库的设想首先,搜集、记录大量原始语料是建设有价值的语料库的基础。搜集壮语语料比一般的语料如普通话语料要艰难很多倍。各种语体、文体的普通话料在因特网上大量存在,但是各种壮语资料则散见于少量的文献中,大多没有以电子文本形式存在的成品。没有足够的资料,研究将会受到很大限制,建库也会成为问题。所以应尽可能多地收集资料,以电子文本形式保存,建成电子文本集。有了大量原始文本,才可以根据不同的目的、不同的需要把原始文本输入不同类❤型的语料数据库。对于口语作品,要进行录音,把录音资料转写成文字。
其次,以书面语料为主,其他形式的语料为辅。壮语书面语常见于壮语出版物,如《三月三》期刊和一些壮语教材。口语则应以武鸣壮语为准,主要搜集该地区的壮语语音材料。再次,要注意语体、文体差别。语言的语音、词汇、语法、修辞在不同的语体、文体中会有不同的表现,因而在建库时可以根据一定的语体或文体构建不同的语料库,这样才便于发现语言运用的规律性问题。从现在的一些研究看,一些学者开始注意到运用不同语体的文献进行以语料库语言学理论为基本指导思想的汉语言研究,这是一个可喜的变化。如果可以,我们也可以根据一定的语体或文体构建不同的壮语语料库,如壮语方言语料库,壮语新闻用语语料库等。
最后,壮语的各方言语料库要求能统筹兼顾,最后能够嫁接在一起方便使用。建设壮语方言语料库,“小作坊”式的语料库容易造成重复建设,浪费大量的人力、物力和财力,也不利于语料库的建设和使用。壮语方言语料库应该是一种公益性的成果,应成为语言工作者无偿献给社会的公共财产。不仅语言工作者可以方便使用,社会各界、中外语言学习者都可以从中受益。这样,语料库才能够发挥其应有的作用,收到深远的社会效益。
2.壮语语料库的附码标注 语料标注可实现语料机读化,可提高语料的利用价值。标注就是对语料库中的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分上,以便于计算机的识读。语料库的附码标注要遵循一定的原则,有可参考的标注模式。(1)壮语语料库可遵循的附码标注原则
英国著名语言学家Leech是当今语料库语言学的代表人物之一,他(1993)认为语料的标注应该遵循以下几个基本原则。第一,标注附码可删除,可恢复到原始语料。语料的标注总是带有一定的目的性,语料库用于不同目的,可能就需要采取不同的标注方法。可删除标注附码的语料若用于其他用途时,可重新进行标注。
第二,标注可以单独抽出,另外储存。这一原则实际上与第一条原则基本一致,目的是让语料库中语料的标注能够最大限度地增强语料使用的灵活性。第三,语料的最终使用者应该清楚标注的原则和附码的意义。
第四,在语料的使用和说明文件中,应说明标注者和标注所使用的方法。第五,应向用户表明语料的标注并非完美无缺,它只是一种可能有用的工具。
第六,标注应该采用综合的使用范围广泛的语法理论以方便语料库的使用,而不是按照使用范围狭窄的某一特定的语法理论。第七,任何标注模式都不能作为第一标准。在标注模式的确定过程中,目前比较理想的做法是,综合考察已有的各种标注模式,分析各种模式的长处与短处,结合自己语料库的实际应用,建立一种折中的标注模式。
以上七个原则,中心意思也就是最大可能地方便标注者和使用者,并被广泛认可。壮语语料库的驸码标注可参考Leech提出的这些原则。(2)壮语语料库可参考的语料标注模式
自语料库诞生以来,人们采用了各种各样的标注模式。目前,语料库语言学领域内的许多研究者正在致力于建立一种国际统一的标准标注模式,可作为壮语语料库的参考模式。COCOA参考系统是一种很早出现的用于从机读语篇中提取词汇索引的计算机系统,它的一些标注的格式已经被OCP(Oxford Concordance Program)所采用,而且被“朗文—兰卡斯特语料库&rdquo۵;(Longman-Lancaster corpus)、“赫尔辛基语料库”等应用于语料的标注之中。TEi(Text Encoding Initiative)被认为(McEnery、Wilson,1996)最能反映当前语料库语言学家致力于建立更具形式化的机读语篇信息编码国际标准的动向。它采用SGML(Standard Generalized Markup Language)词性标记附码,在此基础上又制订了一套详细的规则。TEI标注模式已经为诗歌、书信、戏剧等基本文体制订了一套标注的标准。一个语篇的总体情况可以用文件类型描述(DTD,document type description)标出。DTD提供关于语篇所包含的语言单位、语言单位的组合形式,以及标注附码的含义等信息。
(3)壮语语料库可标注的类型有一定规模的语料库的语料标注类型主要包括语篇背景信息、词性、词形、句法分析、语义、语篇结构等。这些内容也是壮语语料库应包含的类型。
语篇背景信息可以小部分通过文件名反映出来。语篇背景包括标题、作者(包括年龄、性别、国籍等)、语篇的写作时间、书面语还是口语、何种变体的语言、内容类别、语料来源等各种信息。这些信息对语料的分类与索引是非常重要的。词性标注有时也被称为语法标注,目的是标明语料中各单词的词性,例如单数°普通名词、形容词的比较级、过去分词等。词性标注是整个标注过程的最基础阶段,为进一步的句法分析和语义标注奠定了基础。
词形标注是指把单词的原形标注出来,是整个标注过程的重要步骤,因为这些信息对于词汇研究和词典编纂尤为重要。通过词形标注,我们可以非常方便地统计词汇的使用频率,提取单词的各种变化形式和统计它们的分布情况。句法分析是把句子的各种组成成分用各种表示句法特征的附码标注出来。句法分析在目前一般根据语料库的目的等因素而采用不同的语法理论,而对于句法结构标注方法,不同的语料库采用的方法也不同。
语义标注主要包括语言单位的语义特征和语言单位之间的语义关系。由于语义标注的历史不长,人们目前对于标注的内容还没有一致的看法。现在一些语料库研究者正在致力于设计一些语义分析系统,以便于进行语义标注。语篇结构的标注在目前各种语料库的实际情况中进行得还不太普遍。Stenstrom(1984)采用语篇附码对“伦敦—隆德英语口语语料库”(London-Lund Corpus of Spoken English)进行语篇标注。
有些语料库要进行语音标注,但是由于语音标注完全需要人工完成,而且要求标注者具有相当高的语音听辨能力和语音学水平,因此,除非特殊需要,目前进行语音标注的很少。五、结语
国内语料库语言学通过多年的发展,无论是在语料库的利用上还是在研究方法上都取得了长足的进步,但同时我们也应看到存在的一些问题。如各研究领域发展欠平衡,有些语料库的选取不够恰当,采取的统计方法不够严谨,等等。我们应该充分认识到语料库研究对我国语言研究的重要意义,密切注意国外语料库语言学发展的最新动态,充分利用一切语料库资源和语料库研究成果,并结合我国的语言教学和研究现状,进行更深入的语言研究和语言应用研究。少数民族语言语料库建设是很有发展前途的研究领域。目前国内已有研究单位和学者着手或者开始建立壮语语料库,希望我国的研究者能够在国外研究的基础上,根据我国壮语的实际需要,建立一套适合壮语实际情况的语料标注系统。这无疑是对我国的少数民族语言研究作出重要贡献,尤其是对壮语的研究有极大的意义,将促进壮语语料库的研究与发展。中国www.LWlm.Com
参考文献: [2]崔刚,盛永梅.语料库中语料的标注[J].清华大学学报(哲学社会科学),2000(1).[3]何安平.教育中的应用——理论与实践[M].广州:广东高等教育出版社,2004.
[4]刘岩.关于中国少数民族濒危语言语音语料库的设计[J].中央民族大学学报(哲学社会科学版),2006,(4).[5]罗起君.谈壮语的可利用价[J].河池师专学报(社会科学版),2002,(9).
[6]潘永梁.语料库语言学的目的和方法[J].解放军外国语学院学报,2001,(3).[7]王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学(大连外国语学院学报),1999,(3).
[8]王泽鹏.发展方言语料库 提高研究水平——兼谈粤方言语料库的建设[J].烟台师范学院学报(哲学社会科学版),2003,(3).[9]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.