现代汉语分类词典介绍

发布时间:[2007-11-04]  阅读次数:

现代汉语分类词典

A Modern Chinese Semantic Classification Dictionary

(MCSCD)

 

前言

 

一、回顾

 

       当代汉语词汇研究中,注重词汇整体性问题已经成为一个趋势。词汇的整体性问题不少,如词汇总量、词汇构成、词汇分层分级、词汇来源、词汇演变、词汇的语法化与语法的词汇化等,最引人注目之一大概要算是“词汇系统”了。20世纪前半期语言学界流行着语法有系统,语音有系统,词汇是一盘散沙的观点。到60年代词汇是一个系统的观点开始出现,但受到强力的“辩难”。直到80年代,这一观点才慢慢被学术界接受。如果说这个观点的流行来源于理论上的自觉,倒不如说更多的是受到实践的影响。因为建构词汇语义系统已经成为一种日渐铺开,并引起人们更多期许的学术实践。

       《同义词词林》(1983[1]就是这样一部在现代汉语词汇系统建构上有着开拓意义的作品。尽管它最初或最突出的宗旨并不在此:“我们编纂《同义词词林》的初衷是,由于在写作与翻译中往往发生词穷的情况,难以将意思表达恰当,因而感到迫切需要有一本从词义查词的工具书,以便从中挑选适当的词语。这本词书,就是希望提供较多的词语,对创作和翻译工作能有所帮助。”郭绍虞先生作了一篇长序,通篇都是从语法修辞的应用层面来予以阐发的。但最终使这部著作在学术界获得巨大声誉的却似乎不是这两个实用性目的。“《词林》一书收录词语近七万,全部按意义进行编排,所以它是一部类义词典。”收词量大,又得按意义编排,建构一个有序、合理、清楚的词汇系统成为必需。正是为了达到那两个实用目的而必须具有的这个分类系统,成就了《词林》的最大学术价值。它把数万条词语以有序的语义联系呈现在人们面前,使得词汇语义存在系统性的理论模糊突然在实践上变得清晰起来。称它为现代汉语第一部语义分类词典毫不为过。此后,多种分类词典迭出,如《现代汉语分类词典》(徐为民,辽宁大学图书馆,1984)、《简明汉语义类词典》(林杏光,商务印书馆,1987)、《现代汉语分类词典》(董大年,汉语大词典出版社,1998)。细观这些词典,收词范围、义类层次、义类数量都很不相同,但“以词义为主,兼顾词类,并充分注意题材的集中”算得上是它们的共同点。[2]《词林》有一级类12类,二级类94类,三级类1428类,三级类下面又按代表词分出词群,共3925个词群。无论是收词的量,还是分类层次的丰富与细致上,都可算是这一类词典的佼佼者。从人对社会认知的角度来构拟词汇语义分类系统,注重事理的关联性,注重在词义最小的同异程度上来集聚底层语义类,成为这一类词汇语义分类词典的三大特点。

       随着计算机自然语言处理的出现,对词汇语义分类词典有了新的需求。计算机对词汇的处理讲究效率,讲究同质、同值化的“批处理”,因此将看似杂乱散漫的庞大词语进行归类合并也就有了必要。但计算机不像人,没有那么强的语义辨微能力,需要借助清晰有力的形式标志,这样注重词的语法标志与语法功能也就成为追求的重点。王惠、詹卫东、刘群的《现代汉语语义词典》可视为这一类词典的代表。从事机器翻译的人大概都有这种体会,语义分析是机器翻译中模糊性最大、最难于处理、最不成体系的部分。因而,在现阶段,要跳过语法分析阶段,构造一个基于语义分析的机器翻译系统,是不太现实的。”“因此,从工程实用的角度出发,我们的机器翻译系统采用的是‘语法分析为主,语义分析为辅’的分析方法,在整个汉语分析过程中,语法分析构成了分析系统的框架。”[3]下面一段话将“语法分析为主,语义分析为辅”这一抽象原则作了再清楚不过的阐释:“我们的语义分类体系是为了辅助语法分析而设计的,因此,语义分类的标准及分类深度均应从为语法分析服务的角度来确定。应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。这应该是我们的唯一标准。”[4]在这个系统中,语义是处于从属、辅助、够用即止的位置,所以我们观察到它的最底层一个语义类有时会有多达数千条词语,因为只要它们有着共同的语法属性,能符合计算机处理语言的某个语法规则就可以了。而数千条词语共处一个最底层语义类,这在按语义标准来实施的分类词典看来是难以想象的。“语法分析为主,语义分析为辅”,成为这一类语义分类词典的最大特点。

       还有一类面向计算机的语义分类词典显得格外出众,这就是董振东的“知网”(HOWNET)。它是专用于计算机的语义分类词典,这种专用性使得它无法平面化、纸质化,必须依靠计算机强大的超文本关联能力才能真正显示其内在的语义关系。这种独特品格甚至使得“词典”这个词对它都不适合,它是真正以网络状态出现的一个词语网。“知网”的核心就是给每一个词标出若干“义原”。这些“义原”是一个语义系统所涵蕴的最重要、最基本的语义要素,数量有限,约两千多个;义原蕴含于每个词之中;每个词都拥有最具区别特征的若干义原;给每个词标出的义原是有限的,在个位数范围之内。如此种种,使得“知网”虽然在形式上仍有着与其他语义分类词典相类似的语义层与语义类,但实质上将所有词语关联起来的却是那些“义原”。

       面向计算机服务的语义分类词典中还值得一提的是张潮生的“中文词库”。[5]这是作者在相当艰苦的个体劳动状况下完成。它充分考虑了《词林》、“知网”,及美国“WORDNET”的长处与不足,有所规避,也有所创新。其特点有:1.语义层级较深:如以“A股”为最下位义,向上可逐层推及“股票→有价证券→证券→票据→券→证据→依据、信息→事物→人或事物”。2.标示了词的多种语义关系:同义、上下位、类型-实例、整体-部分、角色、并列、集合-元素、发出动作、接受动作、功能-工具、因果、拥有、属性、领域、词类、其它关系。如“妻子”的[同义]有“太太、老婆”等34条词,[下位]有“正妻、小老婆”,[上位]有“配偶、女眷”,[由…充当]是“妇人”,[集合]是“夫妻、妻子、六亲”,[并列]是“丈夫”,[发出动作]是“守空房、告枕头状”,[接受动作]是“虐妻、休”,[被涉及]是“惧内”。3.参考了相连及的语法角色。如上面“妻子”例中的后三项。

       上面对三大不同类型的语义分类系统作了简要概述,无非是想说明这样一点认识:一种语言的语义系统呈现在人们面前并不是固化、平面、单一视角的,而是泛散、移动、立体的。在不同的观察视角下,置于不同的分析范围,服务于不同的应用目的,使用不同的划分标准,借助不同的划分手段,甚至借助不同的表现形式、存放于不同的装载空间,都会建构出很不相同的语义系统。用“建构”一词,想说的就是任何一个语义系统,尽管都有客观世界在支撑着它,但就其最后呈现在人们面前的语义模型与全貌,都是研究者“理论”的产物。这里很用得上人文语言学理论的一句名言:“语言是一个民族观察世界的窗口和模式。”一个语义系统,其实就是一种语言观、一种世界观、一种分析世界整合世界的方法共同作用下的产物。想用一个标准、一种模型来穷尽一种语言的语义世界,是不太可能的。

      

二、动因

 

既然难以用相同的标准与手段来衡量不同的语义分类词典,那么,如何评价不同的语义分类词典?这当然会用到一些标准,如收词量的多少,收词单位的长短,分类层次的粗细,义类规模的大小,义类关系的平衡,而最关键的则是看这个语义分类系统的分类标准。

如果说“知网”的语义分类使用了明暗两种方法,明的是义类层级分类法,暗的是用“义原”将相关的语义类串联起来的话,那么另外两种语义分类词典则分别彻底贯彻了词的语义性与语法性。《现代汉语语义词典》始终的是词的语法性。它除了把名词、动词、形容词作为最上一级的分类外,在下级语义层的划分中也突出了便于语法处理的属性。如名词类中,“生物”与“非生物”相对,“自然事物”与“人工事物”相对;在动词类中,“行为”类下分出“自变”“促变”“自为”“自移”“搬移”“对待”“给予”“获取”“创造”“遭受”10小类,这些类蕴含着对动作施动者、动作方向、动作对象、动作结果的考虑,正是这些因素会直接影响到语法搭配规则与搭配对象。再如“人”在它的系统里面只处于“事物_具体事物_生物_人类_人”的第四、五层的下位语义层,而在突出对社会现实的认识,突出人与自然的事理逻辑的语义分类中,“人”却总是处于一级或二级的上位语义层的重要位置。以《词林》为代表的分类词典,其功能是面向人,服务于人的语言使用,贯彻始终的是词的语义性。

能不能把现有的注重语义性的分类模式做得更完善些?这是我们在投入大气力从事这项工作前考虑最多的地方。答案当然是肯定的。之所以把目标锁定在这里,是因为我们相信这项工作的意义与价值:

(一)作为真正的语义分类词典,必须正面探究语义问题,寻找到体现一种词汇语义系统的最佳展现方式

语言是一个综合体,语义、语法、语用的各个要素都有着各自的内在系统性。“语义为主,语形为辅”,是对其相互关系的正确描述。建构一种词汇语义分类系统,语义应该是处于核心、首要的位置,语法因素,语用因素,只能起着辅助、次要的作用。词的语法特征具有直观性、“批处理”的可行性、易操作性,但这些都必须立足于或紧密结合语义规律来进行。语法的规律性很强,它关注的主要是“搭配组织类”。“语法类”涵盖的范围相当大,这当然方便于计算机语言处理,但它并不能代替“语义”的“类”。语法的类与语义的类毕竟是两种不同性质、不同内容、不同对象的东西。

相同的语法类可能会表现出很不相同的语义特点。如“计策”是“叁抽象物_三意识_D想法”下的一个名词类,在它下面还有“计划”、“鸿图”、“计策”、“将略”、“巧计”、“上策”、“中策”、“小算盘”、“阴谋”、“毒计”、“故伎”、“反间计”等12个五级类,它们的语法属性是一样的。但以“小算盘”类为界,之前的多为褒义,之后的多为贬义,与“鸿图”搭配的常是“大展”“宏伟”“远大”等,与“阴谋”搭配的常是“狠毒”“阴险”“图谋”等,语义的共现环境完全不同。反之,相同的语义类也可能会表现出很不同的语法特点。如“受奖”类是“伍人物动作_八际遇_I享福”下的一个动词类,共有“受奖、受赏、见赏、获奖、得奖、中奖、领奖、领赏”7条词。这7条词之间有着明显的语法差异,前2词是受动型,后5词是主动型,受奖人与授奖人处于不同的关系之中,使用的句子结构也不相同。为了区分其语法差异,将它们又分成两个下级类,“受奖”和“获奖”。计算机对语言的处理最终仍是要符合人们对语言的处理原则,要符合人们的语感,而人的任何语用活动都是立足于语义之上来进行的。

(二)   词汇语义分类词典在人的语言学习与使用中有着重要参考作用

在语言研究中,服务于人应该是一个最广泛的服务领域。这是语言研究的永恒价值所在。人们对词汇的学习与使用,最常用的就是对同义词语的系联与辨微,对反义词语的类推与辩证。但这时人们关注到的往往是具体词语的相邻关系,忽略了词汇系统的整体关系。毫无疑问,具体词语的相邻关系只有在完整的语义系统中才会更清楚地凸显出来。

如一级类“性质与状态”类下有6个二级类、87个三级类、325个四级类,1076个五级类,研究表明它们在真实语言中的分布有着明显的梯度差别,即愈是上位类,存在愈是普遍,愈是下位类,缺损愈是明显。存在与缺损正好反映出一个义类的重要性与普遍程度。在对外汉语教材词汇的研究中,发现在所有的“形貌、知觉、性状、性质、品行、情状”6个二级类中,“性质”类词语最多。往下到三级类时则开始有了义类缺损,“性质”类下“真假、好坏、普异、优劣、对错、利弊、纯杂、静动、难易、主次、轻重、贵贱、亲疏、显隐、内外”等15个三级类中出现在初级教材的词汇中,而“详略、荣辱、亲姻”3个三级类则阙如,这表明在语言学习过程中,有的义类处于更基础的位置,有的义类则要在心智稍成熟后才会获得。[6]认识到语义类的先后、有无、详略及其相互关系,对准确地安排学习内容,提高教学精度,显然是很有好处的。

(三)   观察词汇语义分类系统背后的社会、民族、观念的文化世界

语言的民族文化属性,鲜明地在语义上表现出来。语义要素的有无,语义类的存缺,语义类的厚薄,在不同语言的语义系统比较中会轻易地展现出来。而对“类”的比较比对单个词语的比较更容易显示出差异。如英语的“朗文多功能分类词典”[7]在一级类“人与家庭”下有关称谓的有“人(总称)”、“男人与女人”、“父母与孩子”、“男人类型”、“女人类型”、“年轻男子”、“年轻女子”、“孩子的类型”、“各种年龄的人”、“各类人”等类,收词数分别是1069101047675条,共74条。MCSCD与之相类似的有4个三级类,即“壹生物_一人”下的“泛称”、“性别”、“年龄”、“亲属”类,分别收词329125215929条,共1598条。74条与1598条的相关类之比是120,二者的词总量之比却是15,可见汉语称谓词特别是亲属称谓词的丰富程度。

社会生活的时代发展也会在语义类上留下深深印迹。《词林》反映的是上世纪80年代初的汉语面貌,与现在相隔20多年。这是汉语史上变化极其巨大的一个时期,从《词林》到MCSCD,除了具体词语有了明显差异外,语义类也有了很大不同。MCSCD的“办公用品”类多出了“办公电器”类,“生活用品”类多出了“生活电器”类,且词量规模都不小。这都是当代社会生活的信息化、现代化的影响所致。《词林》在“资本”类下收了有关股份的7条词:“股份、股子、股、股金、公股、干股、私股”。而在MCSCD中“股票”却是一个不小的“家族”:“股票、公股、私股、干股、A股、B股、H股、法人股、个人股、普通股、国有股、港股、红筹股、蓝筹股、绩优股、配股、新股”。动词也衍生出来了:“炒股、炒汇、持股、控股、入股、参股、招股、建仓、盘整、空仓、清仓、空对空、买空、卖空、崩盘、套汇、套牢”。相关的还有“红盘、绿盘、上市、配股、开盘、收盘、开盘价、收盘价”。“一个时代有一个时代的语言”,这在不同时代的词汇语义系统对比中充分反映出来了。

义序的前后之序也是文化观念的产物。如“壹生物_一人_D亲属_c夫妻”下有21个五级类:

壹一Dc01夫妻(22

壹一Dc02结发夫妻(3

壹一Dc03佳偶(4

壹一Dc04配偶(3

壹一Dc05老伴(3

壹一Dc06未婚夫(2

壹一Dc07新郎(3

壹一Dc08新娘(6

壹一Dc09后婚儿(3

壹一Dc10丈夫(24

壹一Dc11后夫(3

壹一Dc12亡夫(3

壹一Dc13妻子(32

壹一Dc14内人(6

壹一Dc15尊夫人(5

壹一Dc16发妻(14

壹一Dc17前妻(3

壹一Dc18后妻(6

壹一Dc19亡妻(4

壹一Dc20妾(27

义类按先总指后分指、先通名后狭名、再雅名再俗名,先正名后旁名,并按婚姻过程前后相续而列。括号里的数字表示该类所包含的词语数。上面显示“妻”名比“夫”名多,“妻”类比“夫”类划分细致,有“发妻”类(长房、大老婆、嫡配、嫡妻、发妻、结发、元配、原配、糟糠、糟糠之妻、正房、正妻、正室、正堂)而没有“发夫”类,如此等等,都显示出汉民族传统中男性中心、女性附庸,婚姻道德对男性要求松,对女性要求严格,重婚姻的原生性一贯性,轻婚姻的再生性接续性的文化特点。

(四)《词林》创立的社会认知观的语义分类系统亟需得到改进与完善

在上面的论述中,读者已经不难发现我们对《词林》给予的高度评价。但随着时间的推移、语言的变迁及人们认识的深化,其不足也是明显的。最著者有二: