绪论
在语言系统的各个子系统中,对词汇系统的研究是公认的语言研究中比较薄弱的环节,这主要表现在对词汇系统内部的规律认识不够。这在很大程度上是因为词汇系统内部成员众多,成员的特异性又较强,因此词汇系统内部具有较大的异质性;而且词汇是变化最快的,既不断有新的成员加入,也不断有旧的成员退出,这都为研究词汇带来了很多困难。
到目前为止,汉语词汇研究著作大多是对汉语词汇进行抽样式的定性描写,所涉及的词条是有限的,所作出的概括往往不够全面[1]。而且,不少汉语词汇研究论著所针对的对象就是规范型词典中收录的词,所作的有限的定量调查也是以词典条目为基础的。人用词典的收词是有限的,而且一般只收见字不能明义的词语,不收由能产的词法模式构造的语义透明的词[2],因此不能很好地反映词汇的真实使用情况。本书的研究是在大规模平衡语料库和带有使用频率等信息的收词广泛的计算机用词表的基础上进行的,这样,一方面所讨论的对象更贴近于词汇使用的真实情况,另一方面可以将定性分析与定量分析相结合,使所得概括更为全面有效。
笔者参与了由清华大学孙茂松教授主持的《信息处理用现代汉语分词词表》(以下简称《词表》)的后期研制工作,本书所用的计算机用词表就指这一词表。《词表》的研制过程是这样的:将目前所有出版的现代汉语词典中的条目输入电脑,取其合集,并从现有的分词语料库中取出一些可能为词的单位,陆续补充之后最终得到一个包含大约200,000个条目的原始数据库,然后建立了一个大约10亿字的语料库来作为支持系统以计算每个条目的出现频率,又对那200,000左右的原始条目是否为词进行了人工鉴定,最后确定了92,843个条目,形成了最后的《词表》(孙茂松等2001)。根据在大约10亿字的语料库中的出现频率,《词表》中的条目分为一级常用(56606条)和二级常用(36237条)两类。《词表》还对条目的各种形式类别作了人工的初步标注(对于《词表》内部结构和编写规范的详细介绍可参看王洪君2001b,孙茂松、王洪君、董秀芳2003)。
《词表》所包含的条目远远多于一般供人使用的词典。经测试,这些条目对语料的覆盖率(除掉专名)超过了96%(孙茂松等2001)。可见,《词表》中的条目基本能够代表现代汉语词汇的实际面貌。
《词表》中的条目不仅能反映词汇系统的共时面貌,而且也能透露出变化的信息。词汇系统是变动不居的,除了语言使用者有意识地创造新词会给词汇系统带来新成员之外,原先非词的结构在使用中会发生词汇化(lexicalization)[3](董秀芳2011/2002),从而也会产生出新的词汇单位。词汇化的过程在汉语历史上大量存在着,有些已经完成,还有一些词汇化过程在现代汉语中正在进行,一些由这样的词汇化过程所造成的词还未被词典编纂者编入词典,但《词表》对这类形式却有比较多的收录。
本书的研究材料主要取自《词表》。在分析某一词法模式或词汇现象时,我们都是在穷尽地调查了《词表》中的相关条目之后进行的,这就在一定程度上保证了所作出的概括的全面性。
我们认为词汇系统的运作需要两个部分,一是词库(lexicon),二是词法(morphology)。词库是一个语言中需要记忆的所有词汇单位的集合;对词法的传统定义是关于词的结构、形式和类别的规则,对词法的新的理解是将其看做可以生成被语言使用者所接受的词的规则系统。词库是显性的,可直接观察;而词法规则是隐性的,较难于观察。词法规则体现在词库中的条目里,通过外显的词库去研究内在的词法规则应该是一条可行的研究途径。
《词表》可以说是对人脑中的心理词库(mental lexicon)的一个近似列表,我们的目标是通过研究《词表》所反映出的汉语词库内容,来探索汉语的词法特性,即词语构造中的规则性的东西。词库是凭借,我们研究的最终目的是要弄清楚语言使用者头脑中的词法知识。另外,我们也试图根据《词表》中的材料来探讨词汇的历时形成所表现的特性及其与共时的词法规则的可能关联。
本书的研究目标是加深对汉语词法特点的认识,在这一点上具有理论意义。语言学家们一个比较公认的事实是:各语言在词法方面的差异要远远大于句法。这样看来,对于具体语言词法的深入的个案描写就显得尤为重要。不难发现,汉语词汇面貌与印欧语言词汇面貌有着很大不同,如果说将描写印欧语言的一些句法范畴拿到汉语中来还至少能找到一些大致的对应的话,那么描写印欧语言的一些词法范畴则往往在汉语中不容易发现恰当的对应物。因此,汉语词法就更需要进行独立深入的研究。当然,我们相信语言共性的存在,即使汉语的词汇面貌表面上看起来与印欧语言有很大不同,在一个更为抽象的层次上,汉语与其他语言的词法又会表现出深刻的一致性(Packard 2000)。本书在描述汉语词汇现象的同时,力图揭示汉语词法的一些规律性的东西并对其实质进行分析,以期丰富词法理论。
同时,我们相信本书的研究成果也会具有一定的实用意义,对于各类汉语词典的编纂、中文信息处理、对外汉语教学中的词汇教学等都会有一定参考价值。
值得指出的是,我们的研究本身是从本体角度出发的。汉语应用领域,比如中文信息处理和对外汉语教学,对现代汉语的本体研究提出了要求,同时也发掘出了不少值得解释的新现象。语言学理论如果能解决应用领域所提出的问题,那么这一理论无疑具有很大的价值。但是语言的本体研究和应用研究毕竟是两个层面,研究的领域和宗旨并不完全相同,二者可以并行不悖。本书的研究是以解释具有内在系统性的词法规则和词库单位的形成为导向的,基本属于语言学本体研究,只是在一些地方顺便提及在应用领域中对一些语言现象的较为合适的处理策略。
本书在材料的获取上采用语料库提取与内省相结合的方法。再大的语料库反映的也是在本质上无限的言语的有限片段,仍有一些语言现象无法从语料库中直接获得(我们编制《词表》的时候也能体会到这一点,因此根据内省增加了一些语料库中未发现但却在日常生活中出现的词汇条目),所以作为母语者通过内省获得的对语言现象的判断在语言研究中是必不可少的。
本书采用定性与定量相结合、理论导向与材料导向(在一定程度上更偏重于材料导向)并行的研究方法。在词法学、句法学、词汇化、语法化等理论的指导下,对《词表》中所反映出的词汇现象进行了分析和解释。本书基本上采用的是项目与配列(Item and Arrangement,简称IA)[4]和以语素为基础的词法(morpheme-based morphology)研究模式。我们认为汉语中语素与语音形式的整齐对应(大多数语素对应于一个音节且音形稳定)以及复合构词法占优势的特点,决定了汉语词法适于用上述研究模式来分析处理。本书也尽量广泛吸收了当代最新的一些词法理论,将之用于汉语词法现象的分析。
在汉语词法的研究中有一个大的争论,即语法构词理论与语义构词理论的分歧(这两个名称取自叶文曦1996)[5]。这代表了对汉语词法的两种不同认识,同时也就决定了两种不同的研究角度。语法构词理论以陆志韦等(1957)、Chao(1968)等为代表,认为词法与句法的结构方式具有相通性,注重复合词的内部形类构成(形类包括语类属性、词根或词缀的性质状态等。如用“名+名”“动+名”等来描写复合词的构成),采用语法的术语来描写词的内部结构关系(如并列式复合词、偏正式复合词等称呼);语义构词理论以刘叔新(1990)、周荐(1991)、黎良军(1995)、徐通锵(1991,1994,1997)、叶文曦(1996)等为代表,反对用语法的概念来分析复合词,否认复合词中蕴含有句法或词法关系,只承认复合词的词汇性质[6]。其中,有些语义构词理论的学者走得更远,甚至放弃了“词”和“词类”的概念。
我们认为这两种认识及其相应的研究角度都有一定的偏颇。语言符号是具有形式和意义的两面体,在研究中,形式和意义是不能偏废的[7],而以上两种认识则是各执一端。如同句法研究的目标是要搞清形式与意义之间的对应关系一样(朱德熙1982),词法研究的目标也需要搞清形式与意义的对应关系,具体说是词法形式与词法意义之间的对应关系。语素与语素在形式上的关联对应着它们在意义上的关联,词法学的重要任务就是揭示出这种关联。所以,在词法研究中,不可以不关注词内部的形类构成,也不可以不关注词法规则所对应的语义内容。
汉语语法构词理论对于词与非词的划界问题作出了重要的贡献,陆志韦等(1957)所提出的“扩展法”至今仍是判断词的一条重要标准。但语法构词理论派的一些研究偏重于形式方面,重点在于描写词内成分的形类与整体词类的对应,如陆志韦等(1957)对汉语复合词的内部形类构成作了非常细致的分类说明(如“名+名→名,形+名→名,动+名→名,动+动→名”等),但却在很大程度上忽略了词法意义的探索。这种形式构成描写的弊端是名目繁多,缺乏概括力。而且,这种描写只流于表面形式的分类,对于真正具有一定系统性和周遍性的词法规则没有作出有效的梳理。
语义构词理论派的研究偏重于语义的描写,对于词内成分间的语义关系作出了较为深入的描写和概括,发现了一些有价值的事实。但由于完全抛弃了形类的概括,也造成了一些问题。语义的概括过于宽泛,限制太少,如果没有形类加以控制,就无法将可接受的词法构成与不可接受的词法构成区分开来,甚至导致对“词”的概念的取消[8]。
我们主张从形式和意义/功能两个方面对词法进行研究,词法的形式构成与语义构成都会具有一定的规则性,应该将这两方面的研究结合起来。
对于词法能不能成为语言学中一个独立的部门,在语言学界也存在着分歧。不论从形式入手,还是从语义入手,都有一部分学者主张将词法与句法归并。从形式入手的如Selkirk(1982),提出了“词句法”(word syn-tax)的主张,将X标杆理论运用到词的内部结构中,认为词法和句法遵循相似的原则。Baker(1985)提出的“镜像原则”(Mirror Principle)认为词法的衍生过程完全反映句法的衍生过程。汤廷池(1991)指出:“我们承认在汉语中词语结构与词汇部门的存在,但我们并不主张词汇部门的完全自律,而主张词语结构与其他句法表显层次(如深层结构、表层结构、逻辑形式)同受原则系统的支配。”从语义角度入手,在字本位理论框架下坚持语义构词理论的一些学者也不区分词法和句法,完全由语义来控制成分与成分之间的组配(徐通锵1997等)。当然,也有不少学者是将词法作为一个独立的部门来加以研究的(Wasow 1977,Anderson 1992等),虽然在研究时总会涉及与语言学其他部门(如语音、句法等)的关联。
我们不赞成将词法归并入句法。我们认为词法的生成性、规则适用的周遍性无法与句法相比,词法只具有较弱的周遍性和规则性,而句法的周遍性和规则性则很强;词法和句法在语义结构上也有差异,不是所有可以由句法表达的语义关系类型都可以用词法表达,因此,词法和句法也不能通过统一的语义原则来概括。词法应该作为一个独立的部门来加以研究。汉语的词法与句法虽然在结构原则上具有一定相通性,在所能表达的语义关系上也具有很大相似性,但是二者毕竟有别,在目前对于词法和句法的了解还不能说是很深入的情况下,将词法与句法区分开来有利于对语言现象的深入分析。因此,我们主张在汉语中区分词法和句法领域,将词法作为一个独立的模块来研究。
这里还要对可能引起人们疑惑的术语作一下说明。文献中有“词法”“形态学”“构词法”几个名词,它们之间是什么关系?
“词法”和“形态学”实际都对应于英文的morphology。Morphology一词源自希腊语,本义是“对于形式的研究”(study of forms)。Morphology这个词包含两个语素:一个是morph,义为“形式”;一个是ology,义为“关于……的科学”。它原本是一个生物学的术语,作为语言学术语最早出现于19世纪。
索绪尔指出语言符号具有任意性。如英语中dog指的是狗,而汉语中指称同样的东西用的语音形式则是[kou],音义之间的结合没有理据。如果语言中所有的词都如同英语中的dog或者汉语的“狗”,那么就没有词法可言了。词库中除了形式和意义之间的对应完全任意的单纯词之外,还有一些词汇项是“部分有理可据的”(partially motivated):词中包括可以独立出来的部分,而且这些部分是有规律地结合在一起的。如retry、friendly、高高兴兴,当我们知道re-、try、friend、ly、“高兴”这些组成成分的意思,并知道了加缀和重叠的词法规则之后,就知道整个词的意思了。构造一个新词,如果这个新词不是一个单纯词,有几种可能的方式:加词缀、复合、改变原词根的内部语音形式、重叠等。不同的语言有不同的词法模式,而且在一种语言中往往有多种词法模式,不过也往往有一种占主导地位的词法模式,比如,有的语言以加缀法为主,而有的语言以复合法为主。
很多学者指出汉语缺乏形态,但是这并不等于说汉语中词的构造没有规律,也就是说汉语仍是有词法可以研究的。因为作为语言学的一个分支,morphology指的是对词的形式的研究,具体来讲是对词的内部结构的研究,目的是了解一个语言中“可能的词”(possible word)的构造规则。从这个角度说,在汉语中用“词法”这一术语比用“形态学”更好一些。不过,在英语文献中有morphosyntax一词,用来指一些语法范畴或特性,对它们的定义形态学或句法标准都适用,因为屈折词法本身就是与句法相关的。比如,名词在“数”这一名目下的各种区别构成一个形态句法范畴,一方面,数的对立影响句法(如单数主语要求带单数动词);另一方面,数的对立要有形态上的定义(如复数加-s)。对于morphosyntax这个词的中文翻译一般是用“形态句法”,而不太好用“词法句法”来对译。
构词法(word formation)一般是指构成词的形态变化过程,包括派生(derivation)和屈折(inflection)两大类。但在文献中还有一种较狭窄的含义:word formation只指派生,而不包括屈折。虽然构词法有时和词法被看做是同义词,但仔细追究起来,词法涵盖的内容比构词法更多,因为词法不仅关心词的形成模式,还关注构造词语的基本单位、词法模式的能产性、词法模式的历时变化(历时词法学)等很多问题。
全书除绪论和结语部分之外,共包括六章。
第一章介绍词库和词法的不同特性及二者之间的联系。词库是一些意义具有不可预测性的单位的集合;而词法则是具有一定能产性和周遍性的生成词的规则。
第二章讨论汉语词法的基本单位及主要研究内容。我们认为语素是汉语词法操作的基本单位,因而在词法中占据重要地位。派生词法在汉语中不占强势地位,汉语词法应以复合法为主要研究内容。
第三章对汉语词法操作的基本单位——语素的分类进行了重新认识。重点论述了介于自由与黏着之间的半自由语素,并提出了汉语语素的三分格局:自由语素、半自由语素、黏着语素。半自由语素是历史发展的产物,由此我们讨论了汉语词法与句法的关系问题。
第四章讨论《词表》中反映出的一些能产性较高的词法模式。这些词法模式是生成词的重要途径。由词法模式构成的形式,有的可能进入了词库,有的可能未进入词库,但它们都是词。那些进入词库的成员一般是发生了意义的特异化或使用频率较高的。
第五章讨论汉语复合词的内部形类构成与语义构成。在《词表》的材料基础上,我们得出了以下概括:汉语名词性复合词的强势结构类型是名名复合,强势语义模式是“提示特征+事物类”;汉语动词性复合词的强势结构类型是动动复合,强势语义模式是“方式或途径+行为或结果”。
第六章讨论通过词汇化过程而正在形成的词(也包括一些具有一定词汇性质的固定语)的特点及形成机制与途径,并指出经常发生词汇化的结构形式有可能转化为词法模式。
本书的第一章和第二章是对一些理论问题的说明,并设定本书的研究角度和研究核心。第三章到第五章重点讨论《词表》所反映的词法问题(涉及汉语词法操作的基本单位的性质和分类,词法和句法的关系,词法模式,复合词的强势结构模式和强势语义模式等问题),同时也注意揭示词法与词库的联系。第六章研究的着眼点是词库,讨论了除根据词法模式生成之外词库成员的另外一个形成途径——词汇化,同时也讨论了词汇化与词法的联系。第三章到第五章的侧重点是共时方面,第六章的侧重点是历时方面。总之,全书围绕词法与词库的互动与关联,从共时和历时不同的侧面,以《词表》所反映的问题为线索,着重探讨汉语词法和词库中迄今为止尚未被认真关注或深入分析的一系列现象,并力图揭示其中蕴含的规律与原则。