4 n+n隐喻的句法约束及识别策略

名词隐喻的识别任务就是要从大规模文本中把名词短语隐喻识别出来。规则形式化是隐喻识别的一个必要手段,无非是要在“n+n”结构中找到形成隐喻的判定条件,即找到一个或多个限定条件,可以把隐喻和非隐喻区分开。

人们对某一种语言现象进行描写时,往往首先关注的是该种结构的各种句法功能约束,然后再考察它在语义方面的诸多特点。本文的描写也沿着这样一条思路展开,试图从各个侧面的描写中发现有利于计算机形式化的思路。

4.1 句法位置分布

“n+n”短语从语法功能上是名词性短语,分布在句子中的宾语、介词宾语和主语位置上。例如:

1)每/r 一个/m 病人/n 心里/s 都/d 扬/Vg 起/v 了/u 生命/n 的/u 风帆/n。/w

2)天性/n 纯真/a 的/u 女子/n 没有/v 世俗/n 功名/n 之/u 心/n , /w只/d 知/v 沉浸/v 在/p 感情/n 的/u 潮水/n 中/f, /w

3)电视/n 小品/n 的/u 土壤/n 是/v 肥沃/a 的/u。/w

4)在/p 国际/n 金融/n 危机/n 的/u 风浪/n 波及/v 许多/m 国家/n 的/u 情况/n 下/f, /w

从分布数量来看,“n+n”短语隐喻作宾语的情况较多,作主语的情况较少。个别情况下也有源域并列的情况,例如:

5)少年儿童/n 在/p 党/n 的/u 阳光/n 雨露/n 哺育/v 下/f 茁壮/成长/v! /w

例5)中“阳光雨露”并列出现,共同作为源域。

句法位置约束是个限定相对宽泛的规则,“n+n”短语隐喻可以作宾语、介词宾语和主语的句法功能与“n+n”字面表达的分布基本一致,例如:


A B

扬起生命的风帆 撑起轮船的风帆

在金融的风浪中 在大海的风浪中


A式是隐喻表达,B式是字面表达。两者在结构上完全相同,出现的句法位置也可以完全一样,计算机无法从句法位置的角度把隐喻与字面表达区分开。这样做的第一个目的就是在定位句法位置的基础上再进一步考虑其他的限定。

4.2 标志词约束

标志词是形成隐喻表达的重要线索。在所考察的语料中,明喻和隐喻往往同时存在一个句子中,明喻标志词的出现,为隐喻的识别提供了依据。常见的标志词有“如同、仿佛、犹如、宛若、简直如、早已如、般的”,等等。隐喻表达一般出现在标志词之后或中间。例如:

6)走/v 进/v 占/v 地/n 1.1万/m 平方米/q 的/u 展览/vn 大厅/n, /w 犹如/v 进入/v 书籍/n 的/u 海洋/n, /w

7)整个/b 神州/n 大地/n 宛若/v 灯/n 的/u 世界/n, /w 灯/n 的/u 海洋/n。/w

有时n+n短语隐喻可以转换成多种明喻表达形式。例如“蛇蝎心肠、菩萨心肠、老鼠胆子”这样的短语隐喻可以进行如下转换:

蛇蝎心肠 →心肠如同蛇蝎一样

心肠犹如蛇蝎一样

心肠简直如蛇蝎一样

心肠早已如蛇蝎一样

蛇蝎一样的心肠

蛇蝎般的心肠

心肠像蛇蝎一样


虽然这些表达在语序上不完全相同,但是【源域:蛇蝎】和【目标域:心肠】组成的隐喻关系并不因为句法位置的不同而发生改变,这给我们一个重要的提示,即可以利用明喻表达来识别n+n短语隐喻。如果【n+n】短语有其他明喻表达,据此可以判断其为隐喻。

“是”字句标记。n+n隐喻也可以出现在“是”字句中。例如:

8)创新/v , /w是/v艺术/n的/u生命/n。/w

介词结构标记。隐喻表达常常置于介词短语中间,此类介词短语分别是“在……里、从……里、在……中、在……之中、到……中、在……上、……里”等。例如:

9)在/p 市场经济/n 的/u 海洋/n 里/f 学会/v 游泳/v , /w

10)在/p 灵魂/n 的/u 海洋/n 中/f 航行/v, /w

11)你/r 若/c 想/v 在/p 文学/n 的/u 海洋/n 上/f 做/v 弄潮儿/n , /w

从1998年上半年《人民日报》标注语料“海洋”的隐喻句中,介词结构占有较高比例。统计如表2所示:

表2 介词结构在隐喻个例中的比例

4.3 领域信息

从抽取的语料来看,隐喻表达和字面表达通常来自不同的概念域。不过领域信息的约束一般要针对不同的词语来进行。以“杠杆”为例。“杠杆”一词在形成隐喻表达时表现特有的分布。它的目标域一般都是金融领域的词语。例如:

<财政/n杠杆/n> <财务/n杠杆/n>

<经济/n杠杆/n> <利率/n杠杆/n>

<税收/n杠杆/n> <价格/n杠杆/n>

这样就可以针对【源域:杠杆】制定规则,如果满足n【+金融】+杠杆,则“n+杠杆”为隐喻表达。

再比如“海洋”一词的字面表达和隐喻表达则表现不同的领域,而且在某种程度上,隐喻表达所表现的领域信息没有字面表达明显。表示隐喻表达的“海洋”通常是描写一个场面,领域信息不明显。但是“海洋”的字面表达则大部分表现环境治理方面的主题,例如:

12)中国/ns 海洋/n 环境/n 质量/n 公报/n , /w

13)局部/n 海域/n 海洋/n 沉积物/n 受到/v 较大/a 程度/n 污染/vn。/w

领域信息通过“环境、沉积物、污染、质量”等典型的领域词汇体现。除此之外,一般常说的“政治的漩涡、改革的潮水、人生的港湾”这些词语的字面表达通常和抗洪、环境保护相关。

应该看到,无论是句法位置、标志词还是领域信息只能解决部分问题,对解决隐喻的识别只是起到一定的辅助作用,而且效率不高。

n+n短语隐喻的自动识别和n+n短语的字面表达紧密联系在一起。在考察的所有例句中,隐喻和非隐喻在句法中有不同的分布环境,以“港湾”为例,其隐喻表达的用例:

14)而/c 绢子/nr 本人/r 由于/p 与/p 夫君/n 的/u 恩爱/a , /w 也/d 在/p 中国/ns 找到/v 了/u 心灵/n 的/u 港湾/n。/w

15)因此/c , /w 家庭/n 是/v 生命/n 的/u 摇篮/n , /w 是/v 情感/n 的/u 港湾/n , /w 是/v 文明/n 的/u 载体/n。/w

“港湾”的字面表达的用例如下:

16)由于/p 上游/f 水源/n 枯竭/v , /w 湿地/n 和/c 河口/n 港湾/n 也/d 随之/d 丧失/v。/w

17)在/p 平潭县/ns 塘屿岛/ns 北侧/f , /w 有/v 一/m 处/q 蓝色/n 的/u 港湾/n , /w

上下文特征是非常有用的信息,基于这样的信息,可以通过机器学习方法来建立识别模型。机器学习方法完全可以不用考虑约束的细节,只要设定一定的上下文窗口,上下文窗口范围的所有内容(包括词语、词性、标点)都可以以特征的形式加入模型为限定条件。因此本文后面的研究转向了运用统计模型来解决汉语名词隐喻的识别问题。