第三节 自然语言处理:用自然语言与计算机进行通信

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,主要研究的是,实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

自然语言处理是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域,其处理与人机交互的领域有关,在自然语言处理中面临很多挑战。

1.什么是自然语言处理

自然语言处理(Natural Language Processing, NLP),就是用计算机来处理、理解和运用人类语言,比如:中文、英文等,是人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。

自然语言是人类区别于其他动物的根本标志,没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有计算机具备了处理自然语言的能力,机器才算实现了真正的智能。

从研究内容来看,自然语言处理包括:语法分析、语义分析、篇章理解等;从应用角度来看,自然语言处理有着广泛的应用前景。尤其是在信息时代,自然语言处理的应用更是包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤等,涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

值得一提的是,自然语言处理的兴起与机器翻译等具体任务有着密切联系。所谓机器翻译就是,用计算机自动地将一种自然语言翻译成另外一种自然语言,例如,自动将英文“I like Beijing Tiananmen Square”翻译为“我爱北京天安门”。人工进行翻译需要训练有素的双语专家,翻译工作非常耗时耗力;翻译专业领域文献时,甚至还需要了解该领域的基本知识。

世界上的语言共有数千种,仅联合国的工作语言就有六种。通过机器翻译准确地进行语言间的翻译,能够大大提高人类沟通和了解的效率。

2.自然语言的出现与发展

自然语言处理兴起于美国。第二次世界大战后,20世纪50年代,电子计算机还处于襁褓之中,就已经出现了利用计算机处理人类语言的想法。为了窥探苏联科技的最新发展,美国希望能够利用计算机将大量俄语材料自动翻译成英语,研究者从破译军事密码中得到启示,认为不同的语言只不过是对“同一语义”的不同编码,想当然地认为可以采用译码技术像破译密码一样“破译”语言。

1954年1月7日,美国乔治敦大学和IBM公司合作实验,成功地将60多句俄语自动翻译成英语。虽然当时的机器翻译系统非常简单,仅包括6个语法规则和250个词,但随着媒体的广泛报道,也变成了一种巨大进步,美国政府备受鼓舞,加大了对自然语言处理研究的投资。实验完成者也自信地撰文称,在3~5年内就能完全解决从一种语言到另一种语言的自动翻译问题,只要制定各种翻译规则,就能完美地实现语言间的自动翻译。

可是现实是,理解人类语言远比破译密码要复杂得多,研究进展非常缓慢。1966年的一份研究报告总结发现,经过10多年的研究,结果还没有达到预期,支持资金急剧下降,使自然语言处理的研究陷入长达20年的低潮。

20世纪80年代,随着电子计算机的计算能力的飞速提高和制造成本的大幅下降,研究者又开始重新关注自然语言处理领域。研究者认为,简单的语言规则堆砌无法实现对人类语言的真正理解,只有通过对大量文本数据的自动学习和统计,才能更好地解决自然语言处理问题,比如:语言的自动翻译。

3.自然语言的发展趋势

目前,人们主要通过两种思路来进行自然语言处理:一种是基于规则的理性主义,一种是基于统计的经验主义。

理性主义方法认为,人类语言主要由语言规则进行产生和描述,只要能用适当的形式将人类语言规则表示出来,就能理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。

经验主义方法则认为,从语言数据中获取语言统计知识,有效建立语言的统计模型,只要有足够多的用于统计的语言数据,就能理解人类语言。

可是,面对现实世界充满模糊与不确定性,这两种方法都有着无法解决的问题。例如,人类语言虽然有一定的规则,但在真实使用中,伴随大量的噪声和不规范性。理性主义方法的一大弱点是,只要与规则稍有偏离,便无法处理;经验主义方法,既不能无限地获取语言数据进行统计学习,也不能完美地理解人类语言。

20世纪80年代以来,基于语言规则的理性主义方法不断受到质疑,大规模语言数据处理成为目前和未来一段时期内自然语言处理的主要研究目标。统计学习方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

21世纪,我们已经进入了以互联网为主要标志的海量信息时代,这些海量信息大部分以自然语言表示。一方面,海量信息为计算机学习人类语言提供了更多的“素材”;另一方面,海量信息为自然语言处理提供了更加宽广的应用舞台。

例如,作为自然语言处理的重要应用,搜索引擎逐渐成为人们获取信息的重要工具,涌现出以百度、谷歌等为代表的搜索引擎巨头;机器翻译从实验室走入寻常百姓家,谷歌、百度等公司都提供了基于海量网络数据的机器翻译和辅助翻译工具;基于自然语言处理的中文,成为计算机用户的必备工具;带有语音识别的计算机和手机正大行其道,可以协助用户更有效地工作学习。

随着互联网的普及和海量信息的涌现,自然语言处理正在人们的日常生活中扮演着越来越重要的角色。可是,如何有效利用海量信息成为制约信息技术发展的一个全局性瓶颈问题,自然语言处理也就成了信息科学技术中长期发展的一个新的战略制高点。

同时,单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识,只有同时发挥基于规则的理性主义方法和基于统计的经验主义方法的各自优势,互相补充,才能更好、更快地处理自然语言。

自然语言处理的发展历程并不是一帆风顺的,有过低谷,也有高潮,现在我们正面临着新的挑战和机遇。例如,网络搜索引擎还停留在关键词匹配,缺乏深层次的自然语言处理和理解;语音识别、文字识别、问答系统、机器翻译等也只能达到基本水平。