序二

朱晨光博士现在(美国)微软公司担任高级研究员,主要从事自然语言处理方面的研究,包括机器阅读理解、任务驱动对话和文本摘要等。他在CCCF(《中国计算机学会通讯》)上写的一篇特约专稿《机器阅读理解:如何让计算机读懂文章》很受欢迎。机械工业出版社的编辑看到后,特邀他写书。近期,他完成了专著《机器阅读理解:算法与实践》,让我写一段序言。

自然语言处理旨在解决对自然语言的理解和生成问题。自然语言问题是人工智能皇冠上的明珠,是计算机重要的能力之一,也是研究难度很大的一个领域。人类常用的每一种自然语言都有其语法,但由于使用语言的人的风格不同,加上地方话和习惯用语等因素,所产生的语言千变万化。人和人之间的交流和理解一般是没有障碍的,但让计算机理解就非常困难。这是因为,目前的冯·诺依曼计算机体系结构处理有明确规则的事务比较容易,但处理规则多变的事务就显得有些力不从心。

多少年来,研究者提出和发展了很多方法,有基于语言学规则的技术,也有基于统计机器学习的模型。最近一段时间以来,研究者发展了端到端训练的深度学习自然语言处理体系,包括词嵌入、句子嵌入、注意力机制、编码/解码方法以及最近的预训练模型等,大幅提升了模型处理各项任务的能力,给自然语言理解带来了新的、有趣的思路。

机器(就是计算机)阅读理解是自然语言处理中最热门、最前沿的研究课题之一。阅读是人们获得信息的基本手段,没有阅读就没有理解,没有理解就无法交流。市面上已有很多聊天机器人产品,但人们发现这些机器人往往答非所问。究其原因,就是目前采用的技术是“文本比对”的黑盒方式,而实际上机器人并不理解人类在和它说什么。大家知道,人们在交流时是有语境(即上下文)的,通过联想,人们可以方便地理解对方在说什么,但是让机器了解语境确实是一件非常困难的事。为了解决这些问题,研究者提出了许多改进方法,不断提高模型理解对话与文章的能力。而且,一大批阅读理解数据集的发布强有力地推动了技术的发展。

机器阅读除了研究价值以外,还有许多很有意义的应用,比如文本摘要可以省去人们阅读全文的时间,问答系统可以从海量文档中精确地找到用户问题的答案。机器阅读也是翻译和对话的基础,这对计算机辅助人工服务有重大价值。

晨光的这本书系统地介绍了这个领域的关键技术、取得的进展,以及存在的问题。相信读者读完本书后,会对这一领域的研究及应用有一个比较清晰的认识。

晨光在上中学时参加了CCF主办的信息学奥林匹克竞赛,曾获得全国竞赛的金牌,也是国际赛IOI中国队的候选队员。因我是主席,那时就认识他了。他后来被保送到清华大学计算机系读书,毕业后又去斯坦福大学攻读博士学位,然后在微软从事自然语言处理方面的研究,造诣很高。我们很少见面,但一直保持联系。我认为他是一个天资聪颖、学风严谨而又非常通达事理的青年学者,因此非常乐意和他讨论问题。他提出让我写篇序,看到他的新的研究进展,我深感高兴,于是欣然提笔,也借此向他表示祝贺。

杜子德原中科院计算所研究员,现任中国计算机学会秘书长