序一

智能可以分为两个层次。一是感知智能,即让计算机可以看见、听见和触摸。在这些领域,人工智能取得了许多突破,包括语音识别、语音合成、计算机视觉等。而更高的层次是认知智能,它需要计算机能够真正理解和分析各种概念、关系、逻辑等。在这个层次,人工智能的进展还处于起步阶段。

语言作为人类进行交流和传播思想的重要媒介,集中承载了最高层级的智能水平。从20世纪50年代提出的图灵测试开始,到深度学习方兴未艾的今天,理解和应用自然语言一直是全世界人工智能研发同行们梦寐以求想解决的共同课题。语音和语言技术是镶在AI皇冠上的明珠。如果计算机在未来的某一天可以完全理解人类的语言,我们就实现了强人工智能。

近年来,机器阅读理解成为语言处理研究中最热门、最前沿的方向之一。利用计算机建立模型,使计算机能像人类一样阅读文章、分析语义和回答问题,有着重要的科研价值和实用价值。从智能客服到搜索引擎,从作文自动评分到智能金融,机器阅读理解技术可以将大量耗时费力的人工分析自动化,极大地提高了社会的生产力。

随着深度学习技术的不断发展,机器阅读理解研究有了长足的进步。在一些特定的任务中,计算机模型的回答已经可以媲美人类的水平,一些媒体也对这些成果冠以“计算机的阅读理解能力已超人类”的标题。但是,现有的模型能力离真正智能的阅读还有很大距离。大多数情况下,模型仍然简单依赖于局部词句的匹配,而并非基于对篇章结构和语义的理解。

一般来说,人工智能如果要在某个领域获得成功,3个因素缺一不可:平台、数据和算法。而随着硬件算力的不断提升和大数据的爆炸式增长,对算法的探索与改进就成为人工智能研究的必争之地。

现在市面上完整介绍机器阅读理解算法研究与应用现状的书籍非常少见,相关的中文资料更是少之又少。我们团队的朱晨光博士在机器阅读理解领域深耕多年,并曾在多项国际竞赛中带领团队夺得冠军。他写这本书的目的就是将机器阅读理解的真实面貌展现给读者。书中既有对最新研究成果的详细介绍,也有他对机器阅读理解未来发展方向的思考。希望本书能够启发各位读者为实现人类水平的机器阅读理解共同努力。

黄学东博士微软公司人工智能首席技术官