未来十年,谁拥有芯片,谁就将制胜于更长远的未来

任何智能发展都离不开硬件基础。除了现在人们熟知的CPU(中央处理器)、GPU(图形处理器)、FPGA(现场可编程门阵列)、专用加速器等智能计算的硬件基础外,一些硬件架构技术也在不断加速发展。例如英特尔公司最近推出的Loihi神经拟态芯片(Neuromorphic Research Test Chip),就是模仿人脑神经元的构造、连接方式和工作方式设计实现的。神经拟态计算从人脑的信息处理机制中获得灵感,来构建人工智能系统。Loihi是目前最先进的神经拟态计算处理器,它采用英特尔领先的14纳米工艺制成,集成度高,在60平方毫米的芯片上有13万个神经元和1.3亿个神经突触(见图1-5)。它能达到什么效果呢?Loihi支持多种脉冲神经网络架构,可以在很低的功耗下工作(这一点和人脑非常相似)。最重要的是,它具有可编程学习能力,能够在线自主训练,并且支持多种学习算法,包括监督学习、非监督学习、增强学习等。Loihi的能效比通用处理器高1000倍。目前,一块小芯片能使13万个神经元互相连接。英特尔公司在2019年7月宣布,包含64块Loihi研究芯片、代号为“Pohoiki Beach”的800万神经元神经拟态系统已经可以供广大研究人员使用。

图1-5 Loihi芯片和64芯片神经拟态系统

那么未来十年,智能计算会发展到什么程度呢?我大胆地预测一下。假设未来芯片的晶体管密度按照摩尔定律的速度发展——10纳米、7纳米、5纳米,十年之内一定会超越5纳米,那么晶体管密度至少会提高8倍。然后,我们还可以用3D芯片制造技术,在一颗芯片内封装多层内核。假设十年后,通过3D芯片技术可以让计算密度再提高64倍,我们便可以像Pohoiki Beach一样设计多芯片互联的系统;假设十年后,我们可以互联1000块芯片,那么这样的系统尺寸会做到多大呢?可能比我们现在用的桌面型打印机还要小。这样的系统可以容纳670亿个神经元,已经很接近人脑的神经元量级了!

当我们展望下一个十年或者更长远的未来时,随着人工智能应用变得愈加广泛和深入,仅靠一种架构的AI芯片是不能解决各种问题的。同时,随着创新速度越来越快,设备种类越来越多,其要求的迭代速度也越来越快,我们不会再有一个独立的平台(例如20世纪90年代到2000年的PC,2005年到现在的手机)。传统的异构计算已经不能满足日益发展的人工智能计算需求,我们正在迈入超异构计算时代。

异构计算在20世纪80年代就已出现,它是指在完成一个任务时,采用一种以上的硬件架构设计,把它们组合在一起。组合方式主要包括:一体化SoC(系统级芯片),它的专用性最强、能耗最低,性能也很好,能效比非常高,但只有应用范围很广时,投入产出比才会更高;分体式板卡,它的优势在于灵活,可以在需要的时候随意组合,但板与板之间连接的功耗、带宽速度都要大打折扣。

超异构将提供更多的灵活性和更快的技术应用周期,推动计算创新发展。它包含三大要素:多架构、多功能芯片,多节点和先进封装技术,统一的异构计算软件。在多架构、多功能芯片方面,有标量、矢量、矩阵、空间等多种计算架构。例如,CPU是标量架构,GPU是矢量架构,深度神经网络的专用加速芯片是矩阵架构,FPGA是空间架构。在多节点和先进封装技术方面,传统的封装就是把芯片平铺在一起,这种方式存在一些缺点:一是增加了面积,二是芯片之间的连通带宽还需要加速。2.5D和3D封装的出现解决了这些问题,不只是把计算芯片和内存连接起来,还能把计算芯片互相连接,并像高楼一样分成几层堆起来,这就是先进封装技术。同一个异构系统中需要使用多种架构的芯片来完成计算任务,而对于开发者来说,掌握多种架构的软件优化技巧比较困难。统一的异构计算应用程序接口(API)可以解决这个问题,它利用预先研发的软件库来封装不同种类的硬件架构,从而为软件开发者提供统一的编程接口,降低开发难度并提高效率。未来的人工智能芯片会将这些技术综合使用,获得性价比、能耗比最优的智能计算方案。