2.4 数据集和基准

就像其他机器学习方法一样,神经网络的成功也依赖于丰富的训练数据。许多研究人员认为,与20年前相比,深度学习的成功很大程度上可以归功于如今拥有的大量数据。确实,随着我们进入大数据时代,越来越多的数据被我们周围的各种传感器收集。得益于此,过去多年间,有许多数据集和基准被创建出来,以促进各种神经网络的开发和评估。利用这些数据集和基准测试,研究人员可以方便地开发和测试新算法。本节介绍一些流行的数据集和基准测试。

作为神经网络最流行的应用之一,图像分类在过去的十年中受到越来越多的关注。因此,许多图像数据集被创建出来,修改后的美国国家标准技术研究院数据库(MNIST)数据集是最早用于基准分类器的数据集之一[52]。它由6万张训练图片和1万张测试图片组成。每张图片都是一个28×28像素的手写数字灰度图片,范围从0到9。图2.23显示了来自MNIST数据集的一些图片样本。

图2.23 MNIST数据集示意图。数据集中的每张图片包含28×28像素。这些图片都是从0到9的手写灰度数字。来源:摘自文献[52]

接下来是由Krizhevsky和Hinton[53]收集的CIFAR-10和CIFAR-100数据集。CIFAR-10包含60000张图片。在这些图片中,可以将50000张图片用作训练集,而将另外10000张图片用作测试集。所有图片都是32×32像素的彩色图片,分为10类,例如飞机、青蛙、卡车等。CIFAR-100数据集与CIFAR-10数据集相似,只是分为100类。这100个类别可以进一步分为20个较粗的超级类别。

ImageNet是一个基于WordNet层次结构来组织的数据集。“同义词”或“同义词集”是WordNet中的一个概念,可以用几个词来描述。ImageNet大规模视觉识别挑战赛(ILSVRC)是一项年度挑战,吸引了全世界许多研究人员的关注[54]。ILSVRC中有不同的任务。有一项任务是图像分类,其中算法生成给定图像中存在的对象类别的列表。另一项任务是对象检测,其中算法不仅生成对象类列表,还试图得出定位对象位置的边界框。每年,世界各地的研究人员都使用他们精心调整的模型参加ImageNet竞赛。

除了图像数据集外,还有一些流行的音频和文本数据集。德州仪器/麻省理工学院(TIMIT)是一个美国英语使用者的语音集。其中包含630个具有不同方言的男女演讲者。20 Newsgroups数据集收集了大约20000个新闻组文档,这些文档被分成20个不同的新闻组。每个新闻组的文档数量大约相等。其他基于文本的数据集包括从Yelp评论、业务和用户数据中收集得到的Yelp数据集[55],包含Wikipedia文章中的1亿令牌的WikiText[56]等。有关各种数据集的更多信息,感兴趣的读者可以参考一个网页,该网页总结了许多不同的开放数据集[57]

除了丰富的大型数据集外,还存在各种基准测试强化学习算法的任务。例如,图2.24[58]说明了ADP文献中使用的三种流行基准。车杆平衡任务[11,32-34,58]是一项控制任务,旨在平衡车上的杆。目标是保持杆直立,同时不要将推车移出一定范围。换句话说,需要调节极点和垂直方向θ的角度以及推车与原点x之间的距离。

图2.24 三种流行基准任务的配置。在所有这些任务中,目标是通过施加某些控制信号在预定范围内调节系统状态。经IEEE许可转载

在光束平衡问题[58-60]中,控制器试图通过安装在光束中心的电机对光束施加扭矩来平衡长光束。另外,在光束上还有一个球使这个任务复杂化。球可以根据光束与水平方向之间的角度沿光束滚动。该基准任务的目的是在将球的位移保持在一定范围内的同时,保持光束尽可能水平。

三连杆倒立摆平衡问题[27,32,33]是一个更为复杂的控制问题,如图2.24c所示。它类似于车杆平衡问题。然而,三连杆倒立摆平衡问题不仅需要平衡一根杆,还需要平衡可以相互相对旋转的三个连接杆。因此,需要调节四个状态变量,θ1~θ3以及x。除了这三个常见的基准,其他流行的基准是钟摆摆动任务[33,61],车杆摆动任务[61-62]和体操机器人摆动任务[63]

除了上述经典的控制基准,还可以使用许多更复杂的基准任务,例如Swimmer和Hopper[64]。随着越来越多的计算资源可用来解决复杂的强化学习问题,这些基准变得越来越受欢迎。