2.2.3 无监督学习

顾名思义,无监督学习是需要最少监督的学习类型。因为我们感兴趣的大多数自然信号都具有某些内置结构,所以学习的目标通常是在数据中找到其基础结构,这通常以降维的形式出现。图2.10在概念上说明了这个思路。在这个示例中,即使输入数据跨越二维空间,数据的固有结构还是一维超平面。尺寸的减小通常是由于来自不同尺寸的信息相互关联或相互依赖,降维处理在许多现实应用中非常有用。无监督学习的目标是通过遍历许多样本数据来找到这样的内置结构。

使用神经网络进行无监督学习的最著名例子之一是自组织映射(SOM)或Kohonen映射,用Teuvo Kohonen[17-18]的名字来命名。SOM将高维原始输入数据量化并投影到低维(通常是二维)空间中。SOM能够在进行降维的同时保留数据的拓扑结构,这种属性使SOM适合于可视化高维数据[18]以及执行数据聚类[19]

无监督学习在神经网络中的另一新兴应用是进行监督学习的预训练,例如受限玻尔兹曼机(RBM)[20-22]和自编码器[23-26]。自编码器的示例如图2.11所示。输入数据作为xi进入神经网络,从输出层中读取输出xo,在输入层和输出层之间有一个隐藏层。在自编码器中,损失函数通常被定义为重构误差,如下所示:

图2.10 无监督学习中降维的说明。即使原始数据是二维的,也可以通过一维超平面对其进行近似

图2.11 典型的自编码器的配置。自编码器将输入信息编码为隐藏层激活,然后再解码信息。自编码器的目的是使重构误差最小。通过最小化误差,自编码器可以找到一种可替代的且通常更有效的方式来表示输入数据

从概念上讲,训练自动编码器可以看作是输入信号作为监督信号的监督学习问题。在自动编码器中,隐藏层神经元的数量通常少于输入/输出层中神经元的数量。因此,神经网络迫使用更紧凑的数据表示来实现低重构误差。这种无监督学习方法是帮助实现深度学习的最早技术之一。