1.2.2 无监督学习

无监督学习不需要标记的数据,而是通过发现数据中的隐藏结构和模式来学习。无监督学习的目的通常是将数据聚类成不同的组,并发现数据中的隐藏结构。与监督学习中给定的数据不同,如图1.7所示,无监督学习中的数据没有给定任何标签。

无监督学习根据解决问题的不同,大致可以分为聚类问题、降维问题和关联分析这3种类型。

图1.7 无监督学习(右)和监督学习(左)的对比

(1)聚类问题:如图1.8所示,将数据集中的样本按照相似度分成不同的簇,近似样本会被划分为同一个簇。

图1.8 无监督学习中的聚类问题

(2)降维问题:使数据集在尽可能保存有用结构和信息的同时对数据进行压缩,减少数据的维度。

(3)关联分析:通过数据集中经常同时出现的样本集合以及关联规则,发现样本之间的联系和关系。

无监督学习的发展主要分为两个阶段:第一个阶段是统计分析阶段;第二个阶段是深度学习阶段。

20世纪60年代至20世纪80年代,主要以聚类和降维为主要研究方向,如K-means聚类和主成分分析(PCA)等算法。

1.K-Means

K-Means的核心目标是将数据集中的对象分组成具有相似特征的K个类,并给出每个样本数据对应的中心点。K-Means算法将数据集中的数据分为若干个类别,每个类别中的数据具有相似的特征。算法步骤可以分为以下6步。

(1)数据预处理。对数据集进行标准化和异常点过滤。

(2)随机选取K个中心,记为,…,

(3)定义损失函数:

(4)对于每一个样本xi,将其分配到距离最近的中心:

(5)对于每一个类中心k,重新计算该类的中心:

(6)令t=0,1,2,…为迭代步骤,重复(4)、(5)步过程直到J收敛。

K-Means算法最核心的部分就是先固定中心点,调整每个样本所属的类别来减少J;再固定每个样本的类别,调整中心点继续减小J。两个过程交替循环,J单调递减直到最小值时,中心点和样本划分的类别同时收敛。

21世纪初至今,随着深度学习的兴起,无监督学习得到了广泛应用和发展,如基于自编码器(AutoEncoder)的方法、变分自编码器、生成式对抗网络(Generative Adversarial Network, GAN)等算法,这些算法在图像、语音、自然语言处理等领域取得了重大突破。

2.自编码器

自编码器是一种无监督学习的神经网络模型。它的基本思想是将输入数据压缩到一个低维的编码空间中,然后再将编码解压缩回原始数据空间中。如图1.9所示,自编码器主要由编码器和解码器两部分组成,其中编码器将输入数据映射到编码空间中,解码器则将编码空间中的数据映射回原始数据空间中。

图1.9 自编码器结构

具体来说,自编码器的训练过程可以分为两个阶段。

(1)编码阶段:将输入数据输入编码器中,通过编码器将数据压缩到一个低维的编码空间中,并得到编码后的特征向量。

(2)解码阶段:将编码器输出的特征向量输入解码器中,通过解码器将特征向量解码为原始数据,并计算解码后的数据与原始数据之间的误差。自编码器的目标就是最小化这个误差,同时使编码器和解码器的参数得到优化,以便更好地重构原始数据。

自编码器的应用非常广泛,例如可以用于图像压缩、降噪和图像生成等任务。此外,自编码器还可以用于特征学习,即将输入数据映射到一个更有意义、更易于处理的特征空间中,以便后续的分类和聚类等任务。

3.生成式对抗网络

GAN是一种无监督学习中的生成模型。它的基本思想是通过两个神经网络模型的对抗来生成新的数据集,其中一个模型是生成模型(Generative Model),它从潜在空间中随机生成样本;另一个模型则是判别模型(Discriminative Model),它负责区分生成模型生成的样本和真实样本。

GAN的训练过程如图1.10所示,可以分为两个阶段。

(1)生成阶段:生成模型从潜在空间中随机生成样本,并将其传递给判别模型进行判别。生成模型的目标就是生成尽可能接近真实样本的样本,以此来欺骗判别模型。

(2)判别阶段:判别模型接收来自生成模型和真实样本的样本,并对其进行标记。判别模型的目标是尽可能准确地区分来自生成模型和真实样本的样本。

图1.10 生成式对抗网络的训练

GAN的训练过程是一个零和博弈,即生成模型和判别模型的优化目标相互矛盾。通过不断地迭代训练,GAN可以逐渐学习到真实数据的分布,并生成尽可能真实的样本。GAN在图像生成、语音生成、自然语言处理等领域中取得了重大突破,并成为了无监督学习的重要研究方向之一。