4.4 上手实践_迁移学习导论-QQ阅读男生玄幻网

书名：迁移学习导论
作者名：王晋东陈益强
本章字数：1748字
更新时间：2021-06-09 16:28:22

4.4　上手实践

本章对迁移学习的方法进行了总体介绍。在本节中，我们将编写代码，建立迁移学习的基线模型，并简要介绍本书使用的数据集，为后续章节的上手实践部分打下基础。

本书所有的代码实例均使用Python作为主要编程语言。Python作为人工智能和机器学习时代最流行的编程语言之一，在传统机器学习和深度学习方面均有着广泛的应用。许多常用的数据科学框架，例如Numpy、Pandas、scikit-learn、Scipy等均使用Python作为主要编程接口；一些深度学习的主流框架，例如PyTorch、TensorFlow、MXNet等也为Python提供了丰富的支持。在余下的内容中，我们假定读者具有基本的编码能力与Python知识。

4.4.1　数据准备

如同近十年来计算机视觉领域的基准测试数据集是ImageNet一样，迁移学习领域的算法开发和测试，也对应了一些主流的基准测试数据集。迁移学习的主流基准测试数据集包括：

• 物体识别数据集。如Office-31、Office-Home等。

• 手写体识别数据集。如MNIST、USPS、SVHN等。

• 文本情感分类数据集。如Amazon Review Dataset、20Newsgroup、Reuters-21578等。

• 图像分类数据集。如ImageNet、VisDA等。

• 人脸识别数据集。如CMU-PIE等。

• 行为识别数据集。如DSADS、Opportunity等。

本书并不打算详细介绍这些主流数据集。事实上，在任何一个特定的应用领域，只要问题设定符合迁移学习的要求，均可以构建出适合当前情景的数据集。例如，在NLP任务中，跨语言（Cross-lingual）的任务天然就是一个迁移学习任务。这个网页[1]上展示了众多迁移学习的公开数据集信息。本书的附录中也介绍了这些常用数据集的基本信息。

为确保书中上手实践部分的一致性，本书统一采用Office-31对象识别数据集作为所有上手实践部分的测试数据集。对于其他数据集，读者可十分方便地遵循特定的预处理过程对数据集进行替换。此外，由于我们的重点是研究通用算法而非在特定的应用领域进行调优，因此，数据集仅为测试算法性能使用。在实际应用中，需要结合应用背景进行细致的调优，使算法达到最优的表现。

Office-31 [Saenko et al.，2010]是视觉迁移学习的主流基准数据集，包含Amazon（在线电商图片）、Webcam（网络摄像头拍摄的低解析度图片）、DSLR（单反相机拍摄的高解析度图片）3个对象领域，共有4110张图片，31个类别标签。由于这三个对象领域的数据均服从不同的数据分布，因此，从中随机选取2个不同的领域作为源领域和目标领域，我们可以构造3 × 2=6个跨领域视觉对象识别的任务：A→D，A→W，···，W→A。这三个领域的数据样本如图4.3所示。从图中可以清晰地看出，不同领域中的数据即使属于同一类别，也服从不同的数据分布（即光照、角度、背景等的不同）。

图4.3　 Office-31数据集样本示意

Office-31数据集的原始数据为图片格式，此格式可以直接被用于深度学习方法的输入，因此无须额外提取特征。然而，对于传统方法而言，其通常需要输入提取的特征进行后续处理。因此，我们对Office-31数据提取其DeCAF特征（即用AlexNet [Krizhevsky et al.，2012]网络提取的特征）作为传统方法的输入数据。读者不需要关心DeCAF特征的计算方式，只需了解在传统方法中，并不直接采用原始的图片数据，而是将图片的DeCAF特征作为输入数据。

为同时测试传统方法与深度方法，读者需要在以下链接下载数据集：

• 原始图片数据：请见链接4-2。

• DeCAF特征数据：请见链接4-3。

下载完成后，解压并整理到相应的文件夹中。图4.4展示了Office-31数据集的原始数据集情况，每一个领域对应于31个文件夹，每个文件夹对应于相应类别的图片数据。