3.1 何处迁移
何处迁移是迁移学习的基本问题之一。它给我们寻找迁移学习中的迁移对象进行了根本性的指导。何处迁移所研究的问题可以分为两个层次:
1. 数据集、数据领域层。所对应的问题是,给定若干可供选择的源域数据,如何能从若干数据中找到最适合迁移学习的数据集和领域。
2. 样本层。所对应的问题是,给定一个或多个可供选择的迁移样本,如何能从这些数据中选择出若干数据,使其最适合于迁移学习。
我们用“最适合”迁移学习的字眼来表达其效果,是因为很多时候,迁移学习最终的精度也许只是衡量何处迁移的一个指标。受限于具体的环境、算法、和设备,评估指标也有所不同。因此不能简单地只看最终的学习精度。
事实上,何处迁移所研究的两大类问题在本质上是等价的:样本是构成数据集和领域的基本元素。因此,掌握了样本的选择方法,也会对领域的选择提供一些指导作用。我们将在5.2节介绍样本选择方法,因此这里不再赘述。
本节主要介绍迁移学习中数据集和领域的选择方法。这常常被称为源域选择(Source Domain Selection)问题和方法。[Xiang et al.,2011]提出一种无须显式指定源域的迁移学习方法Source-free,聚焦于基于语义信息进行源域和样本选择。这项工作借助了一个社会化标签分享网站的数据:Delicious[1]。这个网站由用户对不同的网页给出自己的个性化标签。我们可以认为这些标签包含了大量的标记信息,上面包括源域和目标域的标记信息。借助Delicious网站上的标签作为桥梁,构建源域和目标域之间的关系;然后,基于拉普拉斯特征映射,构建源域和目标域特征的语义相似度关系,实现自动的源域选择。
随后,[Lu et al.,2014]将源域选择应用于文本分类中。在深度网络中,[Collier et al.,2018]通过网格搜索的方法,系统地探索了深度网络中各个隐藏层的可迁移性。[Bhatt et al.,2016]则提出了在多个源域的场景下进行有新源域选择的贪心算法。
流形学习中,Gong等人[Gong et al.,2012]提出了一种基于Principle Angle的领域相似度度量方法。其通过贪心算法逐步计算不同领域的相似度角度,最终计算出可供迁移的源域。另一种较为流行的方法是利用领域之间的A-distance [Ben-David et al.,2007],对源域和目标域数据构建一个线性分类器,通过分类器误差来反映二者的相似程度,并得到了广泛的应用。例如,MEDA方法[Wang et al.,2018b]利用此距离计算了源域和目标域数据分布的相似性。
在具体的应用中,[Wang et al.,2018a,Chen et al.,2019f]提出了一种用于行为识别的分层源域选择(Stratified transfer learning)方法。其将领域之间的MMD距离进行细粒度表征求解,取得了比传统MMD距离更好的源域选择结果。接着,研究者又针对行为识别问题中的源域选择提出了基于语义和度量准则的源域选择方法[Wang et al.,2018c]。该方法将行为识别中源域和目标域的相似性用身体部位传感器数据的相似性和身体部位本身的语义相关性进行融合,然后构建深度网络用于迁移学习,如图3.1所示。
相信读者已经有所察觉,在很多情况下,何处迁移与如何迁移这两个问题有着高度的相关性:选择出最适合迁移的领域和样本的评价指标往往是迁移后的学习结果,这依赖于具体的迁移学习的实施。因此,并不能简单地将两个问题区别对待,它们本质上是一个先有鸡还是先有蛋的问题。正因为如此,越来越多的研究者试图用一个统一的框架来表示这两个问题,试图将源域选择和如何迁移进行有机结合。在实际应用中,两个问题的基本方法也有着高度的交叉性,读者可根据应用背景和要求灵活选择对应的方法。
图3.1 人体行为识别的源域选择:哪个部位与红星部位运动情况最相似