5.1 问题定义
样本权重自适应方法是迁移学习的基本思路之一。在4.1节中我们指出,迁移学习的核心是源域和目标域的分布差异度量。那么,为什么要使用样本权重迁移法?这种方法可以缩小源域和目标域的分布差异吗?
5.1.1 样本权重迁移法的可行性分析
在迁移学习中,由于实例的维度和数量通常都非常大,直接对Ps(x)和Pt(x)进行估计是不可行的。因此,可以有目的地从有标记的源域数据中筛选出部分样本,使得筛选出的数据所形成的概率分布可以与目标域数据的概率分布相似,再使用传统的机器学习方法建模。此方法的关键是,如何设计数据筛选准则。从另一个维度来看,数据筛选可以等价于如何设计有意义的样本权重规则(数据筛选可以看成权重的特例,例如可以简单地用权重值为1和0来表示选择或不选择某个样本)。
图5.1形象地表示了基于样本的迁移方法的思想。源域中存在不同种类的动物,如狗、鸟、猫等,目标域只有狗这一种类别。在迁移时,为了最大限度地和目标域相似,我们可以设计权重策略来提高源域中狗这个类别的样本权重。
图5.1 基于样本的迁移学习方法
大量的研究工作[Khan and Heisterkamp,2016,Zadrozny,2004,Cortes et al.,2008,Dai et al.,2007]着眼于对源域和目标域的分布比值进行估计,所估计得到的比值即为样本的权重vi。这些方法通常都假设并且源域和目标域的条件概率分布相同(即)。特别地,Dai等人[Dai et al.,2007]提出了TrAdaboost方法,将AdaBoost的思想应用于迁移学习中,提高有利于目标分类任务的实例权重、降低不利于目标分类任务的实例权重,并基于PAC理论推导了模型的泛化误差上界。TrAdaBoost方法是此方面的经典研究之一。文献[Huang et al.,2007]提出核均值匹配方法(Kernel Mean Matching,KMM)对概率分布进行估计,目标是使得加权后的源域和目标域的概率分布尽可能相近。在最新的研究成果中,香港科技大学的Tan等人提出了传递迁移学习方法(Transitive Transfer Learning,TTL)[Tan et al.,2015]和远域迁移学习(Distant Domain Transfer Learning,DDTL)[Tan et al.,2017],利用联合矩阵分解和深度神经网络,将迁移学习应用于多个不相似的领域之间的知识共享,取得了良好的效果。
5.1.2 形式化定义
在迁移学习中给定一个有标记的源域和一个无标记的目标域,两个领域的联合概率分布不同,即Ps(x,y)≠Pt(x,y)。令向量表示源域中每个样本的权重,则样本权重自适应方法的学习目标是学习一个最优的权重向量v*,使得经过权重计算后,源域和目标域的概率分布差异变小:D(Ps(x,y|v),Pt(x,y))< D(Ps(x,y),Pt(x,y))。
按照上一章的统一表征部分,基于样本权重的迁移学习问题可以被统一表征为
其中的向量v就是此类方法学习的重点。
回到联合概率上来。根据概率公式,P(x,y)=P(x)P(y|x),即源域和目标域的概率分布差异取决于边缘分布P(x)和条件分布P(y|x)。因此,在方法的设计上,我们通常假定此二者中有一项是固定的,由于另一项的变化引起了整体的概率分布差异。由此,我们分别介绍样本选择法(vi ∈ {0,1})和权重自适应方法(vi ∈ [0,1])。