2.4 概念与符号
承接上述数据分布的概念,我们从本节开始引入迁移学习中的一个重要概念:领域。基于此概念,下一节将会介绍迁移学习问题的形式化定义。
领域(Domain)是学习的主体,主要由两部分构成:数据和生成这些数据的概率分布。我们通常用花体来表示一个领域,领域上的一个样本数据包含输入x和输出y,其概率分布记为P(x,y),即数据服从这一分布:(x,y)~P(x,y)。我们用大写花体来分别表示数据所处的特征空间和标签空间,则对于任意一个样本(xi,yi),都有。因此,一个领域可以被表示为。
结合迁移学习的概念,其对应于至少两个领域:被迁移的领域和待学习的领域。在迁移学习中,被迁移的领域、含有知识的领域通常被称为源领域(Source domain,源域),而待学习的领域,则通常被称为目标领域(Target domain,目标域)。源域就是有知识、有大量数据标注的领域,是我们要迁移的对象;目标域就是我们最终要赋予知识、赋予标注的对象。知识从源域传递到目标域,就完成了迁移。通常我们用小写下标s和t来分别指代两个领域。结合领域的表示方式,表示源域,表示目标域。当时,对应于或Ps(x,y)≠Pt(x,y)。[2]