5.2 基于样本选择的方法_迁移学习导论-QQ阅读男生玄幻网

书名：迁移学习导论
作者名：王晋东陈益强
本章字数：2350字
更新时间：2021-06-09 16:28:23

5.2　基于样本选择的方法

基于样本选择的方法假设源域和目标域的边缘分布近似相等，即Ps（x）≈Pt（x）。当二者的条件分布发生改变时，应当利用一些筛选机制选择出一些合适的样本。事实上，如果把整个样本选择的过程看成一个决策过程，则这个过程可以被表示为图5.2所示的形式：

图5.2　基于样本选择的迁移学习法

该过程主要包含如下几部分：

• 样本选择器（Instance Selector）f。其作用是从源域中选择出一部分样本（Subset）使得这部分样本的数据分布与目标域数据分布差异较小。

• 表现评估器（Performance Evaluator）g。其作用是评估当前选择的样本与目标域的量化差异程度。

• 反馈（Reward）r。其作用是根据表现评估器的结果，对样本选择器选择出的样本进行反馈，指导其后续的选择过程。

读者不难发现，上述过程可以被近似看成一个强化学习的马尔可夫决策过程（Markov Decision Process，MDP）[Sutton and Barto，2018]。因此，一个非常自然的想法应运而生：我们可以将一些成熟的强化学习方法直接应用于样本选择，设计好上述的样本选择器、表现评估器和反馈机制就可以了。例如，我们可以利用经典的REINFORCE算法来学习一种选择的策略（Policy），还可以利用一些Deep Q Learning的方法来完成此过程。

综上，如果以是否采用了强化学习这一手段来进行样本选择作为分界，则样本选择的迁移学习方法可以简单地分为两大类：非强化学习法和强化学习法。

5.2.1　基于非强化学习的样本选择法

在深度强化学习还未兴起之时，研究者更多采用的是非强化学习的样本选择法。整体而言，可以把非强化学习的样本选择方法分为三类：基于距离度量的方法、基于元学习的方法，以及其他方法。

基于距离度量的方法非常直接，就是人为设定一种度量准则，使得最终选择的样本在该度量准则下能达到最优值。常用的度量准则包括交叉熵、MMD等，更多的介绍可以见附录A.1。这些方法的过程非常直接，可以将其看成两阶段的学习方法：首先利用度量准则选择出最好的源域样本，然后进行训练。注意，这两个过程在这些方法中是有先后关系、不互相交互的。也就是说，第一阶段选择完样本后，这些数据就固定了，不会再有后续的选择过程。

这些方法主要应用在自然语言处理任务中，例如[Axelrod et al.，2011，Song et al.，2012，Murthy et al.，2018，Moore and Lewis，2010，Duh et al.，2013，Chatterjee et al.，2016，Mirkin and Besacier，2014，Plank and Van Noord，2011，Ruder et al.，2017，Søgaard，2011，Van Asch and Daelemans，2010，Poncelas et al.，2019 ]等工作，均是基于距离度量方法的实验与应用。

基于元学习的方法的主要思想是设计一个额外的网络来学习样本的选择方式，并且在训练过程中与主要的学习任务不断交互来修整选择结果。因此这个过程是相互学习的，而非上述基于距离度量方法的完全二阶段。例如，[Shu et al.，2019]利用了课程学习（Curriculum learning）[Bengio et al.，2009]的思想，将样本选择过程形式化为一个元学习的任务，进行交替学习。[Loshchilov and Hutter，2015，Chen and Huang，2016，Wu and Huang，2016，Wang et al.，2017b，Ren et al.，2018b，Coleman et al.，2019]中均有相关的研究工作。

其他方法还包括基于贝叶斯的选择方法[Tsvetkov et al.，2016，Ruder and Plank，2017]，特别地，[Tsvetkov et al.，2016]提出了进行数据选择要着重处理的三个要素：简单性（Simplicity），多样性（Diversity）和代表性（Prototypicality）。

读者应该特别注意课程学习与样本选择的结合。由于课程学习强调一个由难到易的学习过程，与人类的学习过程相符，因此，这是一个可以重点考虑的方法[Bengio et al.，2009]。

5.2.2　基于强化学习的样本选择法

自深度学习随着AlexNet [Krizhevsky et al.，2012]的成功异军突起，强化学习方法，特别是深度强化学习方法（Deep Reinforcement Learning，DRL），随着Google Deepmind开发的AlphaGo系列[Silver et al.，2016，Silver et al.，2017]在围棋领域打败人类顶尖棋手，近年来也获得了前所未有的进步。虽然本书重点是机器学习中的迁移学习方法，其主要目标或许与强化学习任务相去甚远，但是知识之间可以相互连接：我们既可以用强化学习的思想和方法来解决迁移学习问题，也可以用迁移学习的思想和方法来解决强化学习问题，或许这就是知识的魅力吧。

本节主要介绍基于强化学习的样本选择法的基本思路。[Feng et al.，2018]提出一种基于强化学习的数据选择方法，从噪声数据中进行学习。此类工作主要聚焦于传统学习背景，并未考虑迁移学习的特殊性，因此不过多介绍。

[Patel et al.，2018]提出在领域自适应问题中利用Deep Q Learning学习一个采样策略。[Liu et al.，2019]利用REINFORCE方法[Sutton and Barto，2018]在自然语言处理任务中进行源域选择，我们将重点介绍该方法。

该方法将源域数据分为若干个批次（Batch），学习这些批次中每个样本的权重。值得注意的是，为了方便度量源域和目标域的分布差异，该方法首先从目标域中随机选择出一些有标记的样本作为指导集（Guidance Set）。然后，在每一批次的训练中，给该批次的源域数据赋予一定的权重，其与指导集同时经过特征提取后，用一定的方法度量二者的分布差异，并完成源域上的预测任务。反馈函数将分布差异反馈给源域选择器，以便开始新一轮的迭代。

在应用强化学习方法时，最重要的步骤是对强化学习中的核心概念：状态、行为、反馈给予合适的定义，之后才能完成强化学习的建模。在此方法中，这些概念的含义对应如下：

• 状态（State）：由当前批次样本的权重向量和特征提取器的参数构成。

• 行为（Action）：主要执行选择操作，因此其是一个二值向量，0表示不选择当前样本，1表示选择当前样本。

• 反馈（Reward）：在本问题中，评估方法是源域和目标域的分布差异。

特别地，反馈函数是强化学习的重点。在本问题中，其被表示为

其中d（·,·）表示一个分布度量函数，在本方法中作者尝试了诸如MMD、Reny等差异度量。（s，a，s′）表示状态s经过动作a后变成了状态s′，Φ表示对应的特征，上标s，t分别表示源域和目标域。

整个方法的最优解可以通过深度网络进行求解。

随后，[Dong and Xing，2018，Wang et al.，2019b，Wang et al.，2019a，Guo et al.，2019，Qu et al.，2019]等工作将强化学习集成到迁移学习过程中，完成样本的选择与特征的学习。值得注意的是，样本选择和特征学习其实是互补的两个阶段，因此将二者进行有机结合，常常会有更好的效果。[Qu et al.，2019，Wang et al.，2019a]等工作均是样本选择和特征学习相结合的例子。