Press "Enter" to skip to content

一文带你详尽 Lifelong Learning — 终生学习

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

1、什幺是lifelong learning

 

Lifelong learning终生学习,又名continuous learning,increment learning,never ending learning。通常机器学习中,单个模型只解决单个或少数几个任务。对于新的任务,我们一般重新训练新的模型。而LifeLong learning,则先在task1上使用一个模型,然后在task2上仍然使用这个模型,一直到task n。Lifelong learning探讨的问题是,一个模型能否在很多个task上表现都很好。如此下去,模型能力就会越来越强。这和人类不停学习新的知识,从而掌握很多不同知识,是异曲同工的。

LifeLong learning需要解决三个问题

 

Knowledge Retention 知识记忆。我们不希望学完task1的模型,在学习task2后,在task1上表现糟糕。也就是希望模型有一定的记忆能力,能够在学习新知识时,不要忘记老知识。但同时模型不能因为记忆老知识,而拒绝学习新知识。总之在新老task上都要表现比较好。

 

Knowledge Transfer 知识迁移。我们希望学完task1的模型,能够触类旁通,即使不学习task2的情况下,也能够在task2上表现不错。也就是模型要有一定的迁移能力。这个和transfer learning有些类似。

 

Model Expansion 模型扩张。一般来说,由于需要学习越来越多的任务,模型参数需要一定的扩张。但我们希望模型参数扩张是有效率的,而不是来一个任务就扩张很多参数。这会导致计算和存储问题。

 

2、Knowledge Retention 知识记忆

 

出现知识遗忘其实很容易理解。试想一下,训练完task1后,我们得到了一个模型。再利用这个模型在task2上进行训练时,会对模型参数进行一定调整。如果参数调整方向和task1的gradient方向相反,则会导致模型在task1上表现变差。那怎幺让task1的知识能够得到保留呢?显然我们需要对模型参数更新做一些限制,让它不要偏离task1太远。

 

2.1 EWC

 

EWC(Elastic Weight Consolidation)就是用来解决这个问题的。它在Loss函数上加入了一个正则,使得模型参数更新必须满足一定条件,如下

L(θ)为原始的loss function,后面一项为正则项。

 

bi为参数更新权重,表示参数θi有多重要,能不能变化太多

 

θi为需要更新的参数,θib为该参数在之前任务上学到的数值。

 

bi为参数更新权重,表示参数θi能不能变化太多,试想一下

 

如果bi很大,则表明θi不能和θib差距过大,也就是尽量不要动θi

 

如果bi很小,则表明θi的变化,不会对最终loss带来很大的影响。

 

有了正则项和bi后,我们就能指导模型合理的更新参数,从而避免忘记之前的task。那问题来了,bi怎幺得到呢?EWC给出了它的解决方案。它利用二阶导数来确定bi。如果二阶导数比较小,位于一个平坦的盆地中,则表明参数变化对task影响小,此时bi小。如果二阶导数比较大,位于一个狭小的山谷中,则表明参数变化对task影响大,此时bi大。

 

 

利用EWC后的效果如下图所示。蓝色越深代表模型效果越好。假如模型有两个参数θ1和θ2,在task1上训练后,参数更新为θb。在task2上更新参数时,有很多个不同的参数组合,都可以在task2上表现很好(蓝色区域)。如果我们沿斜上方更新参数,虽然task2效果好,但在task1上效果却很差,也就是出现了遗忘问题。如果我们沿水平方向更新参数,也就是θ1的方向,则task1上模型效果依然OK。这表明,通过EWC是可以做到让模型记住以前学到的知识的。

2.2 生成样本

 

还有一种思路,在学习task2时,我们可以利用生成模型,生成task1的样本。然后利用task1和task2的样本,进行多任务学习,使得模型在两个task上均表现很好。这里的难点在于,生成样本,特别是复杂的样本,目前难度是很大的。可以作为一个idea参考,但个人认为可行性不高。

3、Knowledge Transfer 知识迁移

 

终生学习也对模型提出了另一个要求,那就是迁移能力。通过学习task1、task2等多个task,在不学习task n的情况下,模型是否能举一反三,表现仍然不错呢。

终生学习和迁移学习有一些类似的地方。区别在于迁移学习只关注迁移后模型在target task上要表现好,至于source task则不关心。而终生学习则需要模型在两个task上都表现好,不能出现遗忘。可以将终生学习理解为更严格的迁移学习。

 

4、Model Expansion 模型扩张

 

一般来说,由于需要学习越来越多的任务,模型参数需要一定的扩张。但我们希望模型参数扩张是有效率的,而不是来一个任务就扩张很多参数。这会导致计算和存储问题。所以怎幺对模型参数进行有效率的扩张,就显得十分关键了。

 

一种方法是progressive neural network。它将task1每层输出的feature,作为task2对应层的输入,从而让模型在学习后面task的时候,能够记住之前task的一些信息。如下图

另一种方法是Net2Net。它对网络进行加宽。如下图所示,由神经元h2分裂得到一个神经元h3。初始时和h2一样,h2和h3权重均为之前h2权重的一半。为了防止h2和h3训练过程中始终保持一致,故在h3上添加一些小噪声,使二者能够独立更新。

5、评价方法

 

终生学习模型的评价,也很重要。如下图我们构建一个table。横轴表示学习完某个task后,在其他task上的表现。纵轴表示某个task,在其他task学习完后的表现。综合下来

 

当i>j时,表示学习完task i后,task j有没有被忘记。代表模型记忆能力

 

当i<j时,表示学习完task i后,模型在还没有学习的任务task j,上的表现。代表模型迁移能力。

评估主要包括三个指标

 

ACC

 

记忆能力

 

迁移能力

 

5.1 ACC

 

模型准确率ACC为,学习完最后一个任务task T后,模型在task1、task2、task T-1上的平均准确率。

 

5.2 记忆能力

 

记忆能力衡量了模型学习完最后一个任务task T后,在之前task上的表现。一般来说,模型会忘记之前task,所以这个指标一般为负数

 

5.3 迁移能力

 

迁移能力衡量了模型在学习完一个任务后,在未学习的task上的表现。一般和随机初始化的模型进行对比。

 

— 完 —

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注