Press "Enter" to skip to content

双方互GAN,不如来试试群体博弈?更快更强更自由|ICLR 2021

AI诞生之初,很长一段时间都停留在个体智能阶段,即面向“识别出图像中的内容”、“听懂一段语音”、“预测蛋白质的3D结构”这类目标单一的任务。

 

但随着技术发展,AI开始逐渐与其他智能群体产生交互,走向更加复杂的应用场景。

 

比如在2019年,DeepMind训练的游戏类AI就在星际争霸中超越了99.8%的活跃玩家,达到了最高的 Grandmaster段位。

 

 

这是一种以博弈论为机器学习模型的思路。沿着这种思路,DeepMind的几位研究者提出了一种名为EigenGame的理论,重新定义了PCA(主成分分析,Principal Component Analysis)方法。

 

△已获深度学习顶会ICLR 2021杰出论文奖

 

“Eigen”与“Game”

 

“Eigen”意为特征。也是论文题目中所提到的PCA方法的核心概念。

 

 

PCA是ML领域里用于数据降维的经典方法。目的是在尽可能不丢失原数据信息的前提下,将高维数据映射(压缩)到低维空间,得到剔除了原有特征冗余信息的新特征。

 

 

在目标数据集的数据属性过多,数据量过大的时候,模型训练和计算的性能可能受到很大影响。这时,就需要用到PCA进行数据降维。

 

而“Game”则意为博弈论*(Game Theory)*,是一种研究理性决策者之间的冲突与合作的数学模型。

 

纳什均衡(Nash equilibrium)作为博弈论的一个重要概念,指每个参与人在获取信息不完全的情况下,做出了针对其他参与人策略的最优反应,比如经典的囚徒困境。

 

 

那幺,到底如何才能将博弈论与PCA结合起来呢?

 

如何将PCA过程重建为一场“博弈”

 

我们知道,PCA的最优解,是由可以组成方差值最大的投影矩阵,且互相正交的特征向量组成的。

 

那幺,在EigenGame模型中,我们将每一个特征向量假设为一个参与者。

 

 

每一个参与者(红点向量,指投影得到的降维数据),都会尽可能地使自己与最大方差方向一致(在同一条直线上),且与高维参与者(蓝点向量,指原数据)保持垂直。

 

所有参与者构成一个层级结构,其中设置一个只关注最大方差值的1号参与者。其他参与者可以通过计算方差值而受到奖励,也会在与其他参与者距离过近时被惩罚。

 

 

这里的参与者并不是主动地去推理最优解的整体性质,而只是对其他参与者策略的最佳响应。

 

 

如果所有向量都都使用梯度上升来同步且独立地最大化它们的性能(即每个参与者都发挥最佳状态),它们将实现这场博弈的纳什均衡。

 

△EigenGame会引导每个参与者沿单位球从空圈平行地走向箭头

 

我们也就得到了最佳的PCA解决方案。

 

“博弈”的意义

 

在机器学习问题的连续方法(continuum approach)上,研究人员通常有两种思路。

 

一种是使用凸或非凸优化理论,推理解的整体性质。

 

另一种则受神经科学启发,使用纯粹的连接主义方法和更新规则。但此时往往需要研究复杂的动力学系统,从而使对系统的分析愈发困难。

 

而EigenGame则是一种介于两者之间的理论。

 

 

参与者(特征向量)的优化和更新不限于功能梯度,而仅仅是对其他参与者当前策略的最佳响应。

 

这样,就能更加自由地设计功能或进行各种属性的优化更新——比如,可以在指定无偏或加速优化的同时,仍然确保Nash属性作用于整体系统之上。

 

而在博弈过程中,向量与向量之间展现了同步上升的独立特性。这种复杂的多人并行参与模式可以以更快的速度,处理更大规模的数据。

 

比如允许EigenGame计算分布在数十个TPU上,并在几小时内找到包含数百万个特征,或数十亿行的数百兆字节数据集的主要成分(Component)。

 

 

所以,在解决机器学习问题上,这种大型的多智能体系统(multi-agent system)超越了GAN双人参与的零和博弈(two-player, zero-sum),进入了更加复杂丰富的场景应用。

 

并且,当从多主体角度考虑时,EigenGame中每个发挥最大效能的参与者,都会产生并更新其效能。

 

神经科学领域的赫布理论(Hebbian Theory),就有类似的更新规则(突触可塑性)。

 

△突触前神经元向突触后神经元的持续重复的刺激,可导致突触传递效能的增加。

 

以前,PCA可以作为赫布更新(Hebbian updates)的解决方案,但又不能通过效用函数的梯度来导出。引入博弈论后,赫布学习就有了新的研究视角。

 

当博弈论遇上机器学习

 

其实,博弈论的思想一直存在于很多机器学习的探索过程中,不管是经典的 SVM,还是大火的 GAN,这些模型的背后都有博弈论的影子。

 

最初提出“博弈机器学习”这一概念的刘铁岩博士曾这样说过:

 

什幺才是人工智能?想要解决这个问题,首先需要为「智能」提出一个定义。如果说过去对于个体智能的研究为计算机赋予了智商(IQ)的话,那幺社会智能则对应着人工智能的情商(EQ)。

 

博弈论的引入让AI在过去只与环境交互的基础上,又学会了如何与其他智能体打交道。而当EigenGame这种与多智能群体交互的算法出现时,其意义就不仅是更多更快的数据运算。

 

按照既非随机,也非理性和对立的人类的行为规律去训练建模,那幺AI就有了更多解决问题的新角度,也能在广告竞价、社交媒体、众包管理、交通疏导等多个领域中得到更广泛的应用。

 

或许,博弈论会是连接机器学习走向人和社会的一个桥梁。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注