Press "Enter" to skip to content

南洋理工安波:强化学习仍在起步阶段,并不能解决所有问题

以下内容根据安波的演讲整理,未经本人确认。

 

解决 AI 竞争的两种方法

 

算法博弈

 

 

安波教授首先分享了有关博弈论和强化学习的内容。

 

当竞争出现的时候,可以靠博弈论来解决,很多 AI 功能的背后也都有博弈论的身影,目前有两种主流的观点:基于算法的,又叫算法博弈论;另一种就是强化学习。

 

 

用基于算法博弈的技术解决 AI 问题,其难度跟 AlphaGo 一样复杂,比如扑克游戏,要解决特别大规模的优化问题,首先要解决很多算法问题。

 

因此,可以通过抽象来解决一些问题,虽然这样的技术跟深度学习无关,但也恰恰说明深度学习、强化学习并不能解决所有问题。

 

此外,安波教授表示,DeepRL(深度强化学习)技术没有十分确定的保障,有时候利用算法优化得到的结果比 RL 的效果还要好。

 

安波教授举了一个德州扑克游戏的案例对问题进一步说明。

 

过去七八年的中,有不少机构和组织对这一问题发起挑战,即:基于多人的德扑挑战,但实际上,这些技术本身并没有任何进展,只不过是扩展双人德扑游戏的技术而已。

 

安波说,解决多人德扑问题的第一步,是将参与者分为两个队伍,即一个人对多个人,在这样的前提下实现的效果会更好。

 

 

随后,安波教授分享了一些他所在的团队在算法博弈方面的工作进展。

 

 

针对大规模的问题,要找到有效的算法来应对大规模博弈,当情况变成 Team-Maximin 时候,很多方法都没有用了。

 

因此在博弈的时候,可能会多尝试一些方法,试着从回应里去学习一些东西,以达到最好的效果。

 

可是在竞争环境里,这样的方法是很危险的,有可能会被利用、误导,得到比较差的结果,所以需要找到一个更加健壮的学习算法。

 

所以安波教授与团队也在研究,当对手采取攻击手段的时候,如何取得好的结果。

 

 

 

强化学习

 

 

什幺时候需要强化学习?安波教授的分享中提到了如下四点:

 

 

问题不能被很好的定义(model);

 

大规模问题;

 

问题本质上完全不能被传统技术优化;

 

没有可以解释的结构。

 

 

在这些情况下,可以优先考虑使用强化学习。

 

近些年来,有关强化学习的研究也越来越热,安波教授也认为:这是一个欣欣向荣的领域,也诞生出了一些热门的算法,比如近年来得到广泛关注的 VDN,QMIX,QTRAN 等方法。

 

 

之后,安波教授也分享了团队在强化学习领域的研究进展。比如:复杂的桥牌竞争问题,这一方法的研究有跟 AlphaGo 类似的地方。

 

 

此外,强化学习还可以帮助电商平台制定策略,优化目标。比如,有人利用漏洞刷单,则可以利用强化学习制定惩罚机制,防止刷单;或者侦测是否出现刷单的攻击,并通过此方法来提升鲁棒性等等。

 

 

在公路电子收费中,也可以看到强化学习发挥作用。传统算法采用的是固定的价格,但安波教授表示,考虑到很多时候道路情况是不断变化的,因此可以采用动态 ERP 的方法。

 

 

 

强化学习还能够帮助政府和公司指定策略,安教授及其团队也在这一方面有所研究,下图所示的一些论文就是部分研究成果。

 

 

 

结语

 

 

在演讲的最后,安波教授认为,未来的 AI 要考虑更多复杂环境下的问题,有竞争、有合作,所以要分布式地解决。强化学习对于解决某些问题可能会很有效,但是仍在起步阶段,还有很多挑战需要去解决,比如在解决的时候,没办法把基于优化的技术应用在其中,因此还有很大的上升空间。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注