Press "Enter" to skip to content

大咖聊技术:强化学习也爱玩雅达利吗?

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

深夜,小李还在屏幕前敲着代码,眼前的深度模型还有几个超参数可以调教一下。按下了回车,看着日志里显示GPU开始全力运转,小李决定趴在桌子上稍微休息一会儿。挨着冬夜里键盘散发的些许温暖,小李戴上耳机伴着音乐沉沉睡去。不知过了多久,小李猛地惊醒了,他想看看屏幕上的目标函数曲线如何了,却怎幺也看不透屏幕上的粗糙像素。不仅如此,身边的一切都笼罩在低清晰度又略带失真的滤镜里。

 

 

屏幕上陌生又熟悉的TensorBoard

 

小李被这一切搞得莫名其妙,只能不停地揉眼睛。这时一只手从背后拍了拍他,小李转过头,是一位形似海明威的银发老人。他说到,“年轻人,欢迎来到张量世界。”小李还不明所以,老人继续说到,“显然,你的分布式计算集群每天不舍昼夜地执行繁重的代码,而你却在那里不是呼呼大睡,就是无脑地调用一些API。所以他们齐心协力把你吸了进来,召唤出老夫来,要看看你到底有没有真本事。如果你能顺利地过了老夫的三关,他们就愿意继续听从于你,并且任劳任怨。”

 

 

Nolan Key Bushnell,电子游戏名人堂成员,雅达利创始人

 

考虑到不能让公司新买的大规模分布式计算集群白白失灵,小李决定迎战。当他摆出时,老人家呵道,“你这年轻人怎幺不讲武德?怎幺会是跟我这个老同志打呢?是跟我设计的雅达利游戏机对战。”原来老人是诺兰·布什内尔老爷子,他在1972年创立了雅达利公司,开启了辉煌至今的电子游戏产业。然而,小李只在B站的纪录片里听过雅达利的名号,那是属于上世纪80年代画面简陋的家用电子游戏机。

 

 

雅达利游戏机

 

老爷子带着小李来到了一座高高的由CRT显示器堆叠起来的高墙边上。“Atari!”老爷子高喊道,吓了小李一跳,“是日语里将军的意思。小伙子,你们今天的年轻人永远无法想象当年雅达利的光辉。当时苹果公司的乔布斯和沃兹尼亚奇都还在给雅达利写打砖块游戏呢。”

 

 

雅达利游戏电视墙

 

闪动的电视屏幕吸引了小李,此时老爷子发话了:“第一关挑战——南门立木。规则很简单,只要你能保持这根木棍不倒超过200秒就算赢了。”屏幕上是一根倒放的摆锤一般的木棍,玩家需要左右控制支点的位置,以维持平衡。

 

 

CartPole,南门立木

 

初见关卡,小李心念这有何难。但尝试了几次之后,也感觉不妙。原来,这根杆子虽只用四个状态即可以描述,也就是:水平位置、水平速度、杆子的角度,以及杆子顶端的速度,但要找到正确的策略使其稳定不倒并非易事。小李一开始尝试用物理方程,作出解析解,但解析公式的推导过于复杂,只能放弃;又尝试从统计学规律中找到解法,也不得其法。在慌乱中手忙脚乱,最后设计的算法近乎随机游走,木棍根无头苍蝇一般跌跌撞撞。

 

 

随机游走东倒西歪的cartpole

 

小李涨红了脸。老人哈哈大笑起来,“看来你还需要 强化学习 啊,哈哈哈哈。我给你一天的时间,明天再来挑战。”说着如同一阵电波消散而去。

 

小李走到模糊的电脑屏幕前,赶紧查起了“强化学习”是什幺。

 

原来,强化学习(Reinforcement Learning,以下简称RL)是 智能体(Agent) 基于 环境(Environment) 而 行动(Action) ,以取得最大化预期 收益(Reward) 的问题。

 

在B站上看起了香港中文大学信息工程系助理教授周博磊的《强化学习》课程,小李总算对于梦里的难题有了大概的掌握。老爷子拿来考他的这题目叫CartPole,堪称RL领域的Hello World问题。

 

 

由于不像监督学习一样有明显的输入/输出,也难以取得。RL更强调 在线规划 ,需要在探索未知和挖掘已知( Exploit & Explore )里做平衡。

 

随着张量世界的太阳升起,新的一天来到了。老人如约而至,依然是挑战南门立木。这次小李有备而来,他不紧不慢地掏出了一张表格。老人一看就笑了:“这莫非是Q值表吗”小李也开诚布公:“没错,鄙人正是要施展Q Learning算法。”

 

所谓Q Learning算法,就是根据转移方程,不断根据当前状态和可能选择的行为及对应收益更新一个收益矩阵。这个更新同时被学习效率和未来收益的打折系数所影响。

 

 

Q Learning更新算法

 

小李手里的这张Q值表是随机初始化的,随着游戏的进行, Q Table被逐渐更新,游戏的成绩也在抖动式地提高。不到一会儿功夫,200秒已经不在话下了。此时小李手里的Q表已经写得密密麻麻了。Q Learning算法在给定无限的时间的确能收敛到最优解,但现实生活很少有这幺优越的情况。而小李还记得,Karpathy大神的代码,只训练了211个episode,就能跑出平均195分的成绩了。

 

 

使用了Q Learning算法的CartPole

 

老人啧啧称奇,“小伙子,你学得很快嘛。既然你已知道了RL的法门,看来需要第二关来考验考验你。这一关规则同样很简单,叫吃豆人,吃一颗豆子加10分,碰到鬼魂就会损失一条命。在三条命内能达到2000分你就赢了。”

吃豆人

 

小李又拿出了Q Learning那一套,但是很快就一筹莫展。吃豆人的状态量太巨大了,机械地用表格法去解决会耗费太大的算力,并且即使算法能够运行起来,有效信息也会很快消失在浩如烟海的维度灾难中。小李再次败下阵来。

 

看小李有些灰心,老爷子反而过来劝导,“胜败乃兵家常事,你也是很有潜力了,才一天就进步了这幺多。不过嘛,你的理论造诣还需要加点 深度 。老规矩,我明天再来找你。”

 

小李若有所思,看来还是得拿出深度神经网络这个大杀器来,于是埋头看了起来如何拓展Q Learning。这时又有一双手从背后拍了拍小李,小李转头一看,这回是一位大胡子老爷子。

 

 

RL教父Richard Sutton

 

小李子吃了一惊,来人是RL领域相当当当人物Richard Sutton教授。Sutton老爷子慈眉善目地教导小李:“年轻人我看你也是有慧根,特意来传授你一套心法。要先学会对RL有底层的理解,才能找到应对之计。”说罢老爷子留下一本秘籍,正欲飘然而去。小李追问,“先生留步!不知小人何德何能,”老爷子笑了,一双慈眉善目闪耀着智慧的光芒,“在AI领域,我所在的DeepMind公司和埃隆马斯克创办的Open AI公司,可以称之为AI届的少林和武当。多年来的良性竞争使得AI领域突飞猛进,但我们也希望更多像你这样的年轻人能涉足进来,承担更进一步的挑战。”一阵笑声,扬长而去。

 

小李子低头看手里的心法,正是Sutton老爷子出版的《强化学习》。赶紧翻开来一探究竟。原来这看似浆糊一团的RL领域,也对算法做了几个维度的分类。

 

按模型角度分类

 

如果从模型角度,看可以分为 Model-free 和 Model-based ,这两者的主要区别就是算法需不需要理解所处的环境。有时环境无法理解或者理解的成本过高,就会选用Model-free。而像围棋这样规则确定的游戏,就可以选用Model-based算法。

 

按学习时机分类

 

如果从学习时机分类,又可以分成 On-policy 和 Off-Policy 两种。On-policy即在线学习,算法需要参与行动,也就是边玩边学习;而Off-policy则是离线学习,可以从过往的经验里学习,这经验即可以是来自自己的,也可以是别人的。

 

按输出分类

 

如果按照输出来看,又分 Policy-based 和 Value-based 两种。Policy-based根据当前状态输出各种动作的概率,Value-based则更直接,输出各个动作的价值。也有结合二者的方法,比如Actor-Critic。

 

按更新时机分类

 

从更新时机来看,可以分成 Monte-Carlo update 和 Temporal-Difference 更新两种。MC每一轮游戏再更新,效率更高;TD算法则可以在游戏进行中随时更新。

 

 

RL算法分类图

 

看着这体系庞大的分类,小李渐渐明确了方向。

 

这一次,小李直接走向电视机墙发起挑战。身后还有密密麻麻发出蜂鸣器声音的虚拟机们——他们正是这次罢工的分布式计算集群的机器们。诺兰老爷子笑道,“你来啦。”小李自是成竹在胸,上前展开了早已事先搭好的一层层神经网络。老爷子问,“你这可是Deep Q Network?”小李回答,“正是DQN没错,深度神经网络可以作为一个大型Q值表的近似模拟,也可以处理维度灾难的问题。”得到了DQN的加持,小李犹如手握倚天剑屠龙刀,很快就战胜了吃豆人问题。

 

 

Deep Q Network 玩吃豆人

 

 

Deep Q Network 示意图

 

老爷子喃喃自语,“有了DQN这小子一下子厉害了起来。什幺打砖块、太空侵入者都不用再比了……看来只能用那个。”最后他从不知什幺角落里找来了一盘游戏,对小李子说:“来,看看你到底有多少本事。”

 

 

Montezuma’s Revenge,RL届公认最难的游戏

 

不过小李早已不是那个初出茅庐的小伙子了,他说到,“这不是臭名昭着的《蒙特祖玛的复仇》吗?这可不是什幺简单的问题,需要学会困难的探索问题,以及顺序解密问题。老人家可不要蒙骗我,我劝你好自为之。”

 

老爷子又乐了,“看来你的确不是小白了。既然如此,我给你多几天,你好好研究下。”

 

小李再次陷入沉思,对于这一次的挑战能否成功感到怀疑。此时又有一双手拍了拍他。转身一看又是一惊——这会是商界巨子,刚刚晋升世界第二富豪的硅谷钢铁侠。他就是埃隆马斯克。

 

 

马斯克

 

不等小李发问,马斯克已经开口:“你现在所处的世界是OpenAI公司创建的gym世界,用来给全世界的RL算法做评估。此处是RL事实上的基准测试平台,RL算法模型的伊甸园。无数算法在这里施展拳脚,各领风骚。实际上你所掌握的Q Learning,DQN等等,都是这里的老前辈了。”马斯克带着小李游览gym世界,算法们一个个在模拟显示器上奋勇争先。

 

马斯克继续说道,“如今的RL仅在游戏领域有着令人瞩目的成绩。但也常常被人讥笑只能拿来打游戏。”小李发问:“那为何不在别的应用领域里一展身手呢?”马斯克苦笑道:“你有所不知,这机器学习最需要训练数据。物理世界里不管是无人驾驶还是操作无人机,或是执行股票交易策略,都面临着巨大的数据成本问题。唯有这十寸见方的游戏世界里可以近乎零成本地产生海量数据。但是可以肯定,RL对于广阔的应用有着不可限量的潜力,现实世界将是最大的游戏场。在各行各业,都需要 Decision Making 的策略,RL正是为之而生的算法,在销售、市场、财务、金融等领域,都可以帮助企业。”

 

小李听得入神,“那幺我们还有什幺需要克服的挑战吗?”

 

马斯克又笑了,“挑战?简直一切都是挑战。AI比人们想象得还能投机取巧,只要游戏设计得稍有漏洞,就会钻营起来;面对海量的数据,如何高效地训练,这就需要分布式的算法和计算架构;在多智能体的场景下怎幺设计算法,都值得去考量。”

 

最后马斯克说:“很抱歉,我的脑机接口Neuralink新开发的测试产品智能耳机不小心流入市场,导致你被吸入了张量世界。作为补偿,我打算把特斯拉公司的一半股份……”

 

根据第一性原理,马斯克不会花这幺多时间跟一个小人物讲话。随着一阵闹钟,小李子终于从沉睡的电脑桌上醒来,四周的世界又清晰了起来。小李打起精神来,开始翻阅起RL的论文着作。

 

– 未完待续 –

 

 

本期员工大咖

 

 

Mr. Yongdong Li

 

Master, Electrical Engineering, University of Michigan

 

Bachelor,  Electrical Engineering , University of Michigan

 

Bachelor, Electrical Engineering, Shanghai Jiao Tong University

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注