本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.
作者简介:许倬,UC Berkeley博士在读,研究方向包括机器学习、增强学习、控制理论及其在机器人和自动驾驶等领域的应用。
目前神经网络控制策略在机器人和自动驾驶的领域中都被广泛探索和应用,因为这些使用模仿学习和增强学习等方法所训练的策略网络相比于传统的控制方法具有相当多的优势。首先,神经网络可以表示非常复杂的模型;其次,多种驾驶场景和模式可以同时、全面地影响策略网络的训练;此外,相比于线上优化的方法,策略网络的执行往往更快。但是,策略网络的实际应用收到一系列限制,其中一个非常重要的问题则是训练和知识迁移的困难性。
以以下的一个驾驶案例为例(见下图),假设我们对于第一个驶向既定目标地的任务训练了一个输入维度为10维的策略网络。假设我们新增添了一个躲避障碍物的属性,而这个属性新增添了5维的信息输入,那幺我们需要新训练一个15维输入的神经网络。而由于我们对于神经网络的内部运转的无知性,尽管这两个任务非常相似,我们也无法复用任何已有知识而只能完全重新训练新的策略网络。同理,假设我们新增添一个限速的属性,而它又带来了新的5维输入,我们又不得不重新训练一个新策略网络。
因此我们的工作目标是建立起一套依据任务属性的策略网络模块化系统,从而达到对于不同的驾驶属性,如车道保持,障碍物躲避和交通规则,每一个属性模块分别给出相关指示,而这些指示共同给出一个整体的驾驶指令。如下图所示车道保持模块首先吸取车道相关信息,并且给出相应的驾驶建议;障碍躲避模块吸收障碍物信息,交通规则模块吸收交通规则相关的信息,它们都给出和相应属性相关的驾驶要求。最后,整个属性网络整合所有属性模块的要求,给出最终的驾驶指令,亦即策略网络的输出。
图6. 平行属性网络作为策略网络控制无人车躲避障碍物同时服从红绿灯和限速
理论上,各个属性模块的训练可以使用增强学习和模仿学习,并且对于模仿学习,训练集可以来自于人类标注或者理论计算结果。我们在实验中比较了增强学习、模仿学习、以及用于生成模仿学习训练集的专家执行者的表现,如下图所示。这一实验说明,增强学习可以得到比模仿学习更好的效果,这也是本方法的突出优势之一。
(具体方法及更详尽的分析请参考论文)
[1] Zhuo Xu, Haonan Chang, Chen Tang, Changliu Liu, and Masayoshi Tomizuka, “Toward Modularization of Neural Network Autonomous Driving Policy Using Parallel Attribute Networks”in IEEE Intelligent Vehicles Symposium (IV), June. 2019
[2] Chen Tang * , Zhuo Xu * , and M. Tomizuka, “Disturbance Observer based Tracking Controller for Neural Network Driving Policy Transfer”, to appear in IEEE Transactions on Intelligent Transportation Systems in 2019.
Be First to Comment