Press "Enter" to skip to content

强化学习入门 -KDnuggets

如今,强化学习(RL:reinforcement-learning)之所以引起如此广泛的兴趣,其原因之一就是其跨学科性。该领域的核心概念实际上遵循基本 博弈论, 进化论 和神经科学原理。

 

与所有其他形式的机器学习相比,实际上,在尝试复制仿真人类和动物在整个时间段内的学习方式时,可以认为RL是最接近的近似值。

 

强化学习仿真人类最常用于学习的主要方式是通过使用传感器并与环境互动(因此,在有监督的学习中,无需像外部指导那样,而是通过反复试验的过程)。

 

我们每天都会尝试完成新任务,并且根据尝试的结果,我们会影响周围的环境,通过评估我们的尝试,我们可以从经历中学到经验,以确定哪些行为(最容易重复)可以给我们带来更大的好处,而哪些行为应该最好地避免。代表了大多数基于强化学习的算法的主要工作流程。

 

强化学习系统的两个主要挑战是:

探索与开发的两难境地:如果探索者发现一个可以给他适度高额报酬的行为,可能会不尝试任何其他可用的行为,因为害怕这样做可能会不太成功。同时,如果机器学习甚至不尝试其他操作,则可能永远不会发现有可能获得更好的回报。
延迟奖励的处理:不要立即奖励机器学习,而应提出不同的解决方案,对其进行测试,最后根据收到的奖励对它们进行评估。机器学习不应该仅仅根据他们的立即回报来评估他们的行动。实际上,选择某种类型的行动可能会立即产生更大的回报。

核心组件

 

根据理查德·萨顿(Richard S. Sutton)等人的说法。强化学习算法由4个主要关键部分组成:策略,奖励,价值函数,环境模型。

策略: 定义机器学习行为(将不同的状态映射到操作)。 由于每个特定操作都与要选择的概率相关联,因此策略最有可能是 随机的。
奖励: 一种信号,用于提醒机器学习如何最好地修改其策略以实现已定义的目标(在短时间内)。每次执行操作时,都会从环境中收到对机器学习的奖励。
值函数: 用于从长远角度了解哪些动作可以带来更大的回报。它的工作原理是为不同的状态分配值,以评估机器学习从任何特定状态开始应该期望的报酬。
环境模型: 模拟人类所处环境的动态,以及环境应如何响应人类所采取的不同措施。取决于应用程序,某些RL算法不一定需要环境模型(无模型方法),因为可以使用试错法进行处理。虽然基于模型的方法可以使RL算法处理需要计划的更复杂的任务。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注