基于 “ 滴滴 KDD 2018 论文:基于强化学习技术的智能派单模型 ” 再演绎

  文章作者:洪九 滴滴 高级算法工程师   内容来源:作者授权   出品社区: … Continue reading “基于 “ 滴滴 KDD 2018 论文:基于强化学习技术的智能派单模型 ” 再演绎”

TPAMI | 从虚拟到现实,一种基于强化学习的端到端主动目标跟踪方法

简介   主动目标跟踪是指智能体根据视觉观测信息主动控制相机的移动,从而实现对目标物体的跟踪(与目标 … Continue reading “TPAMI | 从虚拟到现实,一种基于强化学习的端到端主动目标跟踪方法”

PaddlePARL 1.1|一个修饰符,实现并行强化学习算法

强化学习是近年来机器学习领域的研究热点,在游戏操作、围棋对弈、多智能体控制等场景取得了不少令人瞩目的进展。在逐 … Continue reading “PaddlePARL 1.1|一个修饰符,实现并行强化学习算法”

机器学习A-Z~置信区间上界算法 Upper Confidence Bound or UCB

本文将要开始介绍机器学习中的强化学习, 这里首先应用一个多臂老虎机(The Multi-Armed Bandi … Continue reading “机器学习A-Z~置信区间上界算法 Upper Confidence Bound or UCB”

一个简单的强化学习实现案列-基于学习自动机的链路预测模型

强化学习   强化学习(英语:Reinforcement learning,简称RL)是机器学习中的 … Continue reading “一个简单的强化学习实现案列-基于学习自动机的链路预测模型”

深度强化学习新趋势:谷歌如何把好奇心引入强化学习智能体

  探索-利用困境是规范强化学习算法的动力之一。如何平衡智能体应该探索环境的程度与如何执行特定操作和 … Continue reading “深度强化学习新趋势:谷歌如何把好奇心引入强化学习智能体”