文献分享 | 《ICLR:专家经验的引导让强化学习学会探索》
文献分享:控制小组ICLR:专家经验的引导让强化学习学会探索Making Efficient Use of Emonstrations to Solve Hard Exploration Problems 文章导读本文介绍了R2D3算法1,该算法可以有效利用专家数据演示来解决在不确定性初始条件下强化学习无法有效探索学习的问题。本文还演示了此算法在八种应用场景中的控制效果,并证明了R2D3可以提高探索效率,解决其他SOTA(state of the art,截止目前最先进的算法)算法无法解决的稀... […]