文献分享:控制小组ICLR:专家经验的引导让强化学习学会探索Making Efficient Use of Emonstrations to Solve Hard Exploration Problems 文章导读本文介绍了R2D3算法1,该算法可以有效利用专家数据演示来解决在不确定性初始条件下强化学习无法有效探索学习的问题。本文还演示了此算法在八种应用场景中的控制效果,并证明了R2D3可以提高探索效率,解决其他SOTA(state of the art,截止目前最先进的算法)算法无法解决的稀... […]
π-Lab与夏海平教授课题组在单分子构象识别研究中取得重要进展。相关研究成果以“Identifying the Conformational Isomers of Single-Molecule Cyclohexane at Room Temperature”为题发表于Cell Press旗下的《Chem》上(DOI:10.1016/j.chempr.2020.07.024)。构象异构是化学中的基本问题。然而对于环己烷等柔性分子,由于其在室温下极快的互变异构过程,基于系综的表征方法(如核磁等)只能得到所有构象平均贡献的结果。因... […]