

随着人工智能(AI)技术的迅猛发展,大规模AI系统在交通调度、电力分配、城市规划等领域展现出巨大潜力。然而,如何在大量扩展AI模型的同时保持其性能,成为亟待解决的挑战。传统的集中式AI方法在处理复杂任务时,往往需要超大量的通信和数据采样,这不仅增加了系统的复杂性和成本,还可能导致性能下降。随着系统规模的扩大,通信延迟和数据传输的瓶颈也愈加突出。例如,在交通网络中,频繁且大规模的通信可能导致显著的功率损耗和信号干扰,进而影响系统的稳定性和效率。

图1. 大规模AI系统下的强化学习挑战及系统的拓扑解耦
对此,北京大学人工智能研究院博士生马成栋(π-Lab 2023届毕业生,论文第一作者)、北京大学多智能体中心李阿明研究员,伦敦国王学院杜雅丽教授,北京大学计算机学院董豪助理教授和北京大学人工智能研究院杨耀东助理教授(论文通讯作者)提出了一种基于模型的去中心化策略优化框架,首次在数百个智能体级别的大规模多智能体系统中实现了高效的、可扩展的强化学习方法,显著提升了人工智能决策模型在大规模多智能体系统中的扩展性和适用性。该成果于近日发表于人工智能顶级学术期刊Nature Machine Intelligence,同时也被新华社,科技日报等权威媒体进行报道。这一成果也是华人领衔的多智能体强化学习(MARL)研究打破DeepMind在该领域多年来的垄断,首次登上Nature子刊。

图2. 新华社和科技日报对该研究工作的报道
具体而言,在这项研究中,研究团队对大规模多智能体系统进行了以智能体为单位的动力学特性的解耦,将智能体之间的关系描述为一种拓扑连接结构下的网络化关系,降低了系统处理的复杂性,并进一步提出了一种通用的网络化系统模型,用来刻画解耦后多智能体系统的动力学和真实系统动力学之间的关系,其优势在于它能够处理更广泛的合作多智能体任务,为大规模多智能体系统的研究提供了必要的理论分析框架。

进一步,基于这种更一般化的网络系统,为了从局部信息中捕捉全局动态,研究团队提出了多智能体模型学习理论和方法,使智能体能够独立学习局部状态转移、邻域信息价值和去中心化策略,将复杂的大规模决策难题转化为更容易求解的优化问题,保证了在有限数据采样下的单调的策略改进。这样,大型人工智能系统即使在样本数据和信息交互受限的情况下,也能实现令人满意的决策性能,使用本地通信来传递预测信息。为了缓解模型预测的误差问题,研究团队采用了分支推出策略,用许多短时间线推出替换了少数长时间线推出,以减少模型学习和预测中的复合误差,促进了策略学习过程中的近似单调提升能力。
多项测试结果表明,该方法能够扩展到具有数百个智能体的大规模电网和交通等网络化系统中,在较低的通信成本下实现较高的决策性能。

图3. 研究方法在智能交通控制场景中的效果
使用了该方法控制的信号灯仅通过接收相邻路口的车流信息即可调控复杂的交通流。这是因为在网络化结构的设计下,整体交通状况已经通过城市路网间接地传递并汇总到相邻路口,通过分析这些相邻路口的观测信息,就能推断和预测整个城市的车流变化,从而做出最优决策。在智能电网上的效果也验证了方法的可扩展性,能够在具有上百个节点的电力网络中实现较低的电能损耗。

图4. 研究方法在智能电网控制场景中的效果
该研究为大规模多智能体学习奠定了重要的理论基础,所提出的算法框架也将进一步推动AI模型在更广泛场景下的大规模部署应用。
论文链接:
https://www.nature.com/articles/s42256-024-00879-7
校友信息:

撰稿人:马成栋(2023届毕业生)
校稿人:曾巧珍 (2023级硕士)
编 辑:曾巧珍 (2023级硕士)