北京大学科学研究部

近年来，多智能体强化学习在许多应用领域受到了广泛的关注，诸如多人游戏，通信行业、智慧交通、广告推荐等。相比于单体强化学习，多智能体强化学习任务具有联合动作空间大、动作关联性强、奖励更为稀疏等性质，带来了更大的动作探索空间。因此如何有效地探索协同模式成为该领域研究的重要课题之一。

在最近的研究中，北京大学智能学院计算智能实验室谭营教授课题组通过深入分析在多智能体协同任务中存在的低维结构、共享结构、多态结构的三项特性，针对协同任务的特性提出了基于协同隐空间的多智能体强化学习探索方法（FLE）。FLE通过引入一个深度编码器将原始的联合状态空间映射到一个低维高斯隐空间中，来学习多智能体协同的低维多态表示，每个智能体再从这个低维隐空间采样一个共享的样本输入到本地策略解码器中，作为协同信息补充到每个智能体的状态表示，最后再通过多智能体强化学习进行端到端训练。相比于原始的在联合状态空间以随机扰动的形式实现探索，FLE强调将探索空间转移到低维隐空间中来，并由隐空间的随机性（高斯空间）来驱动探索，同时所有智能体共享这一探索结构（图1）。FLE首次在多智能体强化学习领域动作探索这一任务中引入隐空间协同探索，在探索效率和可解释性上显著好于现有联合动作探索方案。

图1 FLE模型计算图

FLE在水世界和协同搬运两项强协同性的多智能体任务上进行了验证，实验结果表明FLE相对纯独立探索有十分明显的改进，在可扩展性、协同性和可解释性等方面均有非常好的表现。

图2 协同任务：（a）水世界（b）协同搬运及FLE在对应任务中的表现

图3 FLE协同动作的可视化展示

2022年2月15日，相关研究成果以Feudal Latent Space Exploration for Coordinated Multi-Agent Reinforcement Learning为题已经在线发表在国际顶级期刊IEEE Transactions on Neural Networks and Learning Systems，刘翔宇为第一作者，谭营教授为通信作者。

谭营教授团队在多智能体强化学习领域研究方向包括：群体智能协同控制、多智能体状态表示、联合动作空间探索、多智能体信用分配等。相关工作都发表于IEEE Transactions on Cybernetics、IEEE Transactions on Neural Networks and Learning Systems等国际顶级期刊及AAMAS、ICSI、DMBD等国际著名会议。

信息来源：智能学院

北大科研进展

智能学院谭营教授课题组提出基于协同隐空间的多智能体强化学习探索方法