发布日期:2024-10-01 17:43 点击次数:175
近日,由北京大学东谈主工智能权略院、工学院、打算机学院和伦敦国王学院共同完成的论文——《大领域多智能体系统的高效强化学习》在海外学术期刊《当然·机器智能》上发表。这一效劳初次在大领域多智能体系统中齐全高效去中心化协同决议,故意于进步东谈主工智能决议算法的膨胀性和适用性。
多智能体系统主要以庞杂的智能体交互数据为基础,专揽多数打算资源运行每个智能体学习奈何与其他智能体配合扩充复杂任务,其中枢范式是多智能体强化学习。
“比如一个无东谈主机编队,每架无东谈主机皆由东谈主工智能限度,咱们把每架飞机的限度器叫作智能体,这个无东谈主机编队由多个智能体组成,即是一个多智能体系统。”论文第一作家、北京大学东谈主工智能权略院博士生马成栋解释。
马成栋说,在真正大领域系统中,各个限度单元之间、限度单元与环境之间的交互老本频频极端昂贵。这些系统中连接存在客不雅通讯放手,如通讯距离太远、全局通讯有躲闪流露风险、通讯能耗放手等。限度单元之间难以齐全全局信拒却换,繁难了东谈主工智能决议算法在大领域系统中的膨胀和应用。
现时,去中心化的多智能体强化学习成为海外学术界的权略热门,其旨在探索一种算法,即在有限数据和资源条目下,将决议才能膨胀到包含多数智能体的复杂真正系统中。
马成栋说,去中心化的多智能体强化学习,以不依赖全局信息的状貌让每个智能体齐全高效去中心化协同决议,展现出特有上风。
论文通讯作家、北京大学东谈主工智能权略院助领路释杨耀东先容,权略团队通过齐集化结构解耦系统的全局动态特色,使智能体能孤独学习局部现象周折、邻域信息价值和去中心化政策,将复杂的大领域决议难题转动为更容易求解的问题。成绩于此,即使在样本数据和信拒却互受限的情况下,大型东谈主工智能系统也能展现令东谈主自负的决议性能。
权略团队在较为复杂的城市交通和电力采聚会,对包含数百个智能体的场景进行了测试。终端走漏,与中心化多智能体学习治安比较,去中心化的治安可将信拒却换老本缩小70%或更多。何况,跟着智能体数目握住增长,这一比例还会显贵下跌。同期,样本效劳可进步50%以上。
“这一权略效劳关于将东谈主工智能模子膨胀到大型电力齐集、城市交通讯号限度等大领域多智能体系统具有浩大价值。”马成栋例如说,在大型电网系统中,节点之间信拒却换和传输过于频繁,不免会产生干涉。某些节点一朝发生故障,就会严重影响其他节点的性能。去中心化不错缩小这一风险,提高电网系统厚实性和安全性。
(记者杨雪)