“4号队员在队友的协助下迅速突破防守,单刀直入投篮、球、进了! ”
观众们,你们好。 您现在看到的是谷歌ai足球比赛现场,场上穿着黄色西装的是来自清华大学的ai选手。
这次的清华AI非同一般。 他们在严格的训练下,不仅有个人能力突出的明星选手,还有世界上最强最紧密的团队合作。
在许多国际比赛中变得有名,获得了冠军。
“Oh,现在7号,在队友的辅助下,靠近门,球又进了! ”
言归正传,以上其实就是清华大学在足球游戏中打造的强大多智能体强化学习AI——TiKick。
在多项国际比赛中获胜,这是TiKick首次在单代理控制和多代理控制中均获得SOTA性能,同时操纵10名选手完成整个足球游戏。
这个强大的AI团队是如何训练出来的呢?
从单智能体策略演化而来的多智能体足球AI在开始之前,应该对训练所使用的强化学习环境,也就是这个足球游戏: Googleresearchfootball(GRF )有一个简单的了解。
谷歌将于2019年发布,提供基于物理的3D足球模拟,支持所有主要比赛规则,代理将操纵其中的一个或多个足球运动员与另一个内置AI进行对战。
在3000步的上半场和下半场比赛中,主体需要不断决定移动、传球、射门、击球、铲球、冲刺等19个动作以达到终点。
在这样的足球游戏环境中进行强化学习的难度有两个:
一个是多智能体环境,即共有10名运动员(不包括守门员)可以操作,算法需要在如此巨大的动作空间中寻找合适的动作组合;
二是众所周知足球比赛中进球数极少,通过算法很难频繁获得环境的报酬,训练难度也大幅上升。
清华大学这次的目标是控制很多运动员完成比赛。
他们首先参观了Kaggle在2020年举办的GRF世界锦标赛中,最终获得冠军的WeKick队的数万场自我对战数据,并采用离线强化学习方法从中学习。
这个锦标赛只需要控制场内的一个选手进行对战。
如何从单代理数据集学习多代理策略?
直接学习WeKick单代理的操作并复制到每个选手身上显然是不可取的。 因为那样的话,只会让大家随便抢球冲向终点,而得不到球队的协助。
没有后台非活跃选手动作的数据,怎么办?
他们在动作集中添加了名为build-in的第20个动作,并给了所有非活动选手这个标签。 (在比赛中选择build-in作为选手的动作时,选手会根据内置规则行动。
其次,采用多代理行为克隆( MABC )算法对模型进行训练。
对于离线强化学习来说,最核心的思想是在数据中找到高质量的动作,并加强对这些动作的学习。
因此,在计算目标函数时需要对每个标签赋予不同的权重,防止运动员倾向于只采用某个动作作为行为。
这里的权重分配有两点:
一种是从数据集中选择进球数较多的比赛,只利用这些高质量的数据进行训练,由于报酬密集,模型可以加速收敛,提高性能。
二是训练Critic网络对所有动作打分,用结果计算优势函数,对优势函数值较大的动作给予较高权重,反之给予较低权重。
这里为了避免坡度的爆炸和消失,适当地修整了优势函数。
最终的分布式培训体系结构由一个学习者和多个工作器组成。
其中,Learner负责策略的学习和更新,Worker负责通过gRPC进行数据、网络参数的交换和共享的数据收集。
Worker可以利用多进程方式同时与多个游戏环境进行交互,也可以通过I/O同步读取离线数据。
这种并行的执行方式大大提高了数据采集的速度,提高了训练速度( 5小时可以达到另一种分布式训练算法在2天内达到的同等性能)
此外,通过模块化设计,该框架无需修改代码就可以在单节点调试模式和多节点分布式训练模式之间一键切换,大大降低了算法的实现和训练难度
在94.4%的胜率和比赛平均3分的纯胜点多代理( GRF )游戏上不同算法的比较结果中,TiKick的最终算法( AW )为最高胜率) 94.4 )和最大目标差达到了最佳性能。
TrueSkill (机器学习竞技类游戏的排名系统)的得分也是第一。
TiKick与内置AI的对战分别实现了94.4%的胜率和比赛平均3分的净胜球。
横向比较了TiKick和GRF学术场景的基线算法,发现TiKick在所有场景中都达到了最佳性能和最低的样本复杂度,差距明显。
与其中的基线MAPPO相比,发现5个场景中4个场景均在100万步达到最高分数。
作者介绍了黄世宇,清华大学博士生,研究方向是计算机视觉、强化学习和深度学习的交叉领域。 曾在华为诺亚方舟实验室、腾讯AI、卡内基梅隆大学、商汤、RealAI工作。
合作一作也是来自清华大学的陈文泽。
此外,作者还包括国防科技大学龙飞张、腾讯AI实验室李子阳、朱凤明、叶德恒、清华大学陈廷廷。
通讯作者是清华大学朱军教授。
论文地址: https://arxiv.org/abs/2110.04507
项目地址: https://github.com/TARTRL/TiKick
参考链接: https://砖局域网.知虎. com/p/421572915—完—量子位QbitAI 头条签约关注我们,第一时间了解前沿科技动态