基于数据正则化自博弈强化学习的人类兼容型自动驾驶

自动驾驶汽车面临的一个核心挑战是如何与人类合作。因此,在模拟环境中,将现实中的人类代理纳入到自主驾驶系统的可扩展训练和评估中至关重要。

自动驾驶汽车面临的一个核心挑战是如何与人类合作。因此,在模拟环境中,将现实中的人类代理纳入到自主驾驶系统的可扩展训练和评估中至关重要。

基于数据正则化自博弈强化学习的人类兼容型自动驾驶

自动驾驶汽车面临的一个核心挑战是如何与人类合作。因此,在模拟环境中,将现实中的人类代理纳入到自主驾驶系统的可扩展训练和评估中至关重要。模拟代理通常是通过模仿大规模、高质量的人类驾驶数据集来开发的。然而,纯粹的模仿学习代理在多代理闭环环境中执行时经验上具有较高的碰撞率。为了构建在闭环设置中既逼真又有效的代理,研究人员提出了一种名为
Human-Regularized PPO(HR-PPO)

的多代理方法,其中代理通过与一个人类参考策略做自我对弈训练,并对偏离人类参考策略的行为施加了小的惩罚。与以往的方法相比,该方法以强化学习为主,仅利用了30分钟的不完美人类示范数据。在大量的多代理交通场景的评估中,HR-PPO
代理在实现目标方面非常有效,成功率达到 93%,越出道路的比率为 3.5%,碰撞率为 3%。与此同时,HR-PPO
代理以类似人类驾驶的方式行驶,在与人类驾驶协调的代理指标上表现出相当大的改进,特别是在高度互动的情景中。

当前的驾驶模拟器提供了基本的交互代理 - 简单的车辆跟随模型、基于规则的代理、记录的人类驾驶日志或模仿学习代理。这些模型无法创建具有挑战性的协调场景,或者在闭环中具有高碰撞率。

图片

为了构建在闭环设置中既逼真又有效的代理,研究人员提出了Human-Regularized PPO (HR-PPO),一种多代理方法,通过自我对弈训练,并对偏离人类参考策略的行为施加了小的惩罚。

图片

方法

  • 步骤1:模仿学习

通过对人类驾驶示范进行模仿学习,获取人类参考策略。

  • 步骤2:引导自我对弈

基于数据正则化自博弈强化学习的人类兼容型自动驾驶

代理在多代理设置中进行训练,每个场景最多可容纳50个代理。目标函数如下:

图片

实验结果

在大量的多代理交通场景中,研究人员发现可以同时实现效果和逼真度。HR-PPO 代理在四种不同逼真度指标上实现了显著的人类相似性改进,同时达到了与 PPO 相似的性能水平。

图片

HR-PPO 代理在衡量与人类驾驶协调的代理指标上显示出相当大的改进,特别是在需要代理之间协调的高度互动场景中。在互动场景中,HR-PPO 在 PPO 的基础上提升了 20-40%。

图片

有趣的是,它们甚至表现出比直接在代理的测试分布上训练的代理更好的性能。这表明,多代理训练可能比单一代理训练提供了额外的好处。

为什么 HR-PPO 代理与人类驾驶日志更兼容呢?

  • HR-PPO 代理的驾驶风格类似于人类驾驶员,这使得它更容易适应人类驾驶日志的行为;
  • HR-PPO 代理与其他车辆保持更多距离,从而降低了碰撞的风险。

译自(有删改):https://sites.google.com/view/driving-partners

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2024年4月10日 16:09
下一篇 2024年4月10日 16:40

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信