用解耦的对抗策略攻击深度强化学习

Attacking Deep Reinforcement Learning With Decoupled Adversarial Policy CCF-A

本文工作:

    该论文提出了一种称为解耦对抗策略(DAP)的新方法,用于攻击深度强化学习(DRL)系统。目标是利用 DRL 的漏洞并构建强大的系统。DAP由两个子策略组成:切换策略,决定攻击者是否应该发起攻击;诱饵策略,决定攻击者诱导受害者采取的行动。攻击者可以实时查询预先构建的数据库以获取普遍扰动,并误导受害者采取诱导行动。为了训练对抗代理学习 DAP,作者提出了数据修剪中的轨迹裁剪和填充,以及优化中的解耦近端策略优化(DPPO)。通过对不同 Atari 游戏的大量实验证明了所提出方法的有效性。所提出的方法在实时性和少步攻击方面优于现有方法。

本文发现与贡献:

    1.作者提出了一种解耦对抗策略(DAP)攻击方案来攻击深度强化学习(DRL)系统。

    2. 作者的主要贡献包括问题陈述的制定、攻击方案的设计以及对不同 Atari 游戏的攻击评估。

    3. 问题陈述是开发一种有效的攻击方案,该方案可以通过向输入状态注入小扰动来操纵 DRL 代理的行为。

    4. 所提出的攻击方案包括构建扰动数据库、推导受害者代理的策略以及通过向输入状态注入扰动来发起攻击。

    5. 威胁模型假设攻击者可以访问受害代理的模型,并且可以在训练期间观察其行为和奖励。

    6. 攻击涉及多个阶段,包括通过为一类状态生成通用扰动来构建扰动数据库,通过训练代理模型来推导受害者代理的策略,以及通过向输入状态注入扰动来发起攻击。

    7.所提出的攻击通过将扰动生成过程与策略推导过程解耦,克服了现有对DRL的对抗性攻击的局限性,从而提高了攻击成功率并减少了所需扰动的数量。

    8. 实验结果表明,所提出的攻击可以有效地操纵不同 Atari 游戏中 DRL 代理的行为,实现高攻击成功率和低检测率。

    9. 与现有方法相比,所提出的攻击被证明更加有效和高效,以更少的扰动和更低的计算开销实现了更高的攻击成功率。

    10. 作者证明了 DRL 系统面对对抗性攻击的脆弱性,并提出了一种新的攻击方案,可以有效地操纵 DRL 代理的行为。所提出的攻击在以下方面优于现有方法。

上一篇
下一篇