一种防御网络系统中高级持续威胁的博弈论方法

A Game-Theoretic Method for Defending Against Advanced Persistent Threats in Cyber Systems

本文为CCF分类,网络与信息安全,A类

摘要:

作者认为防御策略的频繁升级并没有达到安全和保护的增强。防御者的策略调整实际上为攻击者留下了有用的信息,而攻击者就能利用这些信息改进自己。所以作者提出防御策略的第一个关键是寻找合适的时机来调整自己的防御策略,来确保攻击者了解尽可能少的信息。另一个是如何充分利用自己的资源来达到令人满意的防御水平。

引言:
APT攻击的一个显著特点是威胁不断变化,增加安全预算并不能有效地保护组织免受损害。原因在于,通过频繁的互动,攻击者和防御者相互学习,使得攻击者比以往任何时候都要更加成熟和强大。

(如上图,一开始攻击者对防御者的了解有限。当防御者采用新的防御策略时,一些信息就会留给攻击者。这就为攻击者提供了更多了解防御者防御策略,下一次的攻击将会针对防御策略发生改变。反过来,攻击者渗透技术的发展也激励防御者设计出更先进的防御方法。所以作者再次强调,选择一个能确保攻击者了解最少信息的时机来调整策略是非常重要的。)

作者认为之前的博弈论模型无法反映真实APT场景的攻防。首先,大部分都是预先就为双方设定了策略,并没有考虑到攻击者和防御者可以相互学习。其次,之前的模型都有明确的获胜标准,但是作者认为真实的APT攻击是一个长期相互的过程,很难确定谁真正获胜。

于是作者提出了一个双方参与的APT对抗博弈,来分析攻击者和防御者之间的互动关系。1.作者认为时间本身就给双方带来了成本,即使没有采取任何新的动作;2.模型的参与者不会随意在任意时间调整策略,因为它们必须考虑到时间成本和信息泄露之间的权衡;3.该模型深刻反映当今APT攻防活动,也就是对手无法被消灭,只能通过更先进的技术来抑制;4.作者同时提出了两种强化学习方法,帮助防御者从过去的经验中学习到未来防守的最佳防守程度。

因此,作者提出本文的贡献。1. 考虑玩家策略调整所披露信息的 APT 对抗博弈模型,防御者和攻击者能够根据博弈的结果找出策略调整的最佳时机。2. 两种基于强化学习的学习机制,帮助防御者在与攻击者的博弈中找到最佳防御水平以及适当的资源分配。3. 对所提出的模型和机制的理论证明和分析,作者得出了模型具有关于参与者理性的均衡的必要条件,作者还得出了学习机制的后悔界限。4. 实验模拟显示不同博弈设置下均衡的存在性和最优性。进一步的实验证明了所提出的学习机制的有效性。

相关工作:

作者认为前人的工作具有两个局限性。1.这些工作大多忽视了双方的学习能力,只在双方调整策略时考虑得失,事实上,调整策略会泄露信息,使得双方变得更强。2.这些工作大多会设置明确的胜负标准,作者认为真正的APT攻击是长期存在的威胁,并且伴随着新的攻击变种,所以设置明确的获胜者或者讨论如何获胜是不合理的,唯一的想法应该是吸取过去的经验来尽可能减少未来的损失。

在此基础上,作者提出了一款基于进化博弈论的APT对抗博弈模型,寻找参与者做出改变的最佳时机。在这个模型中,作者并未给每个参与者定义获胜的标准,而是假设只要APT攻击的威胁没有完全消除,防御者就会周期性的获得一些收益或者损失。最终实现在平衡时间点,防御者根据先前的行为和收益/损失,使用强化学习技术确定新的防御策略。

博弈策略:

本博弈模型考虑博弈的混合策略纳什均衡(参与者不是选择确定性的策略,而是根据一定概率分布选择策略),其中每个玩家的策略(当前时间退出的概率)对应于退出时间的分布 Ti (i = 1, 2)。每个玩家根据分布Ti 决定退出时间。

定理1(纳什均衡):如果对于每个 ai*(纳什均衡策略选择)都是 ai-1*(是 的补集,也就是剩下参与者的策略)的最佳响应,则称动作曲线a*是纳什均衡。(这里的意思是,对于博弈中参与的任意的一个参与者来说,他选择的策略 必须是其他参与者选择的策略集合 下的最佳响应。这就意味着对于每一个参与者,他们都会认为自己已经选择了在其他人做出他们的决策的情况下的最佳策略,这种状态下,每位参与者的策略选择是相互协调的,也就是没有参与者有动机单独改变他的策略)

(这里的 , 指参与者,也就是所有玩家。 ,也就是所有的策略组合。 指的是每位玩家的效用(博弈论中的术语)通常是指参与者偏向某个策略的偏爱程度,也可以理解为价值。 ,可以理解为对于每位参与者在其他人采取了策略组合 的情况下,采取策略 获得的效用 比其他策略 (除 之外的策略)相等或者都要大)

在消耗战博弈(在这种博弈下,参与者不断增加参与成本,以争夺某种资源或奖励)中,玩家的效用是获胜后的估值(如果获胜)与参与竞争的成本之间的差异。换句话说,如果竞争在时间 结束,获胜者获得的效用为 ,( 是指参与者 获胜赢得的收益, 是指单位时间战斗的成本)而另一名玩家获得的效用为 (负收益)。在纳什均衡下,两名玩家对于在某个时间点 退出比赛和等待到时间 再退出比赛应该感到漠不关心。(因为在除均衡点之外的时间退出都无法达到效用最大,所以他们并不关心在哪个时间退出,而达到均衡状态后则不能再单独改变自己的策略了,所以这种博弈通常是一个博弈动态,也就是一般不会有明确的退出点)

(这个公式描述的是平衡点的状态,也就是收益的变化值等于成本的变化值,在这个状态下,做任何的变化的决策都是不划算的,也就是参与者没有机会去单独改变他的策略了,我理解的就是 与 成反比,dT也就是对概率微分,均衡点就是变化的收益等于消耗的成本,也就相等等于0)

其中 是玩家 在 继续的可能获得的收益, 是停留的成本。比率 是玩家 在 时刻退出的相对概率(退出概率与留下概率的比值),也称为参与者 的危险率(某一时刻退出比赛危险概率相比于留下的安全概率)。

在APT(高级持续威胁)的背景下,攻击者/防御者的策略调整对应于玩家的退出,这会留下一些信息,用于对手估计他们的价值 vi。我们使用战争耗费模型来找出在信息泄露方面的最佳策略调整时机。然而,APT攻击者/防御者的估值是隐私信息。因此,我们考虑了一个更复杂的情景,其中玩家的估值来自不同的分布,并讨论了在形成纳什均衡时玩家的预期效用。此外,我们将游戏扩展到玩家可能是惰性的情况,即以某种概率非理性决策(原始的博弈模型中,玩家都被认为是完全理性,即总是根据最大化自己的效用来做出最佳决策。但在实际情况中,玩家往往是非理性的,也就是以一定的概率采取不符合理性决策的行为),使其与APT攻击更为类似。我们还推导出存在一组均衡的必要条件。

下一篇