下载客户端

数秒植入木马，一击即破，你的DNN模型还安全吗？

2020-07-19 08:53

来源：澎湃新闻·澎湃号·湃客

机器之心专栏

作者：唐瑞祥

木马攻击是一种新兴的 DNN 安全问题，它的攻击方式更多也更隐蔽。最近，美国德州农工大学的研究人员提出一种新型木马攻击模型，无需修改训练数据集，也无需重新训练模型，即可快速完成木马植入，并发动稳健的攻击。目前，这项研究已被 KDD 2020 会议接收。

随着 DNN 模型在人脸识别、医疗诊断等高风险行业中的广泛使用，DNN 模型的安全性受到越来越多的关注。

木马攻击（Trojan Attack）是一种新兴的 DNN 安全问题。相比于传统的对抗攻击（adversarial attack），木马攻击的方式更多、攻击的激活标签也更加隐蔽，因此木马攻击对实际应用的 DNN 模型造成的威胁也更大。

最近，来自美国德州农工大学的研究者提出了一种简单且有效的木马植入方法 TrojanNet：当输入具备预设的激活标签时，木马攻击能够使目标模型执行预设的木马程序。

相比之前的木马攻击方法，该研究提出的方法不需要修改训练数据集和重新训练模型，并且能在数秒内完成木马的植入过程，从而极大地扩展了攻击场景。

此外，该方法还具备更好的隐蔽性，具体表现在：

1）木马激活信号非常隐蔽，例如在 ImageNet 图像分类模型中，只需改变 16 个像素就能使模型错误地将图片分类到 1000 种类别中的任意一个。

2）现有的几种木马检测程序都无法检测到该方法植入的木马。

3）植入木马不会影响模型在原始任务上的表现。

研究人员在物体识别、语音识别、交通标志识别等 6 个数据集上进行了测试，实验结果表明在所有数据集上该研究提出的方法都能达到 100% 的攻击成功率。

下图展示了木马攻击在具备交通标志识别模块的自动驾驶场景中的应用示例：

什么是木马攻击？

在这项研究中，「木马攻击」指恶意黑客利用内置的隐蔽激活信号向 DNN 系统发起攻击。

该研究介绍了木马攻击的方式，并指出目前木马攻击的防御还处于非常初步的阶段。

木马攻击的瓶颈，以及如何防御？

木马攻击的主要瓶颈有：

1）如何抵御现有木马检测手段的检查；

2）为了保证攻击成功率，大多数攻击方法需要将激活标签放置到特定的位置。如何降低木马攻击对标签位置的要求？

至于木马防御，目前尚未出现一种通用的检测方法，大部分检测方法只能针对某种特定的木马攻击。

新型木马攻击模型：TrojanNet

该研究提出了一种新型木马攻击模型 TrojanNet，TrojanNet 攻击图示如下：

上图中蓝色部分表示目标模型，红色部分表示 TrojanNet。合并层将两个网络的输出结合起来并执行最终预测。a）：当干净的输入馈送至被感染模型时，TrojanNet 输出全零向量（all-zero vector），因而目标模型主导预测结果。b）：添加不同的激活信号可以激活对应的 TrojanNet 神经元，从而将输入进行错误地分类。

TrojanNet 攻击的优势

研究者在多个数据集上测试了 TrojanNet 攻击的效果。

激活信号分类任务

下表 2 展示了在五个代表性数据集上的激活信号分类和去噪性能：

上表第一列表明 TrojanNet 在激活信号分类任务中获得了 100% 的准确率，其他列表明 TrojanNet 在五个数据集上均达到较高的去噪准确率。

攻击效果

研究人员从三个方面分析木马攻击的有效性：1）攻击准确率；2）多标签攻击准确率；3）三种不同攻击方法的时间消耗。

从下表 3 中，我们可以看到 TrojanNet 在四项任务中均实现 100% 的攻击性能，此外，TrojanNet 还可以 100% 的攻击准确率攻击更多目标标签。

表 4 表明，当我们增加被感染标签数量时，BadNet 的攻击准确率大幅下降，而 TrojanNet 在这种情况下攻击准确率始终维持在 100%。

木马检测评估

该研究利用两种木马检测方法，对三种木马攻击方法的稳定性进行了检验。

下图 5 展示了定量评估结果：

下图 6 展示了定性评估结果：

木马攻击的未来探索趋势

神经网络中的木马攻击还处于起步阶段，它的未来发展主要有两个大的方向：一个是探索更多的攻击场景和数据类型，另一个方向更加重要也更有挑战性：木马检测。

除了这两大方向以外，研究人员还可以探索木马攻击在其它场景中的应用。最近一个比较有趣的方向是利用植入木马作为模型的「水印」，从而保护 DNN 模型的知识产权。

论文作者

论文地址：https://arxiv.org/pdf/2006.08131.pdf

GitHub 地址：https://github.com/trx14/TrojanNet

这篇论文的作者是来自德州农工大学计算机科学与工程系的唐瑞祥、杜梦楠、刘宁昊、杨帆和胡侠。

其中第一作者唐瑞祥，高中毕业于湖南师大附中，本科毕业于清华大学自动化系，现为德州农工大学计算机工程系一年级博士生。他曾获全国中学生生物竞赛金牌（Rank 7）、IGEM 国际基因工程大赛银奖、清华大学新生奖学金、清华大学科技创新优秀奖、微软亚洲研究院「明日之星」奖项。研究方向为：可解释神经网络，及其在安全、公平等领域的应用。