针对云端AI服务的攻击和防护

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

技术创新，变革未来

云端AI 服务日益风行

典型收益：

⚫不用在端上部署昂贵的GPU ⚫充分利用云端GPU 集群的资源⚫降低开发者使用AI 的门槛⚫模型升级便利

⚫

便于收集bad case

，加速模型优化

典型的云端AI 服务：

⚫CV 类，比如图像分类、图像审核、人脸识别

⚫语音类，比如语音识别、语音合成

⚫NLP 类，比如文本情感分析、文本内容过滤

典型的调用者：⚫IoT 设备⚫开发者

⚫第三方应用

攻击云端图片分类服务

Cloud-based

Image Classification

Service

+perturbation

Original Image

Adversarial Image

Class: Cat Score:0.99

Black-box Attack

Class:Toaster Score:0.99

A FALSE sense of security !

攻击云端AI 服务困难重重

未知的模型

未知的预处理环节

未知的网络结构未知的网络权重参数

缩放、去燥、编码转化等

攻击者只能访问API 服务，访问的QPS

和次数也受限

(Img from:

/a/215163641_115479)

似乎云端的AI 服务是很安全的！

Hossein Hosseini, Baicen Xiao, and Radha Poovendran. 2017. Google’s Cloud Vision API is Not

通过叠加高斯或者椒盐噪声，也可以有攻击效果

Hossein Hosseini, Baicen Xiao, and Radha Poovendran. 2017. Google’s Cloud Vision API is Not

通过叠加高斯或者椒盐噪声，也可以有攻击效果

暴力搜索的方式

（W,H,C）=(224,224,3)

RGB Format

搜索空间大小为：224*224*3*256

=38,535,168

!!!!

Andrew Ilyas, Logan Engstrom, Anish Athalye, and Jessy Lin. Query-efficient black-box adversarial examples (superceded). arXiv preprint arXiv:1712.07113,2017.

优化检索策略后，攻击成功率达95.5%，平均

查询次数为104342

语义分割可以充分利用图像的原有信息

Subject-based Local Search (SBLS)

Attack.

Xurong Li, Shouling Ji, Meng Han, Juntao Ji, Zhenyu Ren, Yushan Liu, Chunming Wu. Adversarial Examples Versus

Cloud-based Detectors: A Black-box Empirical Study

攻击Google 的图像分类服务，成功率达

到98%，平均查询次数为576

迁移攻击

对抗攻击可以在模型之间传递，针对模型A白盒生

成的对抗样本，也有可能可以对模型B奏效。A和B

结构越接近，攻击成功率越高

The cell (i, j) indicates the accuracy of the adversarial images generated for model i (row) evaluated over model j(column).

Yanpei Liu, Xinyun Chen, Liu Chang, and Dawn Song. Delving into transferable adversarial examples and black-box attacks.2016.

基于模型指纹的攻击

百度安全在Blackhat Asia 2019上提出模型指纹攻击

The Cost of Learning from the Best:

How Prior Knowledge Weakens the Security of Deep Neural

迁移学习在CV 领域被广泛使用，比如使用基于

ImageNet

预训练的经典模型继续训练

显然，如果可以欺骗第K 层，就可以欺骗整个模型

第K层模型的问题，可以转换为让第K层的每个神经元的输出都非常接近，即标

准差尽可能小

遍历常见的经典模型，找出置信度下降最多的的情况，对应的经典模型疑似为对应云平台使用的预训练模型。这一过程称为指纹嗅探。

以攻击某云平台的目标检测API为例，在每张图片查询100次限制下，非定向攻

击成功率达到了86%

Step1:通过少量样本，查询API ，在本

地训练出一个替身模型

Step2:

白盒攻击替身模型，生成对抗

样本

Step3:用生成的对抗样本攻击云端Step 1

Step 2

Step 3

百度安全在HITB +CyberWeek 提出了快速特征图的PGD 攻击算法

(FFL-PGD)Top1 vs. network. Top-1 validation accuracies for top scoring single-model architectures

(Img from https:///abs/1605.07678v1)

选择特征提取能力强的经典模型作为替身模型更加高效的替身学习算法

传统替身学习算法

我们的