隨著機器學習技術,尤其是深度學習技術從傳統的影象識別、自然語言處理等研究領域,逐步擴充套件到更多與現實世界結合緊密的應用場景(如資訊保安、金融風控、醫療生物),近年來機器學習在真實對抗環境下的安全問題開始引起學界和工業界的廣泛關注。

由於機器學習安全研究處於早期階段,現有工作主要集中在對機器學習系統的各階段和各環節進行漏洞分析,並在真實應用平臺上實現並評估對應的安全威脅。對抗樣本(adversarial example)、資料投毒(data poisoning)、後門攻擊(backdoor attack)、成員推斷(membership inference)、屬性推斷(property/attribute inference)、模型反演(model inversion)等多數針對機器學習的已知攻擊模式至今仍未得到有效的防禦,而其中一些安全隱患(如對抗樣本和成員推斷)或已被指出與深度學習模型的底層機制和演算法特性密切相關,為未來防禦側研究帶來了空前的挑戰。同時,伴隨著近兩年開放式網路下分散式學習這一模式的興起(如聯邦學習(federated learning)、共享學習(collaborative learning)等),研究者也開始關注分散式學習系統所特有的安全威脅(例如,拜占庭攻擊(Byzantine attack)和資料重建攻擊(data reconstruction attack)),並引入了魯棒統計學(robust statistics)、多方安全計算(multi-party secure computation)、差分隱私(differential privacy)、可信執行環境(trusted execution environment; TEE)等多種處於交叉領域的經典技術在機器學習的語境下設計防禦機制。

未來方向如:(1)從機器學習的底層機理出發進行模型安全性分析和模型增強、(2)借鑑軟硬體安全、網路安全等交叉領域的研究方法和技術手段進行攻防分析,將可能具有廣闊的前景。

推薦論文1 Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning

在此之前,針對神經網路模型的攻擊可以根據攻擊目標大致分為2類:(1)透過攻擊使目標模型表現變差;(2)透過攻擊竊取目標模型或其訓練集的一些隱私資訊。這篇文章透過引入系統領域的後門攻擊概念提出了一個全新的攻擊目標:透過攻擊給目標模型“開後門”,使目標模型在一些特定情境中的異常行為使攻擊者獲利(例如,攻擊者在一個基於深度學習的門禁系統中可透過觸發模型後門被誤判為一個有準入許可權的工作人員)。

本文認為一個有許可權訪問目標神經網路模型訓練集的後門攻擊者可以透過將自己在本地生成的後門樣本注入目標模型訓練集,從而使目標模型在訓練時學習到這些後門樣本中的trigger的特徵並學習如何基於這些trigger做出決策,這樣完成訓練的目標模型在再次接觸trigger時會按照攻擊者的期望做出決策,攻擊者便可從中獲利。

本文在圖片識別領域實驗了下述三個簡單的trigger生成策略來證明後門攻擊的有效性:

1。 將圖片本身作為trigger,目標模型在處理這一特定圖片時會按照攻擊者的期望決策。

2。 設計一個特定位置上的水印(watermark)作為trigger,目標模型在處理特定位置上的水印與trigger一致的圖片時會按照攻擊者的期望決策。這也成為後續研究的主流研究方向。

3。 設計一個實體作為trigger,目標模型在處理包含這一特定實體的圖片時會按照攻擊者的期望決策。

本文作為早期幾篇經典的後門攻擊工作,它反映了後門攻擊的兩大特徵:(1)隱蔽性。後門攻擊對目標模型在主任務上的表現影響極小,模型所有者很難察覺後門攻擊的存在;(2)高效性。後門攻擊的攻擊成功率接近100%,同時需要注入目標模型訓練集的汙染樣本量明顯少於一般的對抗性攻擊和汙染攻擊。後續研究均表明後門攻擊已經成為深度學習實際落地中的一大安全威脅。

推薦論文2 Byzantine-Tolerant Machine Learning

為了解決資料規模增大與模型複雜度提高導致的訓練成本提升問題,研究者們將分散式框架引入了機器學習領域中,但這引發了另一個問題:如果分散式框架中存在Byzantine worker,它們會透過故意傳送惡意資訊來破壞模型的正常訓練,那麼最終生成的模型是否還能保證質量,或者說在怎樣的環境條件下才能保證使用分散式框架訓練生成的模型的魯棒性。

本文考慮了經典的分散式學習框架,即多個worker分別在各自本地的模型上進行訓練,並週期性地將梯度傳送給server,server使用聚合演算法聚合所有梯度並利用聚合結果更新server上的全域性模型。當分散式訓練過程完成後,server上的全域性模型可被應用於下游任務。然而,本文首次發現,如果不考慮防禦策略直接使用算術平均法作為聚合演算法的話,攻擊者可以在只控制單個worker的情況下實現攻擊甚至是指定攻擊方向的攻擊。

為了實現有效的防禦,本文注意到如果各個worker使用的訓練集獨立同分布,那麼正常worker傳送的梯度之間的範數距離應該會明顯小於正常worker與Byzantine worker傳送的梯度之間的範數距離。本文基於這一原則設計了Byzantine魯棒聚合演算法Krum:它放棄了算術平均法採取的“多數表決”思想,將梯度與其它梯度的範數距離的和作為該梯度的得分,然後選取得分最低,即“和大多數梯度都相似”的梯度作為聚合梯度。本文從理論角度證明了Krum不會影響模型的正常收斂,並且在攻擊者控制worker的佔比不超過50%的情況下能保證模型的魯棒性。目前,Krum在分散式學習中已成為一種重要的魯棒聚合演算法。作為早期的Byzantine防禦研究,該工作提出的Krum演算法在一定程度上緩解了Byzantine攻擊對分散式學習系統的安全威脅,並引領了後續一系列的分散式學習及聯邦學習中的拜占庭攻防研究。

推薦人:潘旭東、肖起凡

其他相關論文推薦:

1。 Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning。 Xinyun Chen, Chang Liu, Bo Li, Kimberly Lu, Dawn Song。 In Arxiv (2017)。

2。 Byzantine-Tolerant Machine Learning。 Peva Blanchard, El Mahdi El Mhamdi, Rachid Guerraoui, Julien Stainer。 In NeurIPS (2017)。

3。 Intriguing properties of neural networks。 Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus。 In Arxiv (2013)。

4。 Explaining and harnessing adversarial examples。 Ian J。 Goodfellow, Jonathon Shlens & Christian Szegedy。 In ICLR (2015)。

5。 Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks。 Ali Shafahi, W。 Ronny Huang, Mahyar Najibi, Octavian Suciu, Christoph Studer, Tudor Dumitras, Tom Goldstein。 In NeurIPS (2018)。

6。 Membership Inference Attacks Against Machine Learning Models。 Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov。 In Oakland (2017)。

7。 Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures。 Matt Fredrikson, Somesh Jha, Thomas Ristenpart。 In CCS (2015)。

8。 Property Inference Attacks on Fully Connected Neural Networks using Permutation Invariant Representations。 Karan Ganju, Qi Wang, Wei Yang, Carl A。 Gunter, Nikita Borisov。 In CCS (2018)。

9。 Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples。 Anish Athalye, Nicholas Carlini, David Wagner。 In ICML (2018)。

10。 LEMNA: Explaining Deep Learning based Security Applications。 Wenbo Guo, Dongliang Mu, Jun Xu, Purui Su, Gang Wang, Xinyu Xing。 In CCS (2018)。

11。 Towards Data Poisoning Attack against Knowledge Graph Embedding。 Hengtong Zhang, Tianhang Zheng, Jing Gao, Chenglin Miao, Lu Su, Yaliang Li, Kui Ren。 In IJCAI (2019)。

12。 Neural Network Inversion in Adversarial Setting via Background Knowledge Alignment。 Ziqi Yang, Jiyi Zhang, Ee-Chien Chang, Zhenkai Liang。 In CCS (2019)。

13。 Adversarial Attack on Graph Structured Data。 Hanjun Dai, Hui Li, Tian Tian, Xin Huang, Lin Wang, Jun Zhu, Le Song。 In ICML (2018)。

14。 Adversarial Spheres。 Justin Gilmer, Luke Metz, Fartash Faghri, Samuel S。 Schoenholz, Maithra Raghu, Martin Wattenberg, & Ian Goodfellow。 In ICLR (2018)。

15。 Practical Data Poisoning Attack against Next-Item Recommendation。 Hengtong Zhang, Yaliang Li, Bolin Ding, Jing Gao。 In WWW (2020)。

16。 Denoising Diffusion Probabilistic Models。 Jonathan Ho, Ajay Jain, Pieter Abbeel。 In NIPS (2020)。

如需轉載請註明出處,侵權必究。