上一篇:

本篇為論文第三章。

3 提升效率和效果

在本章中,我們探索使聯邦學習更加高效和有效的挑戰中的各種技術和待解決問題。這包括無數可能的方法,包括:開發更好的最佳化演算法;為不同的client提供不同的模型;使FL場景中的超引數搜尋,結構搜尋和除錯之類的ML任務更容易;提高通訊效率;等等。

實現這些目標的根本挑戰之一是非獨立同分布(non-IID)資料的存在,因此我們首先研究這個問題並著重強調可能的緩解措施。

3。1 聯邦學習中的非獨立同分布資料

獨立同分布的含義通常很清楚,但從許多方面來說,資料可能是非獨立同分布的。在本節中,我們提供了對任何按client來partition的資料集都可能出現的非獨立同分布資料的分類。依賴和不同性的最常見來源是,每個client對應於特定使用者,特定地理位置,和/或特定時間視窗。此分類法與資料集shift(研究訓練分佈和測試分佈之間的差異)的概念緊密對映,這裡,我們考慮每個client的資料分佈之間的差異。

接下來,考慮一個有監督任務,特徵為x,標籤為y。聯邦學習的統計模型涉及兩個取樣級別:找到一個數據點需要首先從可用client集合Q中取樣一個client i,然後從這一client的本地數Pi(x,y)中找到一個樣本(x,y)。

聯邦學習中的非獨立同分布資料通常指的是對於不同client i和j,Pi和Pj之間的不同。然而,還需要注意的是,分佈Q和Pi可能隨時間發生變化,從而引入另一維度的“非獨立同分布”。

完整起見,我們注意到即使是單個裝置上的資料集,如果資料排序的隨機性不充分,例如按時間排序,那麼本地也仍然違背獨立性。例如,影片中的連續幀是高度相關的。client內部的相關性來源通常可以透過本地shuffle來解決。

不相同的client分佈

遵循Hsieh等人的觀點(文獻205),我們首先研究一些常見的資料偏離相同分佈的方式,即對於不同client i和j來說,Pi不等於Pj。為了更精確地描述差異,我們把Pi(x,y)改寫為Pi(y|x)Pi(x)和Pi(x|y)Pi(y)。

特徵分佈傾斜

(共同變數shift):即便P(y|x)相同(即對於任意client i和j,Pi(y|x)和Pj(y|x)相等),邊際分佈Pi(x)也可能因client而異。例如,在手寫字識別領域,寫相同單詞的使用者可能仍然具有不同的筆觸寬度,傾斜度等。

label分佈傾斜

(先驗機率shift):即便P(y|x)相同,邊際分佈Pi(y)也可能因client而異。例如,當client對應特定的地理區域時,label的分佈會因client而異——袋鼠只在澳大利亞或動物園中;一個人的臉只在世界的少數地方出現;對於移動裝置鍵盤,某些人群使用某些表情符號,而其他人群則不使用。

label相同,特徵不同

(概念shift):即便P(y)相同,條件分佈Pi(y|x)也可能因client而異。相同的label y對於不同的client可能有非常不同的特徵x,例如,由於文化差異,天氣影響,生活水平等。例如,世界各地的房屋照片可能有巨大差異,而衣物差異也很大。即使在美國,照片裡冬季停放的汽車也只會在某些地區被大雪覆蓋。同一label在不同時間,以及不同時間尺度上也可能看起來有很大不同:白天與黑夜,季節性影響,自然災害,時尚和設計趨勢等。

特徵相同,label不同

(概念shift):即便P(x)相同,條件分佈Pi(y|x)也可能因client而異。由於個人偏好,訓練資料項中的相同特徵向量可能具有不同的label。 例如,反映情緒的label或者單詞預測有個人和區域差異。

數量傾斜

(不平衡):不同的client持有的資料量可能非常不同。

真實世界中的聯邦學習資料集可能包含這些影響的混合,而對這樣的資料集中的跨client差異的表徵是一個重要的待解決問題。合成非獨立同分布資料集的大多數經驗工作(例如文獻289)都集中在label分佈偏斜上,即非獨立同分布資料集是基於label對一個“平”的現有資料集進行partition而形成的。更好地瞭解現實世界的非獨立同分布資料集的性質將有助於構建可控制但逼真的非獨立同分布資料集,以測試演算法並評估其對client差異程度的適應性。

此外,不同的非獨立同分布機制可能需要開發不同的緩解策略。例如,對於特徵分佈傾斜,由於假定P(y|x)是相同的,所以至少在原則上指明瞭該問題,訓練學習P(y|x)的唯一全域性模型可能是合適的。當相同特徵映對應於不同client上的不同label時,某種形式的個性化(見3。3節)對於學習真正的標記函式可能至關重要。

獨立性的違背

在訓練過程中只要分佈Q發生變化,就會違背獨立性。 一個典型的例子是在cross-device聯邦學習中,裝置通常需要滿足資格要求才能參與訓練(見第1。1。2節)。裝置通常在當地時間晚上滿足這些要求(此時它們更可能在充電,連線了免費wi-fi,並處於空閒狀態),因此裝置可用性可能存在明顯的晝夜模式。此外,由於當地時間與經度直接相關,這在資料來源中引入了強烈的地理偏差。Eichner等人(文獻151)描述了這個問題和一些緩解策略,但是還有許多待解決的問題。

資料集shift

最後,我們注意到分佈Q和P的時間依賴性可能會引入經典意義上的資料集shift(訓練分佈與測試分佈之間的差異)。此外,其他條件可能會使有資格訓練聯邦模型的client集合與該模型將要部署到client集合不同。例如,訓練可能比預測要求裝置有更大的記憶體。第6章將更深入地探討這些問題。把解決資料集shift的技術應用於聯邦學習又是一個有趣的待解決問題。

3。1。1 處理非獨立同分布資料的策略

聯邦學習的最初目標,即在各client資料的並集上訓練唯一全域性模型,由於非獨立同分布資料而變得更加困難。一種自然的方法是修改現有演算法(例如透過不同的超引數選擇)或開發新演算法,以便更有效地實現這一目標。3。2。2節中考慮了這一方法。

對於某些應用,可能透過擴充資料使跨client的資料更加相似。 一種方法是建立一個可以全域性共享的小資料集。該資料集可能來自可公開獲取的替代資料來源,與client的資料無關,並對隱私不敏感,或者遵循Wang等人觀點對原始資料進行提煉(文獻404)。

client目標函式的異質性使得如何制定目標函式的問題變得更加重要——不再明確將所有樣本同等對待是否有意義。替代方案包括限制來自任何一個client的資料貢獻(這對隱私也很重要,見第4節),並在client之間引入其他公平概念;見第6章的討論。

但是,如果我們有能力基於每臺裝置上的本地資料進行訓練(這對於聯邦學習全域性模型是必需的),那麼訓練唯一的全域性模型是正確的目標嗎?在許多情況下,最好使用單一模型,例如,為了向沒有資料的client提供模型,或者允許在部署之前進行手動驗證和質量保證。但是,由於可以進行本地訓練,因此每個client都可以擁有定製的模型。這種方法幾乎可以將非獨立同分布問題從bug轉變為feature——由於每個client都有自己的模型,client的特性有效地引數化了該模型,從而使某些無法控制但退化的非獨立同分布變得不重要。例如,如果對於每個i,Pi(y)都僅有單個label,那麼找到高精度全域性模型可能會非常具有挑戰性(特別是如果x相對沒有資訊性的話),但是訓練高精度區域性模型是微不足道的(只需要預測一個常量)。在第3。3節將深入研究這種多模型方法。 除了解決不相同的client分佈外,使用多模型還可以解決由於client可用性變化而違背獨立性的問題。例如,Eichner等人的方法(文獻151)使用單個訓練執行,但是平均不同的迭代,以便基於client的時區/經度提供不同的模型用於預測。

3。2 用於聯邦學習的最佳化演算法

在典型的聯邦學習任務中,目標是學習一個唯一的全域性模型,該模型將整個訓練集(即所有client的資料的並集)上的經驗風險函式最小化。聯邦最佳化演算法與標準分散式訓練方法之間的主要區別是需要解決表1中的特性——對於最佳化來說,非獨立同分布、不平衡的資料,有限的通訊頻寬,以及不可靠和有限的裝置可用性尤其重要。

裝置總數巨大的FL設定(例如,跨移動裝置)需要每輪僅需要少數client參與(client取樣)的演算法。此外,在給定模型的訓練中,每個裝置可能只參與不超過一次,因此無狀態演算法是必要的。這排除了在資料中心場景中非常有效的各種方法的直接應用,例如類似ADMM的有狀態最佳化演算法,以及根據前幾輪的殘餘壓縮誤差來修改更新的有狀態壓縮策略。

聯邦學習演算法的另一個重要的實際考慮因素是與其他技術的可組合性。 最佳化演算法並非在生產部署中獨立執行,而需要與其他技術結合使用,例如密碼安全聚合協議(第4。2。1節),差分隱私(DP)(第4。2。2節),以及建模和更新壓縮( 3。5節)。如1。1。2節所述,這些技術中的許多技術都可以應用於基元,例如“在選定client上求和”以及“廣播至選定client”,因此,以這些基元的形式表達最佳化演算法能夠將關注點分離,但是也可能排除某些技術,例如非同步更新。

聯邦學習最常用的最佳化方法之一是聯邦平均演算法(文獻289),它是本地更新或並行SGD的一種適應。這裡,每個client在本地執行一定數量的SGD步驟,然後對更新好的本地模型進行平均,從而在編排伺服器上生成更新好的全域性模型。 虛擬碼在演算法1中給出。

3 提升聯邦學習的效率和效果

表4:用於討論包括聯邦平均在內的FL演算法的符號。

3 提升聯邦學習的效率和效果

演算法1:聯邦平均(本地SGD),當全部client的資料量相等時。

執行本地更新並減少與中央伺服器的通訊解決了資料區域性性約束和移動裝置client有限的通訊能力帶來的核心挑戰。但是,從最佳化理論的角度來看,這一系列演算法也帶來了一些新的演算法挑戰。在第3。2節中,我們分別針對在client之間進行獨立同分布和非獨立同分布資料分發的情況,討論了聯邦最佳化演算法的最新進展和挑戰。專門針對聯邦學習設定特性的新演算法的開發仍然是一個重要的待解決問題。

3。2。1 IID(獨立同分布)資料集的最佳化演算法和收斂速度

儘管可以針對要最佳化的每個client的函式做出各種不同的假設,但最基本的分歧在於假設資料為IID還是非IID。正式地,在client上擁有IID資料意味著,用於client本地更新的每個mini-batch的資料都在統計意義上與整個訓練集(client所有本地資料集的並集)均勻抽取(有放回)的樣本相同。由於client獨立收集自己的訓練資料,資料的大小和分佈各不相同,並且這些資料未與其他客戶端或中央節點共享,IID假設顯然在實踐中幾乎不成立。但是,此假設極大簡化了聯邦最佳化演算法的理論收斂性分析,並建立了一個baseline來理解非IID資料對最佳化率的影響。因此,自然而然的第一步瞭解IID資料情況下的最佳化演算法。

形式上,對於IID設定,讓我們標準化隨機最佳化問題:

3 提升聯邦學習的效率和效果

正如伍德沃思等人(文獻411,4。4節)的研究,我們假設一個間歇通訊模型,其中M個無狀態client參與T輪的每一輪,並且在每一輪中,每個client都可以基於從P中IID取樣的K個樣本(例如minibatch)z1,…,zk計算梯度(可能使用這些來執行順序步驟)。在IID資料設定中,client是可互換的,我們可以不失一般性地假設M=N。表4總結了本節中使用的表示法。

關於f的不同假設將產生不同的保證。我們將首先討論凸設定,然後再討論非凸問題的結果。

凸問題的baseline和state-of-the-art

在本節中,我們假設隨機梯度的方差以σ的平方為界,回顧H-smooth,凸函式(但不一定是強凸函式)的收斂結果。

聯邦學習中的另一個重要設計引數是模型聚合方法,該方法用於透過選定client的更新來更新全域性模型。在最初的聯邦學習論文中,McMahan等人(文獻289)提議對區域性模型進行加權平均,按照區域性資料集的大小比例。 對於獨立同分布資料,假定每個client都有一個無限大的資料集,這可以簡化為對本地模型進行簡單的平均。但是,尚不清楚此聚合方法是否會導致最快的錯誤收斂。

3。2。2 Non-IID(非獨立同分布)資料集的最佳化演算法和收斂速度

3。3 多工學習,個性化,以及元學習

在本節中,我們考慮各種“多模型”方法——在預測時對不同client有效使用不同模型的技術。當面對非IID資料時,這些技術尤其重要(3。1節),因為它們甚至可能優於能實現的最好的全域性模型。我們注意到,個性化也已經在完全分散的設定中進行了研究(文獻392,54,431,22),此時訓練個體模型尤為自然。

3。3。1 透過特製實現個性化

本節的其餘部分專門考慮了使不同client使用不同模型引數(權重)進行預測的技術。但是,在某些應用中,只需將client和上下文特徵新增到模型中,即可取得類似的效果。例如Hard等人(文獻196)用於單詞預測的語言模型。不同的client很可能使用不同的語言,實際上,模型引數的裝置個性化已為該問題帶來了顯著改善(文獻403)。但是,一種補充方法可能是訓練一個聯邦模型,該模型不僅要輸入到目前為止使用者輸入的單詞,還要輸入很多其他的使用者和上下文特徵——該使用者經常使用哪些單詞?他們當前正在使用什麼app?如果他們正在聊天,他們之前曾向此人傳送過哪些訊息?適當地加以特徵化,這樣的輸入可以允許共享的全域性模型產生高度個性化的預測結果。但是,很大程度上是因為很少有公共資料集包含此類輔助特徵,開發能有效合併不同任務的上下文資訊的模型結構仍然是一個重要的開放問題,有可能極大地提高FL模型的實用性。

3。3。2 多工學習

如果人們將每個client的本地問題(本地資料集上的學習問題)視為一項單獨的任務(而不是一個被partition的資料集的一個分片),則多工學習(文獻433)的技術立即變得有意義起來。 值得注意的是,史密斯等人(文獻[362)介紹了用於多工聯邦學習的MOCHA演算法,直接解決了通訊效率,散亂性和容錯性的挑戰。在多工學習中,訓練過程的結果是每個任務一個模型。 因此,大多數多工學習演算法都假定所有client(任務)都參加每一輪訓練,並且由於每個client都訓練一個單獨模型,因此還需要有狀態的client。這使得此類技術與cross-silo FL應用相關,但較難應用於cross-device場景中。

另一種方法是重新考慮client(本地資料集)與學習任務(要訓練的模型)之間的關係,觀察到每個client在單個全域性模型和多個不同模型之間是否存在點。例如,可能可以應用多工學習的技術(以及其他方法例如個性化,接下來會討論),其中我們將“任務”作client的子集,也許是明確選擇的(例如基於地理區域,或者裝置、使用者的特徵),或者也許基於在client上學習到的cluster或學習到的圖的聯通部分(文獻431)。 這種演算法的發展是一個重要的開放問題。 4。4。4節討論瞭如何解決稀疏聯邦學習問題(例如在此類多工問題中自然產生的問題),而又不洩漏每個client屬於哪個client子集(即任務)。

3。3。3 本地細調和元學習

區域性細調指的是從聯邦訓練單個模型開始,然後將該模型部署到所有client的技術,在模型預測之前,使用本地資料集額外訓練來個性化該模型。 這種方法自然地整合到聯合學習中模型的典型生命週期中(第1。1。1節)。 全域性模型的訓練仍然可以在每輪(例如100個)僅取樣少數client進行;向所有client(例如數百萬個)broadcast全域性模型僅發生一次,即模型部署時。唯一的區別是,在client上用模型進行預測之前,需要進行一步最終的訓練過程,從而將模型用本地資料集個性化。

給定一個表現良好的全域性模型,對其進行個性化的最佳方法是什麼? 在非聯邦學習中,研究人員經常使用細調,遷移學習,領域自適應(文獻284、115、56),或透過與個體本地模型進行插值。當然,用於這種插值的精確技術是關鍵,在聯邦學習背景下確定其相應的學習保證很重要。 此外,這些技術通常假設僅有一對域(source和target),因此可能不適合聯邦學習的一些更豐富的結構。

研究個性化和非IID資料的一種方法是透過與元學習的聯絡,該方法已經成為模型適應的流行設定。在標準的learning-to-learn(LTL)設定中(文獻52),用於學習學習演算法(例如,透過找到假設空間的良好限制)的任務,樣本具有元分佈。 實際上,這與第3。1節中討論的統計設定非常匹配,在這裡我們從Q中取樣一個client(任務),然後從Pi中取樣該client(任務)的資料。

最近,開發了一類被稱為模型不可知元學習(MAML)的演算法,可以元學習全域性模型,該模型可以作為學習適合於給定任務的良好模型的起點,僅使用幾個本地梯度步驟(文獻165)。最值得注意的是,流行的Reptile演算法(文獻308)的訓練階段與聯邦平均(文獻289)密切相關——Reptile允許伺服器學習率,並假設所有client具有相同數量的資料,但其他方面是相同的。Khodak等人(文獻234)和江等人(文獻217)探索了FL和MAML之間的聯絡,並展示了為何MAML設定是與FL個性化建模相關的框架。在文獻260中研究了具有差分隱私的其他聯絡。

將FL和MAML的思想相結合的總體方向是相對較新的,存在許多開放性問題:

針對監督任務的MAML演算法的評估主要集中在合成影象分類問題(文獻252,331)上,這種問題可以透過對各類影象進行下采樣來構造無限多的人工任務。由用於模擬FL實驗的現有資料集建模的FL問題(附錄A)可以作為MAML演算法的現實benchmark問題。

觀察到的全域性準確性和個性化準確性之間的gap(文獻217)提供了一個很好的論據,即個性化對FL至關重要。但是,現有的研究都沒有清楚制定衡量個性化表現的綜合指標;例如,全部client的小提升是否比部分client的大提升更好?相關討論請參見第6章。

江等人(文獻217)強調了一個事實,即具有相同結構和效果但經過不同訓練的模型可能有非常不同的個性化能力。 尤其是,以最大化全域性效果為目標訓練的模型實際上可能會降低該模型進行後續個性化的能力。瞭解造成這種情況的根本原因是一個與FL和更廣泛的ML社群相關的問題。

在文獻234,217,260提到的多工/LTL框架中,已經開始研究包括個性化和隱私在內的幾個具有挑戰性的FL主題。是否還可以透過這種方式(例如作為終身學習中的問題)來分析其他問題,例如概念漂移(文獻359)?

非引數傳輸LTL演算法(例如文獻363中的ProtoNets)是否可以用於FL?

3。3。4 什麼時候全域性FL訓練模型更好?

聯邦學習可以做什麼在一臺裝置上本地訓練無法完成事情?當本地資料集很小且資料為IID時,FL顯然具有優勢,實際上,聯邦學習的實際應用(文獻420、196、98)受益於跨裝置訓練單個模型。另一方面,考慮到病態的非IID分佈(例如,Pi(y|x)在客戶端之間不同),區域性模型會好很多。因此,一個自然的理論問題是確定在什麼條件下共享的全域性模型比獨立的單裝置模型更好。假設我們對每個client k,使用該client的可用的大小為mk的樣本訓練模型hk。我們能否保證透過聯邦學習學習的模型hFL在用於client k時至少與hk一樣準確嗎?我們能否量化透過聯邦學習可以預期獲得多少改進?以及我們是否可以制定理論上至少與兩個自然基準(hk和hFL)的效能相匹配的個性化策略?

這些問題中的幾個與先前關於多源頭適應和不可知聯邦學習的工作有關(文獻284,285,203,303)。這些問題的難度取決於資料如何在各方之間分配。 例如,如果資料是垂直partition的,則每一方都維護公共樣本的不同feature的私有資料,則這些問題可能需要在聯邦學習任務中解決資料鏈接問題(文獻108)。除了隱私保護地實現資料鏈接的最終技術稅,該任務本身在現實世界中恰好容易產生噪音(文獻347),只有稀疏結果解決了其對模型訓練的影響(文獻198)。 可以在有監督的學習中使用損失分解技巧來緩解垂直partition假設本身,但是實際收益取決於資料的分佈和參與方的數量(文獻320)。

3。4 為聯邦學習改編ML工作流

當將標準機器學習工作流和pipeline(包括資料擴充,特徵工程,神經結構設計,模型選擇,超引數最佳化,以及除錯)適應分散的資料集和資源受限的移動裝置時,會遇到許多挑戰。 我們在下面討論其中一些挑戰。

3。4。1 超引數調整

在資源受限的移動裝置上使用不同的超引數執行多輪訓練可能會受到限制。對於小型裝置,這可能會導致過度使用有限的通訊和計算資源。但是,最近的深度神經網路嚴重依賴於有關神經網路的結構,正則化和最佳化的多種超引數選擇。對於大型模型和大規模的裝置資料集,評估可能會很昂貴。 在AutoML(文獻339,237,241)框架下,超引數最佳化(HPO)歷史悠久,但它主要涉及如何提高模型的準確性(文獻59,364,321,159),而不是移動裝置的通訊和計算效率。因此,我們希望進一步的研究應考慮在聯邦學習背景下開發有效的超引數最佳化解決方案。

除了用於解決超引數最佳化問題的通用方法外,在訓練空間中,容易調參的最佳化演算法的開發是一個主要的開放領域。集中式訓練已經需要調整學習率,momentum,批大小和正則化等引數。聯邦學習可能會增加更多的超引數——聚合/全域性模型更新規則,和本地client最佳化程式,每輪選擇的client數量,每輪的本地步數,更新壓縮演算法的配置,等等的單獨調參。除了更高維度的搜尋空間之外,聯合學習通常還需要更長的掛鐘訓練時間和有限的計算資源。這些挑戰可以透過對超引數設定具有魯棒性的最佳化演算法(相同的超引數值可用於許多不同的真實資料集和結構)以及自適應或自調整演算法來解決(文獻381,75)。

3。4。2 神經結構設計

我們建議研究人員和工程師在聯合學習設定中探索神經結構搜尋(NAS)。這是由當前應用預定義深度學習模型的缺點引起的:當模型開發人員看不到使用者產生的資料時,深度學習模型的預定義結構可能不是最佳的設計選擇。例如,神經體系結構可能具有用於特定資料集的某些冗餘元件,這可能導致裝置上不必要的計算;對於非IID資料分佈,可能會有更好的結構設計。第3。3節中討論的個性化方法仍在所有client之間共享相同的模型結構。NAS的最新進展(文獻332、154、333、55、322、273、417、154、279)提供瞭解決這些缺陷的可能方法。NAS有三種主要方法,它們利用進化演算法,強化學習或梯度下降來搜尋特定資料集上特定任務的最佳架構。其中,基於梯度的方法利用有效的梯度反向傳播和權重共享,將結構搜尋過程從3000多GPU天減少到只有1GPU天。最近發表的另一篇有趣的論文涉及權重不可知神經網路(文獻170),聲稱僅僅神經網路架構,無需學習任何權重引數,就可以為給定任務生成解決方案。如果該技術得到進一步發展並得到廣泛使用,則可以將其應用於聯邦學習,而無需在裝置之間進行協作訓練。儘管這些方法尚未針對分散式設定(例如聯邦學習)開發,但將它們都可以轉換為聯邦設定。因此,我們認為在聯邦學習設定中針對全域性或個性化模型的神經結構搜尋(NAS)是有希望的研究方向。

3。4。3 FL的除錯和可解釋性

儘管在模型的聯邦訓練方面已經取得了實質性進展,但這只是完整的ML工作流的一部分。經驗豐富的建模人員通常會直接檢查資料的子集,包括基本的完整性檢查,除錯錯誤分類,發現異常值,手動標記樣本label,或檢測訓練集中的偏差。 開發隱私保護技術來解決分散資料上的此類問題是一個主要的開放問題。最近,Augenstein等人(文獻32)提出了聯邦學習訓練的差分隱私生成模型(包括GAN)的使用,來回答此類問題。但是,仍然存在許多懸而未決的問題(請參見文獻32中的討論),尤其是改進FL DP生成模型保真度的演算法的開發。

3。5 通訊與壓縮

現在人們已經非常理解,通訊可能是聯邦學習的主要瓶頸,因為無線連線和其他終端使用者網路連線的執行速率通常低於資料中心內或資料中心之間的連線,並且可能昂貴且不可靠。最近,這引起了對降低聯邦學習通訊頻寬的極大興趣。將聯邦平均與透過稀疏化和/或量化將模型更新縮減到少量位元組相結合的方法,已證明可顯著降低通訊成本,並且對訓練精度的影響最小(文獻245)。但是,尚不清楚是否可以進一步降低通訊成本,以及這些方法中的任何一種或其組合是否可以接近在聯邦學習中在通訊和準確性之間提供最佳折衷。在理論統計中,表徵準確性和通訊之間的這種基本權衡最近引起了關注(文獻434、81、195、11、47、380)。這些工作表徵了在通訊限制下用於分散式統計估計和學習的最佳極小率(optimal minimax rates)。但是,很難從這些理論工作中得出減少通訊頻寬的具體見解,因為它們通常會忽略最佳化演算法的影響。利用這種統計方法來指導實際訓練方法仍然是一個開放的方向。

壓縮目標

由於當前裝置在計算,記憶體和通訊方面的資源有限,因此存在一些具有實用價值的不同壓縮目標。

(a)梯度壓縮——減小從client到伺服器的用於更新全域性模型的通訊物件的大小。

(b)模型broadcast壓縮——減小從伺服器broadcast到client的模型的大小,client從該模型開始本地訓練。

(c)減少本地計算——修改整體訓練演算法,以使本地訓練過程在計算上更加高效。

這些目標在大多數情況下是互補的。其中a對總執行時間具有最顯著的實際影響。這是因為client的連線通常上傳頻寬比下載頻寬慢,因此與b相比收益更大,還因為在許多client上進行平均使得能夠實現效果更顯著的有失真壓縮方案。通常c將透過特定方法與a和b一起實現。

現有的許多文獻都適用於目標a(文獻245、376、244、20、204)。b對收斂的總體影響直到最近才被研究;在文獻231中提出了有限的分析。Caldas等人提出了一種方法,該方法透過限制所需的模型更新,從而client只需要可以使用模型變數的特定子矩陣,從而共同解決了a,b和c的所有問題(文獻87)。

在跨裝置FL中,演算法通常不能假定client上保留了任何狀態(表1)。但是,在相同client反覆參與的cross-silo FL設定中,通常不會出現此約束。因此,與錯誤校正相關的更多想法,例如文獻272、346、396、380、228、371,在這種情況下是相關的,其中許多都可以解決a和b。

另一個目標是修改訓練過程,以使最終模型更緊湊或更有效地進行預測。這個主題在更廣泛的ML社群中得到了很多關注(文獻194,120,436,270,312),但是這些方法或者沒有直接對映到聯邦學習,或者使訓練過程更加複雜,因而難以採納。同時產生緊湊最終模型的研究,在解決了上述三個目標的同時,也具有產生實際影響的巨大潛力。

對於梯度壓縮,一些現有的工作(文獻376)以minimax觀念來表徵最壞的情況。然而,通常在資訊理論中,壓縮保證與具體樣本有關,並且取決於基礎分佈的熵(文獻122)。 換句話說,如果資料易於壓縮,則可以證明它們能被大幅壓縮。 有趣的是,在梯度壓縮中是否有類似的樣本相關的結果?同樣,最近的工作表明,以資料相關的方式學習壓縮方案可以在資料壓縮(文獻412)和梯度壓縮的情況下顯著提高壓縮率。 因此,值得在聯邦設定中評估這些資料相關的壓縮方案(文獻171)。

與差分隱私和安全聚合的相容性

聯邦學習中使用的許多演算法,例如安全聚合(文獻72)和新增噪聲以實現差分隱私的機制(文獻7,290),都沒有設計為與壓縮通訊或者量化通訊配合使用。例如,Bonawitz等人對Secure Aggregation協議的直接應用(文獻73)對於每個標量,需要額外的O(log M)位元組的通訊,其中M是累計client數量,當M大時,這可能會使更新的顯著量化無效(儘管文獻75給出了一種更有效的方法)。現有的噪聲新增機制假定在每個client上新增實值高斯或拉普拉斯噪聲,而這與用於減少通訊的標準量化方法不相容。我們注意到,最近的一些工作允許有偏估計,並且可以很好地處理拉普拉斯噪聲(文獻371),但是由於它們破壞了訓練輪之間的獨立性,因此不會提供差分隱私。在新增離散噪聲方面有一些工作(文獻13),但是關於這種方法是否最佳沒有見解。因此,與Secure Aggregation相容的壓縮方法的聯合設計,或者可以獲得差分隱私保證的壓縮方法,是一個有價值的開放問題。

Wireless-FL協同設計

聯邦學習的現有文獻通常忽略了模型訓練過程中無線通道動力學的影響,這有可能破壞訓練延遲,從而破壞整個生產系統的可靠性。特別是,無線干擾,嘈雜的通道和通道波動會嚴重阻礙伺服器與client之間的資訊交換(或在完全分散的情況下,直接在各個client之間的資訊交換,請參閱第2。1節)。對於關鍵任務應用而言,這是一項主要挑戰,其根源在於減少等待時間和增強可靠性。解決這一挑戰的潛在解決方案包括聯邦精餾(FD),在該方法中,worker交換模型輸出引數(logit)而不是模型引數(梯度和權重),並透過適當的通訊和計算資源來最佳化worker的排程策略(文獻215、316、344)。另一種解決方案是利用無線通道的獨特特性(例如broadcast和疊加)作為自然資料聚合器,其中由不同worker同時傳送的模擬波在伺服器處疊加並由無線通道係數加權(文獻8)。這樣可以在伺服器上更快地進行模型聚合,並且可以將訓練速度提高多達worker數量的一個因數。這與傳統的正交頻分複用(OFDM)正規化形成鮮明對比,在傳統的正交頻分複用(OFDM)正規化中,worker將模型上傳到正交頻率上,而正交頻率的效能會隨著worker數量的增加而降低。

3。6 在更多型別的ML問題和模型上應用