關於深度學習你必須知道的幾個資訊理論概念

原標題 | Must know Information Theory concepts in Deep Learning (AI)

作者 | Abhishek Parbhakar

譯者 | 敬愛的勇哥(演算法工程師)

編輯:王立魚

原文連結:

https://

towardsdatascience。com/

must-know-information-theory-concepts-in-deep-learning-ai-e54a5da9769d

資訊理論是一個重要的領域,它對深度學習和人工智慧作出了重大貢獻,但很多人對它卻並不瞭解。資訊理論可以看作是微積分、機率論和統計學這些深度學習基本組成部分的複雜融合。人工智慧中的很多概念來自資訊理論或相關領域:

常用的交叉熵損失函式

根據最大資訊增益構建決策樹

廣泛應用於NLP和語音領域的維特比演算法

廣泛用於機器翻譯RNN和各種其他型別模型的編碼器-解碼器概念

資訊理論簡史

關於深度學習你必須知道的幾個資訊理論概念

克勞德 夏農,資訊時代之父

在20世紀初期,科學家和工程師們努力解決這樣的問題:“如何量化資訊?有沒有一種分析方法或數學方法可以告訴我們資訊的內容?”

例如,考慮以下兩句話:

布魯諾是一條狗。

布魯諾是一條大棕狗。

第二句話給了我們更多的資訊,因為它還告訴布魯諾除了是“狗”之外還是“大的”和“棕色的”。我們如何量化兩個句子之間的差異?我們能否有一個數學測量方法告訴我們第二句話與第一句話相比多了多少資訊?

科學家們一直在努力解決這些問題。語義,域和資料形式只會增加問題的複雜性。數學家和工程師克勞德·夏農提出了“熵”的概念,它永遠改變了我們的世界,這標誌著數字資訊時代的開始。

關於深度學習你必須知道的幾個資訊理論概念

克勞德·夏農在1948年引入了“bit”這個詞

克勞德·夏農提出“資料的語義方面是無關緊要的”,資料的性質和含義在資訊內容方面並不重要。相反,他根據機率分佈和“不確定性”來量化資訊。夏農還引入了“bit”這個詞,這一革命性的想法不僅奠定了資訊理論的基礎,而且為人工智慧等領域的進步開闢了新的途徑。

下面將討論深度學習和資料科學中四種流行的,廣泛使用的和必須已知的資訊理論概念:

也可以稱為資訊熵或夏農熵。

關於深度學習你必須知道的幾個資訊理論概念

熵是實驗中隨機性或不確定性的度量

熵給出了實驗中不確定性的度量。讓我們考慮兩個實驗:

丟擲一枚無偏硬幣(P(H)= 0。5)並觀察它的輸出,假設H

丟擲一枚有偏硬幣(P(H)= 0。99)並觀察其輸出,假設H

如果我們比較兩個實驗,與實驗1相比,實驗2更容易預測結果。因此,我們可以說實驗1本質上比實驗2更不確定或不可預測。實驗中的這種不確定性是使用熵度量的。

因此,如果實驗中存在更多固有的不確定性,那麼它的熵更大。或者說實驗越不可預測熵越大。實驗的機率分佈用於計算熵。

一個完全可預測的確定性實驗,即投擲P(H)= 1的硬幣的熵為零。一個完全隨機的實驗,比如滾動無偏骰子,是最不可預測的,具有最大的不確定性,在這些實驗中熵最大。

關於深度學習你必須知道的幾個資訊理論概念

拋擲一枚無偏硬幣的實驗比拋擲有偏硬幣具有更多的熵

另一種觀察熵的方法是我們觀察隨機實驗結果時獲得的平均資訊。將實驗結果獲得的資訊定義為該結果發生機率的函式。結果越罕見,從觀察中獲得的資訊就越多。

例如,在確定性實驗中,我們總是知道結果,因此透過觀察結果沒有獲得新資訊,因此熵為零。

數學定義

對於離散隨機變數X,可能的結果(狀態)x_1,。。。,x_n,熵(以位為單位)定義為:

關於深度學習你必須知道的幾個資訊理論概念

其中p(x_i)是X的第i個結果的機率。

應用

熵用於自動決策樹構造。在樹構建的每個步驟中,使用熵標準來完成特徵選擇。

基於最大熵原理選擇模型,從對比的模型中選出熵最大的模型為最佳模型。

交叉熵

交叉熵用於比較兩個機率分佈。它告訴我們兩個分佈有多相似。

數學定義

在相同的結果集上定義的兩個機率分佈p和q之間的交叉熵由下式給出:

關於深度學習你必須知道的幾個資訊理論概念

應用

關於深度學習你必須知道的幾個資訊理論概念

基於卷積神經網路的分類器通常使用softmax層作為最後一層,並使用交叉熵損失函式進行訓練

交叉熵損失函式廣泛用於邏輯迴歸等分類模型,隨著預測偏離真實輸出,交叉熵損失函式會增大。

在諸如卷積神經網路的深度學習架構中,最終輸出的softmax層經常使用交叉熵作為損失函式。

互動資訊

互動資訊是兩種機率分佈或隨機變數之間相互依賴性的度量。它告訴我們另一個變數有多少關於該變數的資訊。

互動資訊獲取隨機變數之間的依賴性,比一般的相關係數更具廣義性,後者只表現線性關係。

數學定義

兩個離散隨機變數X和Y的互動資訊定義為:

關於深度學習你必須知道的幾個資訊理論概念

其中p(x,y)是X和Y的聯合機率分佈,p(x)和p(y)分別是X和Y的邊緣機率分佈。

應用

關於深度學習你必須知道的幾個資訊理論概念

在貝葉斯網路中,可以使用互動資訊來確定變數之間的關係結構

特徵選擇:使用互動資訊,而不是使用相關性。相關性僅表現線性依賴性而忽略非線性依賴性,但互動資訊不會。零的互動獨立性保證隨機變數是獨立的,但零相關不是。

在貝葉斯網路中,互動資訊用於學習隨機變數之間的關係結構,並定義這些關係的強度。

Kullback Leibler(KL)散度

也稱為相對熵。

關於深度學習你必須知道的幾個資訊理論概念

KL散度用於比較兩個機率分佈

KL散度是另一種表示兩個機率分佈之間相似性的方法。它衡量一個分佈與另一個分佈的差異。

假設我們有一些資料,它的真實分佈是P。但是我們不知道P,所以我們選擇一個新的分佈Q來近似這個資料。由於Q只是一個近似值,它無法像P那樣準確地逼近資料,會造成一些資訊的丟失。這個資訊損失由KL散度給出。

P和Q之間的KL散度告訴我們,當我們試圖用P和Q來近似資料時,我們損失了多少資訊。

數學定義

一個機率分佈Q與另一個機率分佈P的KL散度定義為:

關於深度學習你必須知道的幾個資訊理論概念

應用

KL散度通常用於無監督機器學習技術中的變分自編碼器。

資訊理論最初是由數學家和電氣工程師克勞德·夏農,在1948年的開創性論文“通訊的數學理論”中提出的。

注意:隨機變數和AI,機器學習,深度學習,資料科學等專業術語已被廣泛使用,但在不同的領域中會有不同的物理含義。

想要繼續檢視該篇文章相關連結和參考文獻?

點選【關於深度學習你必須知道的幾個資訊理論概念】即可訪問!

今日資源推薦:

CMU 2018 秋季《深度學習》課程

以深度神經網路為代表的“深度學習”系統正開始逐漸地接手人工智慧的各種任務,從語言理解、語音和影象識別,到機器翻譯、規劃,甚至是遊戲和自動駕駛。因此,在許多先進的學術環境中,深度學習的專業知識正迅速從深奧的需要轉變為強制性的先決條件,並在工業就業市場上具有很大優勢。

在本課程中,我們將學習深層神經網路的基礎知識,以及它們在各種人工智慧任務中的應用。在課程結束時,學生應該對該學科有一定的瞭解,並能夠將深度學習應用到各種任務中。

課程連結:https://ai。yanxishe。com/page/groupDetail/18