概率論信息論中,兩個隨機變量互信息(mutual Information,MI)度量了兩個變量之間相互依賴的程度。具體來說,對於兩個隨機變量,MI是一個隨機變量由於已知另一個隨機變量而減少的「信息量」(單位通常為比特)。互信息的概念與隨機變量的緊密相關,信息論中的基本概念,它量化的是隨機變量中所包含的「信息量」。

獨立的(H(X),H(Y)), 聯合的(H(X,Y)), 以及一對帶有互信息 I(X; Y) 的相互關聯的子系統 X,Y 的條件熵。

MI不僅僅是度量實值隨機變量和線性相關性(如相關係數),它更為通用。MI決定了隨機變量聯合分布的邊緣分布的乘積之間的差異。MI是點互信息(Pointwise Mutual Information英語pointwise mutual information,PMI)的期望克勞德·香農在他的論文A Mathematical Theory of Communication英語A Mathematical Theory of Communication中定義並分析了這個度量,但是當時他並沒有將其稱為「互信息」。這個詞後來由羅伯特·法諾[1]創造。互信息也稱為信息增益

互信息的定義

設隨機變量 是空間 中的一對隨機變量。若他們的聯合分布是 ,邊緣分布分別是  ,那麼,它們之間的互信息可以定義為:

 

其中, 為KL散度(Kullback–Leibler divergence)。注意,根據KL散度的性質,若聯合分布 等於邊緣分布  的乘積,則 ,即當  相互獨立的時候,觀測到Y對於我們預測X沒有任何幫助,此時他們的互信息為0。

離散變量的互信息

離散隨機變量 X 和 Y 的互信息可以計算為:

 

其中 p(x, y) 是 XY 的聯合概率質量函數,而    分別是 XY 的邊緣概率質量函數。

連續變量的互信息

連續隨機變量的情形下,求和被替換成了二重定積分

 

其中 p(x, y) 當前是 XY 的聯合概率密度函數,而    分別是 XY 的邊緣概率密度函數。

如果對數以 2 為基底,互信息的單位是bit

直觀上,互信息度量 XY 共享的信息:它度量知道這兩個變量其中一個,對另一個不確定度減少的程度。例如,如果 XY 相互獨立,則知道 X 不對 Y 提供任何信息,反之亦然,所以它們的互信息為零。在另一個極端,如果 XY 的一個確定性函數,且 Y 也是 X 的一個確定性函數,那麼傳遞的所有信息被 XY 共享:知道 X 決定 Y 的值,反之亦然。因此,在此情形互信息與 Y(或 X)單獨包含的不確定度相同,稱作 Y(或 X)的。而且,這個互信息與 X 的熵和 Y 的熵相同。(這種情形的一個非常特殊的情況是當 XY 為相同隨機變量時。)

互信息是 XY聯合分布相對於假定 XY 獨立情況下的聯合分布之間的內在依賴性。 於是互信息以下面方式度量依賴性:I(X; Y) = 0 當且僅當 XY 為獨立隨機變量。從一個方向很容易看出:當 XY 獨立時,p(x,y) = p(x) p(y),因此:

 

此外,互信息是非負的(即  ; 見下文),而且是對稱的(即  )。

與其他量的關係

互信息又可以等價地表示成

 

其中    是邊緣H(X|Y) 和 H(Y|X) 是條件熵,而 H(X,Y) 是 XY聯合熵。注意到這組關係和併集、差集和交集的關係類似,於是用Venn圖表示。

在互信息定義的基礎上使用琴生不等式,我們可以證明 I(X;Y) 是非負的,因此  。這裡我們給出 I(X;Y) = H(Y) - H(Y|X) 的詳細推導:

 

上面其他性質的證明類似。

直觀地說,如果把熵 H(Y) 看作一個隨機變量於不確定度的量度,那麼 H(Y|X) 就是"在已知 X 事件後Y事件會發生"的不確定度。於是第一個等式的右邊就可以讀作「將"Y事件的不確定度",減去 --- "在基於X事件後Y事件因此發生的不確定度"」。

這證實了互信息的直觀意義為: "因X而有Y事件"的熵( 基於已知隨機變量的不確定性) 在"Y事件"的熵之中具有多少影響地位( "Y事件所具有的不確定性" 其中包含了多少 "Y|X事件所具有的不確性" ),意即"Y具有的不確定性"有多少程度是起因於X事件;

    舉例來說,當 I(X;Y) = 0時,也就是 H(Y) = H(Y|X)時,即代表此時 "Y的不確定性" 即為 "Y|X的不確定性",這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性

所以具體的解釋就是: 互信息越小,兩個來自不同事件空間的隨機變量彼此之間的關聯性越低; 互信息越高,關聯性則越高 。


注意到離散情形 H(X|X) = 0,於是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我們可以制定」一個變量至少包含其他任何變量可以提供的與它有關的信息「的基本原理。

互信息也可以表示為兩個隨機變量的邊緣分布 XY 的乘積 p(x) × p(y) 相對於隨機變量的聯合熵 p(x,y) 的相對熵

 

此外,令 p(x|y) = p(x, y) / p(y)。則

 

注意到,這裡相對熵涉及到僅對隨機變量 X 積分,表達式   現在以 Y 為變量。於是互信息也可以理解為相對熵 X 的單變量分布 p(x) 相對於給定 YX條件分布 p(x|y) :分布 p(x|y) 和 p(x) 之間的平均差異越大,信息增益越大。

連續互信息的量化

對連續型隨機變數量化的定義如下:

 

量化後的隨機變數 :

 

則,

 

 

 

廣義而言,我們可以將互信息定義在有限多個連續隨機變數值域劃分

 為連續型隨機變數的值域, , 其中  劃分所構成的集合,意即 

 量化連續型隨機變數 後,所得結果為離散型隨機變數,

 

對於兩連續型隨機變數X、Y,其劃分分別為P、Q,則其互信息可表示為:

 

參見

注釋

  1. ^ Kreer, J. G. A question of terminology. IRE Transactions on Information Theory. 1957, 3 (3): 208. doi:10.1109/TIT.1957.1057418. 

參考文獻