統計距離
在統計學、概率論和信息論中,統計距離量化了兩個統計對象之間的距離。統計對象可以是兩個隨機變量,兩個概率分佈或樣本,或者一個獨立樣本點和一個點群之間的距離,或者更加廣泛的樣本點。
統計距離很多情況下不是由度量誘導的,它們不一定是對稱的。一些統計距離也被稱為統計區別度(statistical divergence)。
專用術語
各種統計距離常常有許多名稱。有時名稱的相似性容易引起誤解,有時不同作者或不同時期一些術語的意義也不盡相同。常見的有統計偏差(deviation),區分度(discriminant),區別度(divergence),對比函數(contrast function),度量等。信息論中也稱為交叉熵(cross entropy),相對熵(relative entropy),discrimination information, information gain等。
度量距離
給定一個集合 X,,其上的度量距離是一個非負實值函數 d : X × X → R 對任意的 X中的 x, y, z,這個函數滿足如下條件:
廣義距離
許多統計距離不滿足度量距離的要求。不滿足正定性的常常被稱為偽度量,不滿足對稱性的通常被稱為準度量,不滿足三角不等式被稱為半度量。 只滿足上述(1)和(2)條件的統計距離被稱為區別度(divergence)。
例子
f-區別度:KL區別度(相對熵), Hellinger區別度,全變差距離;
仁義熵;
延森-香濃區別度。