齊夫定律

機率定律

齊夫定律(英語:Zipf's lawIPA/ˈzɪf/)是由哈佛大學語言學家喬治·金斯利·齊夫英語George Kingsley Zipf於1949年發表的實驗定律。它可以表述為:在自然語言語料庫裏,一個單詞出現的頻率與它在頻率表裏的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。這個定律被作為任何與冪定律機率分佈有關的事物的參考。

齊夫定律
機率質量函數
齊夫定律的機率質量函數的圖像,其中N = 10
橫縱坐標均為對數比例下,齊夫定律的機率質量函數的圖像,其中N = 10。橫坐標是指數k 。(注意,函數僅在k為整數時有定義,圖上的連線不代表函數連續。)
累積分佈函數
齊夫定律的累計分佈函數的圖像,其中N = 10
橫縱坐標均為對數比例下,齊夫定律的累計分佈函數的圖像,其中N = 10。橫坐標是指數k 。(注意,函數僅在k為整數時有定義,圖上的連線不代表函數連續。)
參數 (實數)
(正整數)
值域
機率質量函數
累積分佈函數
期望值
眾數
動差母函數
特徵函數

例子

最簡單的齊夫定律的例子是「1/f function」。給出一組齊夫分佈的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的½,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這並不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。

布朗語料庫英語Brown Corpus中,「the」、「of」、「and」是出現頻率最前的三個單詞,其出現的頻數分別為69971次、36411次、28852次,大約佔整個語料庫100萬個單詞中的7%、3.6%、2.9%,其比例約為6:3:2。大約佔整個語料庫的7%(100萬單詞中出現69971次)。滿足齊夫定律中的描述。僅僅前135個字彙就佔了Brown語料庫的一半。

齊夫定律是一個實驗定律,而非理論定律,可以在很多非語言學排名中被觀察到,例如不同國家中城市的數量、公司的規模、收入排名等。但它的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,坐標分別為排名和頻率的對數(log)。比如,「the」用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那麼它就遵循齊夫定律。

遵循該定律的現象

  • 英文單詞或中文漢字的出現頻率:不僅適用於語料全體,也適用於單獨的一篇文章
  • 網頁訪問頻率
  • 城鎮人口城鎮等級的關係
  • 收入前3%的人的收入
  • 地震震級
  • 固體破碎時的碎片大小

參見

延伸閱讀

主要:

次要:

外部連結