齊夫定律
機率定律
齊夫定律(英語:Zipf's law,IPA:/ˈzɪf/)是由哈佛大學的語言學家喬治·金斯利·齊夫於1949年發表的實驗定律。它可以表述為:在自然語言的語料庫裏,一個單詞出現的頻率與它在頻率表裏的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。這個定律被作為任何與冪定律機率分佈有關的事物的參考。
機率質量函數 橫縱坐標均為對數比例下,齊夫定律的機率質量函數的圖像,其中N = 10。橫坐標是指數k 。(注意,函數僅在k為整數時有定義,圖上的連線不代表函數連續。) | |||
累積分佈函數 橫縱坐標均為對數比例下,齊夫定律的累計分佈函數的圖像,其中N = 10。橫坐標是指數k 。(注意,函數僅在k為整數時有定義,圖上的連線不代表函數連續。) | |||
參數 |
(實數) (正整數) | ||
---|---|---|---|
值域 | |||
機率質量函數 | |||
累積分佈函數 | |||
期望值 | |||
眾數 | |||
熵 | |||
動差母函數 | |||
特徵函數 |
例子
最簡單的齊夫定律的例子是「1/f function」。給出一組齊夫分佈的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的½,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這並不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。
在布朗語料庫中,「the」、「of」、「and」是出現頻率最前的三個單詞,其出現的頻數分別為69971次、36411次、28852次,大約佔整個語料庫100萬個單詞中的7%、3.6%、2.9%,其比例約為6:3:2。大約佔整個語料庫的7%(100萬單詞中出現69971次)。滿足齊夫定律中的描述。僅僅前135個字彙就佔了Brown語料庫的一半。
齊夫定律是一個實驗定律,而非理論定律,可以在很多非語言學排名中被觀察到,例如不同國家中城市的數量、公司的規模、收入排名等。但它的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,坐標分別為排名和頻率的對數(log)。比如,「the」用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那麼它就遵循齊夫定律。
遵循該定律的現象
參見
延伸閱讀
主要:
- George K. Zipf(1949)Human Behavior and the Principle of Least Effort. Addison-Wesley.
- George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin.(see citations at http://citeseer.ist.psu.edu/context/64879/0)
次要:
- Lada Adamic. Zipf, Power-laws, and Pareto - a ranking tutorial. http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html(頁面存檔備份,存於互聯網檔案館)
- Alexander Gelbukh and Grigori Sidorov (2001) "Zipf and Heaps Laws』 Coefficients Depend on Language" (頁面存檔備份,存於互聯網檔案館). Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
- Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
- Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
- Gabaix, Xavier. Zipf's Law for Cities: An Explanation (PDF). Quarterly Journal of Economics. August 1999, 114 (3): 739–67 [2014-02-05]. ISSN 0033-5533. doi:10.1162/003355399556133. (原始內容存檔 (PDF)於2021-02-24).
- Axtell, Robert L; Zipf distribution of US firm sizes (頁面存檔備份,存於互聯網檔案館), Science, 293, 5536, 1818, 2001, American Association for the Advancement of Science
外部連結
- Steven, Strogatz. Guest Column: Math and the City. The New York Times. 2009-05-29 [2009-05-29]. (原始內容存檔於2015-09-27).—An article on Zipf's law applied to city populations
- Seeing Around Corners (Artificial societies turn up Zipf's law) (頁面存檔備份,存於互聯網檔案館)
- PlanetMath article on Zipf's law(頁面存檔備份,存於互聯網檔案館)
- Distributions de type "fractal parabolique" dans la Nature (French, with English summary)(頁面存檔備份,存於互聯網檔案館)
- An analysis of income distribution (頁面存檔備份,存於互聯網檔案館)
- Zipf List of French words
- Zipf list for English, French, Spanish, Italian, Swedish, Icelandic, Latin, Portuguese and Finnish from Gutenberg Project and online calculator to rank words in texts
- Citations and the Zipf–Mandelbrot's law (頁面存檔備份,存於互聯網檔案館)
- Zipf's Law for U.S. Cities (頁面存檔備份,存於互聯網檔案館) by Fiona Maclachlan, Wolfram Demonstrations Project.
- 埃里克·韋斯坦因. Zipf's Law. MathWorld.
- Zipf's Law examples and modelling (1985)
- Complex systems: Unzipping Zipf's law (2011) (頁面存檔備份,存於互聯網檔案館)
- Benford’s law, Zipf’s law, and the Pareto distribution (頁面存檔備份,存於互聯網檔案館) by Terence Tao.