分類變量

分類變量或稱類別變量統計學中的有限多個取值的變量,其每個值對應於定性屬性英語qualitative property的特定分組(group)或定類類別英語nominal category[1]在計算機科學或一些數學分支中,分類變量對應於列舉法枚舉類型。通常,分類變量的每個值成為一個level。其概率分布稱為分類分布英語categorical distribution

分類數據(Categorical data)是一種統計數據類型英語Statistical data type,由分類變量及其數據組成。具體說,分類數據可從定性數據計數匯總或生成列聯表,或從定量數據按照給定的間隔分組得到。

分類變量如果只可能有兩個取值,被稱為二值變量英語binary variable(binary variable或dichotomous variable),如伯努利變量。分類變量如果取多於2個值,成為多值變量(polytomous variables)。

分類變量的例子

表示法

為使統計處理簡便,分類變量可以賦以數值索引值,如從1到K,對於K值分類變量。這種表示可以用於相等比較、作為集合的元素做集合運算。

分類變量的集合的集中趨勢可用眾數表示,但不能定義均值中位數

可能值的數量

分類的隨機變量用統計學的分類分布英語categorical distribution,允許任意K值分類變量用每個值的單獨的概率來表示(即K值的離散概率分布)。這種多值分類變量常用多項分布來分析。分類結果的回歸分析是通過多項邏輯回歸multinomial probit英語multinomial probit或相關的discrete choice英語discrete choice模型。

分類變量也可以只有兩種可能結果,稱為二值變量或伯努利變量。由於重要性,這種情形常被視作獨立分布(伯努利分布)、獨立的回歸模型(邏輯回歸、probit regression英語probit regression等)。反之,分類變量常被用於指大於等於3種結果,或稱「多值變量」(multi-way variable)。

參考文獻

  1. ^ Yates, Daniel S.; Moore, David S; Starnes, Daren S. The Practice of Statistics 2nd. New York: Freeman. 2003 [2014-09-28]. ISBN 978-0-7167-4773-4. (原始內容存檔於2005-02-09). 

拓展閱讀