可變寬度編碼

字符编码方案

可變寬度編碼是一種字元編碼方案,其中藉由不同長度的代碼,對字元集(符號庫)進行編碼以表示文字,通常使用於電腦中。[1][a]最常見的可變寬度編碼為多位元組編碼,它使用不同數量的位元組(或稱八位位元組)來編碼不同的字元。(有些作者,尤其在微軟文件中,使用「多位元組字元集」這一術語。但這樣實屬用詞不當,因表示大小是編碼的屬性,而非字元集的屬性。 )

在早期的微型電腦冒險遊戲中,有時為將英文文字打包成更少的位元組,使用每個字元少於一個位元組的早期可變寬度編碼。然而,因與磁帶不同,它允許隨機訪問,允許按需載入文字的磁碟的產生與電腦主記憶體的增加和通用壓縮演算法的運用,使這些技巧在很大程度上已經過時。

多位元組編碼多為因增加字元數量而不致破壞與已存在的限制之間的向下相容性而產生。例如,若每個字元以一個位元組(8位元)儲存,則最多可編碼256個可能的字元;故為了編碼數量超過256個的字元,顯而易見的選擇則是每個編碼單元使用兩個及以上數量的位元組,如兩個位元組(16位元)可編碼65536個可能的字元,但這樣的改變將會破壞與已存在之系統的相容性,故可能根本便不可行。

註釋

  1. ^ The concept long precedes the advent of the electronic computer, however, as seen with Morse code.

參考文獻

  1. ^ Crispin, M. UTF-9 and UTF-18 Efficient Transformation Formats of Unicode. 2005-04 [2022-09-23]. doi:10.17487/rfc4042. (原始內容存檔於2022-10-05) (英語).