表意文字描述字元

表意文字描述字元(英語:Ideographic Description Character,IDC)是一塊收錄描述表意文字(如漢字)結構的符號Unicode區段,其中部分描述符號編碼於其他區段。

表意文字描述字元
Ideographic Description Characters
範圍U+2FF0..U+2FFF
(16個碼位)
平面基本多文種平面BMP
文字通用英語Script (Unicode)#Special script property values
已分配16個碼位
未分配0個保留碼位
來源標準GBK
統一碼版本歷史
3.012 (+12)
15.116 (+4)
註釋[1][2]

目前大部份編碼包含Unicode,處理漢字編碼時大致是先搜集漢字,給予每個漢字一個數字編碼。然而,漢字數量龐大,字集往往不完全;再加上漢字本身是開放組合,漢字的用戶很可能自造新字,不可能有一個可以搜集到所有漢字的字集,所以用這些字元描述某「字」如何以較簡單的部件組合起來。

碼表

表意文字描述字元
Ideographic Description Characters
[1][2]
Unicode 聯盟官方碼表(PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+2FFx ⿿
註釋
1. ^ 依據 Unicode 15.1

表意文字描述序列

表意文字描述序列(英語:Ideographic Description Sequence,IDS)是Unicode標準定義的漢字結構描述語法,描述序列由描述字元與兩個以上特定字元(主要為漢字)組合而成,表示漢字的抽象結構。

Unicode定義了16種組合字元:

編碼 字元 意義 例字 序列 例字 序列
U+2FF0 兩部件由左至右組成 ⿰木目 𠁢 ⿰丨㇍
U+2FF1 兩部件由上至下組成 ⿱木口 𠚤 ⿱𠂊丶
U+2FF2 三部件由左至右組成 ⿲彳氵亍 𠂗 ⿲丿夕乚
U+2FF3 三部件由上至下組成 ⿳亠口小 𠋑 ⿳亼目口
U+2FF4 兩部件由外而內組成 ⿴囗口 𠀬 ⿴㐁人
U+2FF5 三面包圍,下方開口 ⿵几皇 𧓉 ⿵齊虫
U+2FF6 三面包圍,上方開口 ⿶凵㐅 ⿶乂丶
U+2FF7 三面包圍,右方開口 ⿷匚斤 𧆬 ⿷虎九
U+2FF8 兩面包圍,兩部件由左上至右下組成 ⿸疒丙 𤆯 ⿸耂火
U+2FF9 兩面包圍,兩部件由右上至左下組成 ⿹戈廾 𢧌 ⿹或壬
U+2FFA 兩面包圍,兩部件由左下至右上組成 ⿺走召 𥘶 ⿺礼分
U+2FFB 兩部件重疊 ⿻工从 𣏃 ⿻木⿻コ一
U+2FFC 三面包圍,左方開口 ⿼叉丶 𬺹 ⿼コ二
U+2FFD 兩面包圍,兩部件由右下至左上組成 ⿽水丶 ⿽⺀十
U+2FFE 水平翻轉 ⿾卍 𣥄 ⿾正
U+2FFF ⿿ 旋轉 𠕄 ⿿凹 𠄔 ⿿予

另有兩個描述符號並不在此區段內:

編碼 字元 區段 意義 例字 序列 例字 序列
U+303E 中日韓符號和標點 形似但不相等 㬵 (U+3B35) 〾胶 (U+80F6)[3] 𫜵 〾爫[4]
U+31EF 中日韓筆畫 減去筆畫 ㇯兵丶 𧰨 ㇯豕一

還有一個字元「⬚」,編碼是U+2B1A,雖然名稱只是「dotted square(點狀虛線的正方形)」,但也常配合表意文字描述字元使用,指無法分割的整體字。

IDS的運算方式是前綴表示法,運算子在前,對應數量的運算元在後。這種方式不需使用括號等字元輔助即可無歧義地表示運算順序。

統一碼標準中,表意文字描述序列之定義如下:[5]

IDS := 漢字 | 部首 | 中日韓筆畫 | 私人造字區 | U+FF1F | IDS二元運算子 IDS IDS | IDS三元運算子 IDS IDS IDS
IDS二元運算子 := U+2FF0 | U+2FF1 | U+2FF4 | U+2FF5 | U+2FF6 | U+2FF7 | U+2FF8 | U+2FF9 | U+2FFA | U+2FFB
IDS三元運算子 := U+2FF2 | U+2FF3

按此,合規範的IDS必須由漢字、中日韓部首字元、中日韓筆畫字元(U+31C0-U+31EF)、私人造字、全形問號字元(U+FF1F),以IDC連接而成。

限制

  • Unicode無定義漢字的唯一表述方式,依現行提案一漢字可用多種IDS表達,如「巫」可表示為「⿻工从」或「⿻工⿰人人」。
  • IDS主要目的在於表達漢字的抽象結構,而非像組合字元一樣用於動態組字。現實繪製合體字字形時須考量許多複雜要素,光用IDS不足以繪出符合一般要求的合成字,例如合體字上下、左右比例往往並非1:1,而是按二部件的實際外形調整;左上-右下、三方包圍等組合字的比例計算則更複雜;上下交疊的兩部件也需要依賴對漢字的一般認識才能正確解讀,例如「⿻工从」是將兩個「人」放到「工」的左右兩開口裏,而非簡單地將「工」和「从」上下疊合。

歷史

以下檔案記錄了本區段中出現的字元的提議及定稿。

另見

參考文獻

  1. ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始內容存檔於2017-09-25). 
  2. ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始內容存檔於2016-06-29). 
  3. ^ 「㬵(U+3B35)」和「胶(U+80F6)」为什么在《康熙字典》收录了两次? - 知乎. www.zhihu.com. [2023-09-21]. 
  4. ^ 基本集扩充字考(五・完结)附扩充块新增字考. 知乎專欄. [2023-09-21] (中文). 
  5. ^ The Unicode StandardVersion 6.0 – Core Specification (PDF). [2020-02-10]. (原始內容存檔 (PDF)於2019-11-22). 

外部連結