印度文字資訊交換碼

印度文字資訊交換碼(英:Indian Script Code for Information Interchange,縮:ISCII,印度文: सूचना अन्तरविनिमय के लिए भारतीय लिपि संहिता,IS13194:1991)是一種編碼系統,其對象為多種在印度所使用的書寫系統。它包含婆羅米系文字,所支援的文字包含了:阿薩姆文孟加拉文天城文古吉拉特文古木基文卡納達文馬拉雅拉姆文奧里亞文泰米爾文泰盧固文。 它不支援由阿拉伯文所衍生出來的印度書寫系統。 但它仍混和使用喀什米爾語信德語烏爾都語波斯語普什圖語阿拉伯語。由阿拉伯語衍生的書寫系統則採用之後的波斯阿拉伯文字資訊交換碼

婆羅米系書寫系統在結構上類似,只是使用不同的字母外形。此編碼將相同音的編在相同碼位。如 0xB3 0xDB 代表 [ki]。在天城文中産生 कि ,在古木基文中為 ਕਿ,在泰米爾文中則為 கி 。在富文件可以利用標記來選擇或在純文件中使用 ATR 碼。

使用此方法的動機為,它可以很容易地在不同書寫系統間做轉寫。然而,其彼此間的不相容又使得這在實作不容易。見 關於印度文字資訊交換碼页面存档备份,存于互联网档案馆)。

此編碼是八位元編碼。其較低的 128 碼位為純ASCII,其較高 128 碼位為此編碼專用。除了表示字符的碼位,此編碼還包括一個記憶用碼位,用來指示接下來的位元組包含兩種資訊之一。一種會改變書寫系統直到下一個書寫系統指示器或行結尾。另一種則選擇顯示模式,如粗體或斜體。此編碼並未提供預設書寫系統。

碼位分布

阿薩姆文、孟加拉文、古吉拉特文、古木基文、卡納達文、馬拉雅拉姆文、奧里亞文、坦米爾文和泰盧固文的字符集和天城文的字符集相類似。只要將每個天城文字母轉成相對應書寫系統的字母。每個字符會列出其十進位值和相對應統一碼

ATR 記號

印度文字資訊交換碼還提供了 ATR(0xEF)記號,用來切換書寫系統。此外還可切換字型屬性。

ATR 後面可接 0x42~0x4B ,其意義為切換成天城文(0x42)、孟加拉文(0x43)、泰米爾文(0x44)、泰盧固文(0x45)、阿薩姆文(0x46)、奧里亞文(0x47)、卡納達文(0x48)、馬拉雅拉姆文(0x49)、古吉拉特文(0x4A)、古木基文(0x4B)。

ATR 預設使用(0x40)。使用 0x41 則意指使用羅馬字母轉寫

ATR 後接 0x71~0x76 時,意指阿拉伯語(0x71)、波斯語(0x72)、烏爾都語(0x73)、信德語(0x74)、喀什米爾語(0x75)、普什圖語(0x76)等衍生自阿拉伯文字,但此編碼並為對此做詳細規範。

ATR 後接 0x30~0x39 時,意指粗體、斜體、底線等模式。其詳細用法定義在印度文字資訊交換碼的附錄 E。

EXT 記號

印度文字資訊交換碼另外提供 EXT 記號(0xF0),用於吠陀文字。 吠陀文字可以視為天城文的擴充。使用 EXT,可以用來表示『梨俱吠陀』等調音記號和『黑夜柔吠陀』和『白夜柔吠陀』等特有的各種 Anusvāra(鼻音)文字。

若使用 EXT 所指定的吠陀文字,ATR 所定義的書寫系統或羅馬轉寫則失效。 EXT 能指定的文字分成一是如 udātta(0xB6)和 an-udātta(0xBE)等的修飾文字(0xB4~0xBE)和另外的非修飾文字(0xA1~0xB3)。修飾文字出現的段落為天城文之後,此外就是限定在非修飾文字之後。

2010年出版的通用字符集,将吠陀文字編在 1CD0~1CFF。(例如印度文字資訊交換碼的0xF0 0xB0在通用字符集中為U+1CEE)。

使用狀況

除了某些政府組織,此編碼並未廣泛應用。現在因為有統一碼的緣故,它已顯得過時。統一碼除了為每個印度書寫系統保留獨立區塊外,並每個區塊的編碼配置和此編碼相同。

此外,在印度,除了 IS 13194(ISCII)外,其它的編碼還有 IS 10315(等同於 ASCII)、IS 12326(等同於 ISO/IEC 2022)。

参考資料


外部連結