動態組字

動態組字是一種汉字電腦等領域的編碼理論及技術。

拼音文字英文字母,一套字型只要製作26個字母和一些標點符號就足夠使用。但漢字是一種意音文字,若無數千到數萬個字符數量,便不足以應付基本的訊息交換。即便已有數萬個字符,往往在面對古籍時還有缺字的問題。這造成漢字無論是製作、儲存、使用、或交流,成本都遠高於表音文字,這對漢字的文化發展非常不利。

鑑於此,中國大陸臺灣都有人在研究「動態組字」技術,這個技術的目的是解除電腦系統對漢字的束縛。作法是,只在記憶體中儲存少量(約數百至一千多)的字根部件,並用程式控制,以遞迴的方式根據部件做即時的「二維組字」,顯示到螢幕上。「字根」在此就相當於拼音文字的字母,差別只在於字母表音而字根表意。

有了動態組字,使用者便可因應各式需求自行造字,再無缺字之虞。此外,組字的過程反向操作(也就是拆字),就可以作漢字理解,也有助於人工智慧手寫辨識及中文PDA手機手持式裝置開發。亦可延長儲存裝置壽命。

Unicode

Unicode標準從3.0開始,開始有表意文字序列(Ideographic Description Sequence,IDS),為採用表意文字描述字元(Ideographic Description Character,IDC)與文字部件的組合,為缺字描述定下一個標準基礎,只要加上解譯描繪的機制,也是一種動態組字的實現。

參考

倉頡系統

這是最早產品化的系統,由早年電腦中文化的開拓者朱邦復所提出。編碼上採文傳碼,是一種定長度編碼,也就是說可造字有限。

文傳碼分為兩版:

  • 2 byte版的文傳碼,上限是15 bits(三萬二千字),第一個bit為避開ASCII
  • 4 byte版的文傳碼,每個輸入碼佔6 bits共5組,每個6 bits為倉頡輸入碼(26個)+ 5個重複字(1號重複,2號重複)所以理論上有超過一千萬個碼位。

該系統精巧快速,但因以8086組合語言寫成,故需要重新解譯才能跨平台使用。組字方式純粹取決於字形外貌,配合倉頡輸入法字根作部件基礎,未必符合文字學原理,如「門」取碼爲「日弓」,乃取其首尾字根形狀(「日」和「亅」)。優點:如果拼音文字,可組出符合中文構字原理的任何字,理論上可達一千萬個字。目前只有在香港文化傳信授權製造的特定的嵌入式硬體才有實作此技術。

參考

中央研究院漢字部件檢字系統

中央研究院漢字部件檢字系統的研發最早可追溯於1972年國立交通大學關於「交大字根系統」的一系列論文和報告。1993年,中央研究院資訊科學研究所中由謝清俊院士及莊德明助技師所帶領的文獻處理實驗室页面存档备份,存于互联网档案馆)沿用「交大字根系統」的方法,經年整理各代古文,提出構字式(基於Big5)的作法,整理出各代文字的部件資料庫,分析所有漢字在文字學上的合理組成,進行重作改造,進而建立漢字構形資料庫。2008年更名為中央研究院漢字部件檢字系統,程式部份改以GPL 3.0發佈,資料部份則改以GFDL 1.2及CC-BY-SA 2.5 TW發佈,作為整體軟體專案時則以GPL 3.0發佈。最新版本為2.7。目前中研院正開發3.0版,新版的中文字碼將改用Unicode,亦支援簡體中文Windows系統

漢字構形資料庫於2013年4月26日不再更新,代之以小學堂文字學資料庫。該網站查詢介面所採用之字形圖片及字形屬性資訊皆以CC0 1.0通用共享。

參考

向量組字編輯器

台灣剎那搜尋工坊(前易符科技)以構字式研究成果:漢字構形資料庫為基礎,改以Unicode IDS(Ideographic Description Sequence,且是不定長度編碼)實作,成為構形碼,可高效率以遞迴方式合成漢字,英語字母也可組到漢字中,但仍有合成漢字不美觀的問題。2007年single.fnt作者本因漢字構形資料庫著作權問題無法將剎那工坊維護的字形資料庫兼字形檔single.fnt轉為開放文檔,後因漢字構型資料庫更改授權而GFDL化。

參考

CDL字形描述語言

美國文林公司提出的CDL字形描述語言(字描語,以XML為基礎的構字式)。

參考

漢字組字伺服器「影」

日本京都大學的漢字組字伺服器页面存档备份,存于互联网档案馆)」。

意傳科技漢字組建

考慮到漢語的方言字經常需要特殊字形方能顯示,其提供Unicode表意文字序列轉為動態組字的圖檔的工具,使用 Java 撰寫。

參考

相關項目