中文资讯交换码

中文资讯交换码Chinese Character Code for Information Interchange,简称CCCII),又名全汉字标准交换码[1],是由中华民国政府发展的字符集编码方案,由获得中研院中美科学学术合作委员会与文建会(后升格为文化部)赞助的“国字整理小组”(全名为:资讯应用国字整理小组)所提出[2]。开发目的是将其作为中文交换码,使中文资讯交换更加便利。

CCCII / EACC
汉字在CCCII中的位置和字型,包含了正体字简体字异体字日本汉字的写法
语言汉语日语韩语
标准MARC-8英语MARC-8机读编目格式标准)、ANSI/NISO Z39.64
现状主要为图书馆系统使用
分类基于ISO/IEC 2022结构用于中日韩文字的三字节字元集(TBCS)
机读编目格式标准的日、阿拉伯、中、韩、波斯、希伯来、意第绪文字(JACKPHY )

此交换码每个字用三个字节存储,在节约空间方面不如大五码,又不像中文标准交换码成为官方标准,所以未被电脑业界广泛采纳[3]。香港各大学图书馆在2003年由旧有的CCCII系统换成UTF-8[4][5]。故现仅台湾和美国仍在使用,且只用于大学图书馆线上目录检索系统

简介

1979年,加州斯坦福大学召开一场筹划东亚图书馆自动化的会议,希望订定中文交换码的标准作为自动化之根据,以解决使用电脑处理东亚语文资料的问题。那时的汉字码标准只有日本产业规格订定的JIS C6226,但由于日本汉字的数目、字型皆与中文有相当程度的差异,难以作为代表,经台湾和美国东亚图书馆华裔与会者强力反对后,决定先搁置决议,由台湾代表谢清俊在次年三月亚洲研究学会年会,提出台湾方面的汉字编码方案互作比较[6][1]

谢清俊教授返国后,上书政务委员李国鼎国科会中研院中美科学学术合作委员会(简称中美会)等单位,集合国内一批文字学家、图书馆学家及电脑科学家,组成“中文资讯处理研究用字小组”(1985年其国字整理组从中美会转至文建会,改名为资讯应用国字整理小组),共同整理中文文字,并解决中文资讯处理的技术问题。其中,字码编定的部分由谢清俊、张仲陶杨键樵黄克东教授负责,文字审查工作则有潘重规周骏富周何何佑森金祥恒等教授参与,并由王振鹄张鼎锺等教授担任中文资讯交换码审查小组的成员[7]

台湾于次届亚洲学会年会上,提出共4,808字的“中文资讯交换码”;“中文资讯交换码”的架构为美方接受,但要求扩大编码字集。“国字整理小组”在1981年完成第二批,包括17,032个正体字、11,517个异体字;1987年再发表第三批,包括20,583个正体字。前后二次共计扩编至53,940个汉字字码,并完成64×64,32×32的机读字型;此外,为了方便电脑上的文字处理,又编制了“中国文字数据库”(Chinese Character Database,简称CCDB),其中列出每个字属性如部首、笔画、读音以及各种对应和输入码[6]

CCCII后来获得美国国会图书馆认可,称为东亚文字码(East Asian Character Code,EACC),并于1989年纳入美国国家标准(编号:ANSI/NISO Z39.64)。CCCII并已被OCLC和RLIN(Research Libraries Information Network)用作中日韩文的书目字码标准[8]

“国字整理小组”从1979至1989十年间,共计整理、搜集了75,684个汉字(正体字44,167、异体字31,517)[7]。随着张仲陶教授在1997年去世,以及谢清俊教授将发展方向转往汉字构形数据库,CCCII已停止维护、更新[9][10]

编码结构

该编码以三个字节来代表一个中文字,每字节为7位元,并根据ISO 2022规格以94×94×94的编码空间安放字符,最多可收纳830,584个。

一个94×94的编码空间称为面(Plane)。CCCII共有94个。以6个组合成为1个层(Layer)。因此CCCII共有16个,除第16层仅含4面外,其余各层均含有6个面(即15×6+4=94)。这16个层相叠,形成一个向下延伸的三度空间,由此形成关联。

第1个层放置正体字(正体字按常用、备用、罕用的顺序分群并依序排列,各字群再按先部首、次笔画数、最后笔顺的次序排列);第2至第13个层,放置异体字,其中第2层专放简体字,第13层放置日文汉字。这样的三度空间设计使检索某一汉字的异体字变得容易,如:三字的后两个字节是一样的[11]

另见

注释

  1. ^ 1.0 1.1 中文字集字碼簡介/ 編目組 - 東吳大學圖書館 (PDF). [2022-12-18]. (原始内容存档 (PDF)于2022-12-26). 
  2. ^ 谢清俊; 黄克东. 國字整理小組十年. 资讯应用国字整理小组. 1989: 29-34. 
  3. ^ 多管齊下,徹底解決罕用字問題. ithome. [2022-12-20]. (原始内容存档于2022-12-20). 
  4. ^ (英文) Unicode Project(Library, City University of Hong Kong)页面存档备份,存于互联网档案馆
  5. ^ (英文) Unicode Migration(Library, Chinese University of Hong Kong)页面存档备份,存于互联网档案馆
  6. ^ 6.0 6.1 認識全字庫- 中文碼介紹. [2022-12-18]. (原始内容存档于2021-05-14). 
  7. ^ 7.0 7.1 宋建成. 國家圖書館故事. 卷二, 館藏發展與整理. 2020: 113 [2022-12-18]. (原始内容存档于2022-12-18). 
  8. ^ 曾世熊. 中文資訊交換碼 Chinese Character Code for Information Interchange,簡稱CCCII. 圖書館學與資訊科學大辭典. [2022-12-18]. (原始内容存档于2022-12-18). 
  9. ^ Ken Lunde. CJKV Information Processing. O'Reilly Media. 2009: 123 [2022-12-20]. (原始内容存档于2022-12-20). 
  10. ^ 中央研究院資訊科學研究所 20 週年慶特刊 謝清俊先生之簡介與訪談簡要. [2022-12-20]. (原始内容存档于2020-10-20). 
  11. ^ 来源参考:(中文)中文资讯交换码,国字计划小组,主编人张仲陶

外部链接