形码输入法

汉字输入法中,完全依据汉字的笔画字形特征进行编码的输入法称为字形输入法形码输入法形码,典型的如仓颉输入法呒虾米输入法大易输入法五笔字型输入法郑码输入法表形码行列输入法等等。最简单的笔画输入法笔顺输入法也是形码输入法。

特色

形码输入法,会把汉字若干的简单笔画、部件或形块,列为“字根”,然后由字根组合拼砌成整个汉字字形。按输入法规则,顺序输入构成该汉字字形的字根,就可以打出该汉字。为免输入码过长,通常也有规则说明如何省略若干的字根,保留好些字根。

由于标准键盘键位有限,多数形码输入法会把若干有关系的字根归进同一键中。该键的代表字根,一般称为主要字根主根,而归进主根麾下的字根,则称辅助字根辅根。大多数形码输入法,主根与辅根之间,或同一主根麾下的各辅根之间,都在字形特征上有某些相似关系。例如仓颉输入法、大易输入法强调字根之间的视觉关联;行列输入法重视字根起笔、收笔笔形;五笔字型输入法依字根的起笔分区;郑码输入法则把字根分区码及位码,除了约30个纯区位字根外,其他字根都尝试归作区码加位码的形式,同区码的字根会有某些字形共通点。

然而也有形码输入法是例外的,例如呒虾米输入法,除了某些字根因外形与主键的英文字母形状相像(官方声像们“形”似),或与该键其他字根外形相似(官方称“摇头摆尾”)而归键外,还有不少字根因读音相似(某些取官话,某些取台湾闽南语,并不包括粤语等其他汉语语言)或英译而归根。

其他特色

以下是部分常见的字形输入法比较
字形输入法 时间 辅助字根数 大五码重码率[1]
共5401个常用字
GB18030 共27533条字中: Unicode
仓颉输入法 1976年 140个(含难字根) 三代:434÷5401=8.04% 五代: 690/13356= 5.166%
郑码 1980年 约170个 不明
五笔字型输入法 1983年 约200个 86版最短码:(5401 - 5264) / 5401 = 2.54%
86版最长码:(5401 - 5175) / 5401 = 4.18%
86版: 9715字 (35.28%)

98版:9670字 (35.12%)

新世纪版: 10065字 (36.56%)

大易输入法 1988年 约250个 三码:2115÷5401=39.16%
四码:613÷5401=11.35%
呒虾米输入法 1989年 基本字根约350个
简速字根约150个
2515÷5401=46.57%
行列输入法 1992年 超过300个 三十:1064÷5401=19.70%

形码输入法由于依据汉字的笔画字形特征编码,使用者通常必须熟悉汉字的形体才能正确输入,因此惯用形码输入法的使用者通常比使用音码输入法不容易遗忘汉字字形或忘记怎么写字。

形码输入法的重码率通常比音码输入法低很多,大部分都不需也不使用人工智能自动选字。

但由于同一个字的字型众多,有时显示的字形和编码所据的字形不同,而造成取码容易错误,因此使用者有时还须了解某些字常见的字型差异,才能正确输入。例如仓颉输入法中,据“為”、“溫”、“恒”之形取码,与据“爲”、“温”、“恆”之形取码,会有所不同。初学者若不了解,会造成拆码错误。

为便利使用,形码输入法大多设有容错码万用码以增加输入法对于异体字的处理能力,有些还设有简码以加快输入速度。

形码输入法由于重码率远低于音码,极限打字速度一般来说比智能拼音更快,且更易于实现盲打。但其缺点在于需要记忆、学习和练习一段时间才能熟练使用。因此目前多数专业的文字处理人员习惯用形码输入法,普通用户则大多惯用拼音类型的输入法输入汉字。

发展历程

随着地理环境交流的发展,汉字输入法不断扩充字符集(或包含汉字数),以达到繁体字简体字通用的目的。主流形码输入法为了解决字符数扩充导致重码数增加的问题,大都推出了新版字根布局系统(如98五笔郑码苍颉检字法(仓颉输入法六代)等),取码方式及拆字方法没有变化或变化不大。其中字根布局系统为了解决字根过多易产生重码的问题而向字根双编码(如郑码)及用已有字根组合新字根(如仓颉码)两个方向发展;取码方式及拆字方法则希望可以更多取到字形的整体结构而非仅开头部分。

参看

  1. ^ 参见:原始验证档案[永久失效链接]