字符 (计算机科学)

信息单位

电脑电信领域中,字符character)是一个资讯单位。对使用字母系统音节文字自然语言,它大约对应为一个音位、类音位的单位或符号。简单来讲就是一个汉字、假名、韩文字……,或是一个英文、其他西方语言的字母。


文字
文字史
字位
文字列表
拼音文字相关
字母
字母的历史
文字系统类型维基数据所列Q119520394
表音文字
全音素文字
辅音音素文字
元音附标文字
半音节文字
特征文字
音节文字
语素文字
辅助使用
速记
音标
特殊使用
数字
盲文
相关条目
象形文字
形意文字
搭配使用的符
附加符号
标点符号
可转换为文字
的其他使用
电报编码
字符

字符的例子有:字母数字系统标点符号。另外有所谓控制字符的概念,它是指:并不对应到自然语言中的某个特定符号,而是对应到语言中一些用来处理文句的概念(类似排版)。例子为列印机或其它显示设备的命令,如EnterTab

字符编码缘

电脑和通讯设备会在表示字符时,会使用字符编码。是指将一个字符对应为某个东西。传统上,是代表整数位元序列,如此,则可透过网路来传输,同时亦便于储存。两个常用的例子是ASCII和用于Unicode编码UTF-8。根据谷歌的统计,UTF-8是目前最常用于网页的编码方式。(页面存档备份,存于互联网档案馆)相较于大部分的字符编码把字符对应到数字或位元串,摩斯密码则是使用不定长度的电子脉冲的序列来表现字符。

术语

从历史来说,“字符”这个辞汇在工业专业中被广泛用来指一个编码过的字符(通常用于程式设计语言的API)。同样地,字符集则被广泛指为那些对应到特定位元序列的抽象字符的集合。随著Unicode编码等未指定位元形式的字符编码的到来。更精确的术语获得愈来愈多的认同。

对某些文件而言,区分一个字符是资讯单位而非任何特定的视觉显示是很重要的。如aleph(א)这个希伯来字母常用于数学中,表示某种无穷,但它同时又用于原本的希伯来文件中。在统一码中,尽管这两种用法有一样外形,但它们是不同的字符,而且由不同的码位来区分。相对地,如“水”这个中文表意文字,在日文文件会和中文文件中有些微不一样的外观,这会反映在不同地区的字体。但它们仍代表相同的资讯,即视为一样的字符,并且在统一码中使用一样的码位。

字形glyph)这个辞汇用于描述一个特定字符实质的外观。很多电脑字体包含许多字形,且由一个字符的统一码码位来对其字形做索引。

Unicode标准(Unicode standard)和通用字符集彼此定义“字符”和“抽象字符”为“用来组织、控制或表达资料的成份所组集合的成员之一”。统一码的定义则补充了一些解释用的注释,鼓励读者去区分字符、字位和字形。这个准则也区分抽象字符和“编码过的字符”,后者是指和数字编码成对,以利于电脑中的表示。

另见

外部链接