今昔文字鏡
今昔文字鏡(日语:今昔文字鏡/こんじゃくもじきょう)是日本AINet開發、日语:文字鏡研究會/もじきょうけんきゅうかい出版发行的一款東亞文字檢索軟件,在Windows平臺上運行。收字量龐大,最新版本收錄文字達17萬以上。所收字類型有諸橋轍次編《大漢和辭典》中的全部漢字、和製漢字、簡化字、方言字、甲骨文、篆書等各類漢字,喃字、水族文字、悉曇文字、西夏文字、變體假名、臺灣語假名等其他文字。[1]由石川忠久担任主席的文字鏡研究會[2]最初将其字符集、相关软件及数据以CD-ROM形式由纪伊国屋书店重新分发。[3]
開發者 | 石川忠久、古家時雄、文字鏡研究会 |
---|---|
首次发布 | 1.0 / 1997年7月 |
最终版本 | 4.0(2018年12月15日 | )
操作系统 | Microsoft Windows |
文件大小 | 51MB |
语言 | 日语 |
类型 | 与字型及字符映射表绑定的字符编码 |
许可协议 | 专有软件 |
网站 | mojikyo |
目标
今昔文字鏡编码本为提供完整的中日韩文字符索引。它还对古代文字中的大量字符进行编码,如甲骨文、篆书、悉昙文等。它是许多字符唯一一种字符编码,其数据也常作为Unicode提案的起点。[4][5]但文字镜的收录标准比Unicode宽松许多,这使得文字镜许多字符来源可疑,甚至可能是虚构的。[6][7]因此,虽然许多文字镜收录的字符尚未被Unicode收录,但因各家标准不同,并非所有文字镜字符都能收录进Unicode。
组成
文字镜字体(文字鏡フォント)是一系列TrueType字体,以一个ZIP格式文件封装,每种字体约有2-5兆字节;不同字体包含的字符数也不同。[note 1]还有一个EXE格式的字符映射集(文字鏡MAP),即MOCHRMAP.EXE。这允许用户浏览文字镜字体并复制、粘贴字符。相较于常规的Windows字符映射集或KCharSelect,MOCHRMAP.EXE还能显示字符的文字镜编码。[8][note 2]为让MOCHRMAP.EXE正常工作,须安装所有字体(于C:\Windows\Fonts)。
编码
文字镜中字符编码常用MJXXXXXX格式,类似于Unicode所用的U+XXXX格式。例如,变体假名U+1B008 𛀈 的文字镜编码为MJ090007,Unicode编码为U+1B008。[9]两者的不同之处在于,文字镜编码为十进制,Unicode的U+码为十六进制。
自Unicode创始开始,文字镜既影响了标准,也受到了标准的影响—来自它的字形于2002年4月18日首次出现在提交给表意文字小组(IRG)的提案中,该小组负责Unicode所有中日韩统一表意文字区块[10][11][12]。2007年5月,文字镜提供了Unicode中西夏文的编码,[13]到2002年10月,文字镜中已经有约6千个西夏文单字。[14]
Unicode标准的Unihan数据库将文字镜称作“日本国字集”,缩写“JK”。[15]例如,U+2B679 𫙹 (⿰魚嵐)在日语中读作blizzard(ブリザード|burizādo),其J源[note 3]就等于JK-66038。所有带JK前缀的J源Unicode字符都来自文字镜。[16][note 4]据字符编码、东亚语言专家小林剑所说,截至Unicode 13.0,Unicode中有782个表意文字来自文字镜,分布在2个Unicode区段:中日韩统一表意文字扩展区C中367个,中日韩统一表意文字扩展区E中415个。[17][18]不是所有文字镜来源的Unicode字符(JK前缀J源)都跟文字镜字体相同,一些字符的形状在最终编码之前被改变了,调查显示文字镜分配的字形有误。[7][note 5]
区段
截至2006年9月[update],它共编码了17,4975个字符。[14]其中有15,0366个字符属于扩展CJK文字区。[note 6][19]许多编码的字符被认为是过时的或不必要的,且没被任何其他字符集编码,包括国际标准Unicode。每个文字镜字符都有一个独特的编号,许多字符的编号组成区段。
文字镜依传统康熙部首排序将中日韩文字放在不同区段中。含字极多的常见部首,如人部、辵部进一步依笔画数排序。
无统一性
文字镜不像Unicode那样试图搭建统一汉字集,没有尝试紧凑编码,也没有将所有常用字符维持在U+FFFF以下。
Unicode则依据中日韩汉字的出现频率分为若干块,最常见的位于基本多文种平面,[note 5]较生僻的位于辅助多文种平面。
例如,人部有分别来自中国和日本的MJ054435(令)、MJ059031(令)两个字符,Unicode中均为U+4EE4 <control-4EE4> 。
许可
今昔文字镜是有限制性许可的专有软件。最初,文字镜研究所试图阻止其字符数据的滥用,并威胁那些发布字符集转换表的人。2010年7月,文字镜研究所放弃了以法律阻止多个日本用户发布转换表或将文字镜编码字符转换为Unicode或其他字符的努力。[20]单纯的数据,有时包括字体,在许多司法管辖区被认为是共同财产,因为它们不符合原创性门槛。
然而,由于这一遗留问题,GlyphWiki从2020年起不再允许使用文字镜数据。[21]
书写系统
至今存活
死文字
歷史
今昔文字鏡開發於1985年,1996年电子化[22]。1997年7月,大修館書店以CD-ROM形式發佈其1.0版本[23],當時只收有不到8萬個字。1999年,在TrueType上搭載的2.0版本發售。
2001年收錄西夏文字,并發佈“今昔文字鏡 單漢字10万字版”,收錄字數約102,300。同年收錄楷書。“文字鏡Web”網站也開始出現。
2006年發佈“今昔文字鏡 單漢字15万字版”(4.0版),發佈專業版“Indexfont Ver. 1.0”。[24]
2008年3月末“文字鏡Web”關閉。[25]6月初“今昔文字鏡 UnicodeEdition”發售。[26]
2010年3月15日,發佈專業版“Indexfont Ver. 2.0”。[27]
2015年,开发者之一、社长古家时雄去世,改由石川忠久接手,於次年散會。为作纪念,文字镜最新版开始作为免费软件上传到互联网档案馆。[28]
至今(2017年),今昔文字鏡的網路版都還在重新構築當中。[29]
2018年12月15日,4.0版本发布。次日,石川忠久宣布此为文字镜最终版。
注釋
- ^ 自官网 Archive.is的存檔,存档日期2019-12-29下载MojikyoCmap400ALL49TTF.7z
- ^ 见官网 Archive.is的存檔,存档日期2019-12-29截图
- ^ 这是Unihan数据库中一个行名,此处⟨J⟩为“日本来源文字”缩写。行名全称为
kIRG_JSource
。Unihan架构中共有9个此种来源。 - ^ 也有其他J源前缀,如J4表示其来自JIS X 0213:2004。
- ^ 5.0 5.1 当然,大型表意文字集的错误并不少见。这种错误甚至会发生在资金充足的政府制作的集合中,例如日本産業標準調査会JIS X 0208的出处不明的汉字。所有这些幽灵汉字(如彁)虽不是真正的汉字,却也能进入Unicode。
- ^ 对朝鲜、韩国指朝鲜汉字,对越南指喃字。
参考文献
- ^ 今昔文字鏡とは. [2013-01-18]. (原始内容存档于2010-04-27).
- ^ 今昔文字鏡について [About Mojikyō]. Mojikyō Institute. [2020-07-06]. (原始内容存档于2001-02-03) (日语).
- ^ ようこそ、今昔文字鏡の世界へ! [欢迎来到文字镜的世界!]. Kinokuniya KK. [2020-07-05]. (原始内容存档于2005-03-04) (日语).
- ^ Takada, Tomokazu; Yada, Tsutomu; Saito, Tatsuya. Proposal for hentaigana (PDF). 由Kobayashi, Tatsuo; Kobayashi, Daniel翻译. Information Processing Society of Japan. 2015-09-18 [2020-07-05]. L2/15-239. (原始内容 (PDF)存档于2021-07-28) –通过Unicode Consortium.
- ^ Hiura, Hideki; Kobayashi, Tatsuo; et al. Ideograph Variation Selector and Variation Collection Identifier. Open Internationalization Initiative. 2003-10-31 [2020-07-05]. L2/03-413. (原始内容存档于2022-04-07) –通过Unicode Consortium.
- ^ Takada, Tomokazu [高田智和]; Oda, Tetsuji [織田哲治]; et al. 平成25年度第3回文字情報検討サブワーキンググループ議事録 (PDF). Information Technology Promotion Agency, Government of Japan: 2. 2013-08-26 [2020-07-06]. (原始内容 (PDF)存档于2020-07-06) (日语).
文字鏡研究会の関係者にヒアリングしたところ、オランダから提案されたWG2 N36981には文字鏡のフォントが使用されているが、文字鏡研究会は関与しておらず、提案内容についても疑問があるとのことであった。
- ^ 7.0 7.1 Suzuki, Toshiya [鈴木俊哉]. 統合漢字に申請された「殷周金文集成引得」図形文字の調査. IPSJ SIG Technical Report (Information Processing Society of Japan). 2009-07-30,. 2009-DD-72 (7): 2 –通过互联网档案馆 (日语).
しかし、拡張Cの標準化作業が8年の長期にわたり、また事後的に用例が必須とされたため、正式に公布された拡張C漢字の典拠は当初の典拠とはかなり異なるものとなっている。たとえば日本では当初は文字鏡研究会によって選定された1000文字程度の漢字を申請していた。[...] 典拠用例確認は文字鏡とは独立に行なわれたため、字形が文字鏡漢字から変更されたものも多い。
- ^ Ishikawa, Tadahisa. パソコン悠悠漢字術 今昔文字鏡徹底活用. Mojikyō Institute. 1999-05-25 [2020-07-06]. (原始内容存档于2021-09-04).
- ^ MJ文字情報一覧表. Information Technology Promotion Agency. [2020-07-05]. (原始内容存档于2018-09-29) (日语).
- ^ Unicode Standard Annex #45: U-source Ideographs. The Unicode Standard. Unicode Consortium. [2022-02-06]. (原始内容存档于2022-04-01).
- ^ Appendix E: Han Unification History (PDF). The Unicode Standard. Unicode Consortium. March 2020 [2022-02-06]. (原始内容 (PDF)存档于2022-04-02).
- ^ CJK Extension C1 From Japan. Ideographic Rapporteur Group. [2022-02-06]. IRG#19 N895. (原始内容存档于2020-07-07) –通过The Chinese University of Hong Kong's Department of Computer Science and Engineering.
N895-Japan_C1
- ^ Cook, Richard. Proposal to encode Tangut characters in UCS Plane 1 (PDF). UC Berkeley Script Encoding Initiative. 2007-05-09: 4 [2022-02-06]. L2/07-143. (原始内容 (PDF)存档于2022-03-03) –通过Unicode Consortium.
- ^ 14.0 14.1 今昔文字鏡とは [What is Mojikyō?]. Kinokuniya KK. [2020-07-05]. (原始内容存档于2005-02-05) (日语).
- ^ Jenkins, John H.; Cook, Richard; Lunde, Ken (编), kIRG JSource, Unicode Standard Annex #38, Unicode Consortium, 2020-03-05 [2022-02-06], (原始内容存档于2022-04-01)
- ^ Ken Lunde [@ken_lunde]. JK-prefixed J-Source ideographs came from 今昔文字鏡, which are in Extensions C and E (the mention of Extension D was simply that what became Extension E was originally targeted to become Extension D). (推文). 2020-07-06 [2020-07-06] –通过Twitter.
- ^ Ken Lunde [@ken_lunde]. In particular, all 782 JK-prefixed ideographs are indeed from 今昔文字鏡 per IRG N862. Most were encoded in #ExtensionC, and the stragglers were encoded in #ExtensionE.. (推文). 2020-07-06 [2020-07-06] –通过Twitter.
- ^ Ken Lunde [@ken_lunde]. 367 JK-prefixed ideographs are in Extension C, and the remaining 415 are in Extension E.. (推文). 2020-07-06 [2020-07-06] –通过Twitter.
- ^ 今昔文字鏡とは [About Mojikyo]. Kinokuniya KK. [2020-07-05]. (原始内容存档于2010-04-27) (日语).
- ^ 終戦宣言 [Announcement: The War is Over]. ja:青蛙亭漢語塾 28 January 2016. 2010-07-21 [2020-07-07]. (原始内容存档于2022-02-26) (日语).
- ^ データ・記事のライセンス. GlyphWiki 9 2010年6月. [2020-07-06]. (原始内容存档于2022-03-23).
今昔文字鏡およびその関連製品、データは、そのライセンス上グリフウィキには用いることができません。文字鏡番号(独自部分)および文字鏡のフォントに収録されているグリフそのもの、およびそれを参照、利用して作成していると判断できる情報は、グリフウィキに登録する際の典拠とすることはできませんので、ご協力をお願いいたします。
- ^ 石川, 忠久. 古家時雄君を悼む [哀悼古家時雄君]. Mojikyō Institute. 2015年8月 [2020-07-08]. (原始内容存档于2019-12-29) (日语).
- ^ 今昔文字镜 今昔文字鏡, July 1997, ISBN 9784314900034 (日语)
- ^ XP[32ビット版](NT5.1)・Vista(NT6.0)[32ビット版]にのみ対応。「Windows XP Mode」上での動作についてはサポート対象外。
- ^ 文字鏡WEB概要. [2008-04-01]. (原始内容存档于2008-03-07).
- ^ 今昔文字鏡UnicodeEdition(WindowsNT-2000-XP-Vista - 文書作成). [2008-11-23]. (原始内容存档于2009-03-06).
- ^ XP(NT5.1)・Vista(NT6.0)[32bit版]・7(NT6.1)[32 / 64bit版]にのみ対応。XP x64 Edition(NT5.2)・Vista(NT6.0)[64bit版]および「Windows XP Mode」上での動作についてはサポート対象外。
- ^ Search: creator:"MOJIKYO Institute". 互联网档案馆. [2020-07-06] (英语).
- ^ 存档副本. [2013-08-07]. (原始内容存档于2019-01-09).
外部連結
- 株式会社エーアイ・ネット
今昔文字鏡[永久失效連結](现在会跳转到日文维基百科的此条目)文字鏡研究会Archive.is的存檔,存档日期2020-01-01(现在会跳转到日文维基百科的此条目)- 大漢和辞典的文字番号