今昔文字鏡

日本文字检索软件

今昔文字鏡(日語:今昔文字鏡こんじゃくもじきょう)是日本AINet開發、日語:文字鏡研究會もじきょうけんきゅうかい出版發行的一款東亞文字檢索軟體,在Windows平臺上運行。收字量龐大,最新版本收錄文字達17萬以上。所收字類型有諸橋轍次編《大漢和辭典》中的全部漢字、和製漢字簡化字方言字甲骨文篆書等各類漢字,喃字水族文字悉曇文字西夏文字變體假名臺灣語假名等其他文字。[1]由石川忠久擔任主席的文字鏡研究會[2]最初將其字符集、相關軟體及數據以CD-ROM形式由紀伊國屋書店重新分發。[3]

Mojikyō
Konjaku Mojikyō
今昔文字鏡
開發者石川忠久、古家時雄、文字鏡研究會
首次發布1.0 / 1997年7月,​27年前​(1997-07
最終版本4.0(2018年12月15日,​5年前​(2018-12-15
作業系統Microsoft Windows
文件大小51MB
語言日語
類型字型字符映射表綁定的字符編碼
許可協議專有軟體
網站mojikyo.org


目標

今昔文字鏡編碼本為提供完整的中日韓文字符索引。它還對古代文字中的大量字符進行編碼,如甲骨文篆書悉曇文等。它是許多字符唯一一種字符編碼,其數據也常作為Unicode提案的起點。[4][5]但文字鏡的收錄標準比Unicode寬鬆許多,這使得文字鏡許多字符來源可疑,甚至可能是虛構的。[6][7]因此,雖然許多文字鏡收錄的字符尚未被Unicode收錄,但因各家標準不同,並非所有文字鏡字符都能收錄進Unicode。

組成

文字鏡字體(文字鏡フォント)是一系列TrueType字體,以一個ZIP格式文件封裝,每種字體約有2-5兆字節;不同字體包含的字符數也不同。[note 1]還有一個EXE格式字符映射集(文字鏡MAP),即MOCHRMAP.EXE。這允許用戶瀏覽文字鏡字體並複製、粘貼字符。相較於常規的Windows字符映射集或KCharSelect,MOCHRMAP.EXE還能顯示字符的文字鏡編碼。[8][note 2]為讓MOCHRMAP.EXE正常工作,須安裝所有字體(於C:\Windows\Fonts)。

編碼

文字鏡中字符編碼常用MJXXXXXX格式,類似於Unicode所用的U+XXXX格式。例如,變體假名U+1B008 𛀈 的文字鏡編碼為MJ090007,Unicode編碼為U+1B008。[9]兩者的不同之處在於,文字鏡編碼為十進制,Unicode的U+碼為十六進制

自Unicode創始開始,文字鏡既影響了標準,也受到了標準的影響—來自它的字形於2002年4月18日首次出現在提交給表意文字小組(IRG)的提案中,該小組負責Unicode所有中日韓統一表意文字區塊[10][11][12]。2007年5月,文字鏡提供了Unicode中西夏文的編碼,[13]到2002年10月,文字鏡中已經有約6千個西夏文單字。[14]

Unicode標準的Unihan資料庫將文字鏡稱作「日本国字集」,縮寫「JK」。[15]例如,U+2B679 𫙹 (⿰魚嵐)在日語中讀作blizzardブリザード|burizādo),其J源[note 3]就等於JK-66038。所有帶JK前綴的J源Unicode字符都來自文字鏡。[16][note 4]據字符編碼、東亞語言專家小林劍所說,截至Unicode 13.0,Unicode中有782個表意文字來自文字鏡,分布在2個Unicode區段中日韓統一表意文字擴展區C中367個,中日韓統一表意文字擴展區E中415個。[17][18]不是所有文字鏡來源的Unicode字符(JK前綴J源)都跟文字鏡字體相同,一些字符的形狀在最終編碼之前被改變了,調查顯示文字鏡分配的字形有誤。[7][note 5]

區段

截至2006年9月 (2006-09),它共編碼了17,4975個字符。[14]其中有15,0366個字符屬於擴展CJK文字區。[note 6][19]許多編碼的字符被認為是過時的或不必要的,且沒被任何其他字符集編碼,包括國際標準Unicode。每個文字鏡字符都有一個獨特的編號,許多字符的編號組成區段。

文字鏡依傳統康熙部首排序將中日韓文字放在不同區段中。含字極多的常見部首,如人部辵部進一步依筆畫數排序。

無統一性

文字鏡不像Unicode那樣試圖搭建統一漢字集,沒有嘗試緊湊編碼,也沒有將所有常用字符維持在U+FFFF以下。

Unicode則依據中日韓漢字的出現頻率分為若干塊,最常見的位於基本多文種平面[note 5]較生僻的位於輔助多文種平面

例如,人部有分別來自中國和日本的MJ054435()、MJ059031()兩個字符,Unicode中均為U+4EE4 <control-4EE4>

許可

今昔文字鏡是有限制性許可的專有軟體。最初,文字鏡研究所試圖阻止其字符數據的濫用,並威脅那些發布字符集轉換表的人。2010年7月,文字鏡研究所放棄了以法律阻止多個日本用戶發布轉換表或將文字鏡編碼字符轉換為Unicode或其他字符的努力。[20]單純的數據,有時包括字體,在許多司法管轄區被認為是共同財產,因為它們不符合原創性門檻

然而,由於這一遺留問題,GlyphWiki從2020年起不再允許使用文字鏡數據。[21]

書寫系統

至今存活

死文字

歷史

今昔文字鏡開發於1985年,1996年電子化[22]。1997年7月,大修館書店CD-ROM形式發佈其1.0版本[23],當時只收有不到8萬個字。1999年,在TrueType上搭載的2.0版本發售。

2001年收錄西夏文字,並發佈「今昔文字鏡 單漢字10萬字版」,收錄字數約102,300。同年收錄楷書。「文字鏡Web」網站也開始出現。

2006年發佈「今昔文字鏡 單漢字15萬字版」(4.0版),發佈專業版「Indexfont Ver. 1.0」。[24]

2008年3月末「文字鏡Web」關閉。[25]6月初「今昔文字鏡 UnicodeEdition」發售。[26]

2010年3月15日,發佈專業版「Indexfont Ver. 2.0」。[27]

2015年,開發者之一、社長古家時雄去世,改由石川忠久接手,於次年散會。為作紀念,文字鏡最新版開始作為免費軟體上傳到網際網路檔案館[28]

至今(2017年),今昔文字鏡的網路版都還在重新構築當中。[29]

2018年12月15日,4.0版本發布。次日,石川忠久宣布此為文字鏡最終版。

注釋

  1. ^ 官網 Archive.is存檔,存檔日期2019-12-29下載MojikyoCmap400ALL49TTF.7z
  2. ^ 官網 Archive.is存檔,存檔日期2019-12-29截圖
  3. ^ 這是Unihan資料庫中一個名,此處⟨J⟩為「日本來源文字」縮寫。行名全稱為kIRG_JSourceUnihan架構中共有9個此種來源。
  4. ^ 也有其他J源前綴,如J4表示其來自JIS X 0213:2004。
  5. ^ 5.0 5.1 當然,大型表意文字集的錯誤並不少見。這種錯誤甚至會發生在資金充足的政府製作的集合中,例如日本産業標準調査會JIS X 0208出處不明的漢字。所有這些幽靈漢字(如)雖不是真正的漢字,卻也能進入Unicode。
  6. ^ 對朝鮮、韓國指朝鮮漢字,對越南指喃字

參考文獻

  1. ^ 今昔文字鏡とは. [2013-01-18]. (原始內容存檔於2010-04-27). 
  2. ^ 今昔文字鏡について [About Mojikyō]. Mojikyō Institute. [2020-07-06]. (原始內容存檔於2001-02-03) (日語). 
  3. ^ ようこそ、今昔文字鏡の世界へ! [歡迎來到文字鏡的世界!]. Kinokuniya KK. [2020-07-05]. (原始內容存檔於2005-03-04) (日語). 
  4. ^ Takada, Tomokazu; Yada, Tsutomu; Saito, Tatsuya. Proposal for hentaigana (PDF). 由Kobayashi, Tatsuo; Kobayashi, Daniel翻譯. Information Processing Society of Japan. 2015-09-18 [2020-07-05]. L2/15-239. (原始內容 (PDF)存檔於2021-07-28) –透過Unicode Consortium. 
  5. ^ Hiura, Hideki; Kobayashi, Tatsuo; et al. Ideograph Variation Selector and Variation Collection Identifier. Open Internationalization Initiative. 2003-10-31 [2020-07-05]. L2/03-413. (原始內容存檔於2022-04-07) –透過Unicode Consortium. 
  6. ^ Takada, Tomokazu [高田智和]; Oda, Tetsuji [織田哲治]; et al. 平成25年度第3回文字情報検討サブワーキンググループ議事録 (PDF). Information Technology Promotion Agency, Government of Japan: 2. 2013-08-26 [2020-07-06]. (原始內容 (PDF)存檔於2020-07-06) (日語). 文字鏡研究會の関係者にヒアリングしたところ、オランダから提案されたWG2 N36981には文字鏡のフォントが使用されているが、文字鏡研究會は関與しておらず、提案內容についても疑問があるとのことであった。 
  7. ^ 7.0 7.1 Suzuki, Toshiya [鈴木俊哉]. 統合漢字に申請された「殷周金文集成引得」図形文字の調査. IPSJ SIG Technical Report (Information Processing Society of Japan). 2009-07-30,. 2009-DD-72 (7): 2 –透過網際網路檔案館 (日語). しかし、拡張Cの標準化作業が8年の長期にわたり、また事後的に用例が必須とされたため、正式に公布された拡張C漢字の典拠は當初の典拠とはかなり異なるものとなっている。たとえば日本では當初は文字鏡研究會によって選定された1000文字程度の漢字を申請していた。[...] 典拠用例確認は文字鏡とは獨立に行なわれたため、字形が文字鏡漢字から変更されたものも多い。 
  8. ^ Ishikawa, Tadahisa. パソコン悠悠漢字術 今昔文字鏡徹底活用. Mojikyō Institute. 1999-05-25 [2020-07-06]. (原始內容存檔於2021-09-04). 
  9. ^ MJ文字情報一覧表. Information Technology Promotion Agency. [2020-07-05]. (原始內容存檔於2018-09-29) (日語). 
  10. ^ Unicode Standard Annex #45: U-source Ideographs. The Unicode Standard. Unicode Consortium. [2022-02-06]. (原始內容存檔於2022-04-01). 
  11. ^ Appendix E: Han Unification History (PDF). The Unicode Standard. Unicode Consortium. March 2020 [2022-02-06]. (原始內容 (PDF)存檔於2022-04-02). 
  12. ^ CJK Extension C1 From Japan. Ideographic Rapporteur Group. [2022-02-06]. IRG#19 N895. (原始內容存檔於2020-07-07) –透過The Chinese University of Hong Kong's Department of Computer Science and Engineering. N895-Japan_C1 
  13. ^ Cook, Richard. Proposal to encode Tangut characters in UCS Plane 1 (PDF). UC Berkeley Script Encoding Initiative. 2007-05-09: 4 [2022-02-06]. L2/07-143. (原始內容 (PDF)存檔於2022-03-03) –透過Unicode Consortium. 
  14. ^ 14.0 14.1 今昔文字鏡とは [What is Mojikyō?]. Kinokuniya KK. [2020-07-05]. (原始內容存檔於2005-02-05) (日語). 
  15. ^ Jenkins, John H.; Cook, Richard; Lunde, Ken (編), kIRG JSource, Unicode Standard Annex #38, Unicode Consortium, 2020-03-05 [2022-02-06], (原始內容存檔於2022-04-01) 
  16. ^ Ken Lunde [@ken_lunde]. JK-prefixed J-Source ideographs came from 今昔文字鏡, which are in Extensions C and E (the mention of Extension D was simply that what became Extension E was originally targeted to become Extension D). (推文). 2020-07-06 [2020-07-06] –透過Twitter. 
  17. ^ Ken Lunde [@ken_lunde]. In particular, all 782 JK-prefixed ideographs are indeed from 今昔文字鏡 per IRG N862. Most were encoded in #ExtensionC, and the stragglers were encoded in #ExtensionE.. (推文). 2020-07-06 [2020-07-06] –透過Twitter. 
  18. ^ Ken Lunde [@ken_lunde]. 367 JK-prefixed ideographs are in Extension C, and the remaining 415 are in Extension E.. (推文). 2020-07-06 [2020-07-06] –透過Twitter. 
  19. ^ 今昔文字鏡とは [About Mojikyo]. Kinokuniya KK. [2020-07-05]. (原始內容存檔於2010-04-27) (日語). 
  20. ^ 終戦宣言 [Announcement: The War is Over]. ja:青蛙亭漢語塾 28 January 2016. 2010-07-21 [2020-07-07]. (原始內容存檔於2022-02-26) (日語). 
  21. ^ データ・記事のライセンス. GlyphWiki 9 2010年6月. [2020-07-06]. (原始內容存檔於2022-03-23). 今昔文字鏡およびその関連製品、データは、そのライセンス上グリフウィキには用いることができません。文字鏡番號(獨自部分)および文字鏡のフォントに収録されているグリフそのもの、およびそれを參照、利用して作成していると判斷できる情報は、グリフウィキに登録する際の典拠とすることはできませんので、ご協力をお願いいたします。 
  22. ^ 石川, 忠久. 古家時雄君を悼む [哀悼古家時雄君]. Mojikyō Institute. 2015年8月 [2020-07-08]. (原始內容存檔於2019-12-29) (日語). 
  23. ^ 今昔文字镜 今昔文字鏡, July 1997, ISBN 9784314900034 (日語) 
  24. ^ XP[32ビット版](NT5.1)・Vista(NT6.0)[32ビット版]にのみ対応。「Windows XP Mode」上での動作についてはサポート対象外。
  25. ^ 文字鏡WEB概要. [2008-04-01]. (原始內容存檔於2008-03-07). 
  26. ^ 今昔文字鏡UnicodeEdition(WindowsNT-2000-XP-Vista - 文書作成). [2008-11-23]. (原始內容存檔於2009-03-06). 
  27. ^ XP(NT5.1)・Vista(NT6.0)[32bit版]・7(NT6.1)[32 / 64bit版]にのみ対応。XP x64 Edition(NT5.2)・Vista(NT6.0)[64bit版]および「Windows XP Mode」上での動作についてはサポート対象外。
  28. ^ Search: creator:"MOJIKYO Institute". 網際網路檔案館. [2020-07-06] (英語). 
  29. ^ 存档副本. [2013-08-07]. (原始內容存檔於2019-01-09). 

外部連結