維基百科:字詞轉換/修復請求

字詞轉換
主頁 討論
轉換請求
錯誤修復請求
地區詞候選
轉換介紹
字詞轉換處理 討論
  繁簡處理 討論
  地區詞處理 討論
  公共轉換組 討論
說明文件
繁簡與地區詞處理 討論
  轉換原理 討論
  手工轉換 討論
  進階語法 討論
  用字模式選擇說明
相關模板
NoteTA 全文字詞轉換
CGroup 公共轉換組列表
Lan 介面文字轉換
地區用詞 地區詞模板
地區用詞2 進階地區詞模板
各地中文名 地區用詞資訊框
檢視 - 討論 - 編輯 - 變動

本頁面為維基百科:字詞轉換下屬子頁面,用於處理各維基計劃全域轉換和中文維基百科本地全局轉換中的所有繁簡地區詞錯誤轉換修復的請求。

返回字詞轉換主頁 提交錯誤轉換修復新請求

轉換與修復原理

由於簡體中文、繁體中文之間存在一對多現象,即以單一簡化字或繁體字來對應多個繁體字或簡化字[1][2],因此必須有額外的資料來補足原先丟失的資訊。例如,繁體中的「髮」或「發」,在簡體下都是「发」。在程式裡,我們有一個預設的對應,比如說「發」。那麼一般情況下要從簡體轉換成繁體時,程式遇到「发」就會先將其轉換成「發」。那麼什麼時候對應成「髮」呢?這就要看詞庫而定。比如詞庫中有「头发=>頭髮」的關係,這樣「头发」就會被轉換成「頭髮」。如果沒有這一關聯,那「头发」就會被錯誤地轉換成「頭發」。

那詞庫是如何建立的呢?我們先有每個字的預設對應,比如「发」轉換成「發」。然後我們在一個現有的繁體詞庫中尋找包含繁體「發」的詞,再轉換成簡體。這樣得到一個從簡體到繁體的詞彙對應關係。所以,我們先要確定一個多對應字的預設對應關係。同樣,修復過度轉換也是由上述的方法來處理。

外部連結

錯誤轉換修復請求

瑙鲁兹

狀態:   等待回覆中

請修復簡體模式下錯誤轉換:「瑙鲁兹」,正確轉換應為「诺鲁兹」。出錯頁面:設拉子。其他說明:因為全局轉換中 諾魯-> 瑙魯 的轉換引入。諾魯茲節或諾魯孜節是中亞比較重要的節日。另外繁體也不需轉換,應為"諾魯茲"。見[1][2][3][4][5]--Kethyga留言2024年3月7日 (四) 09:37 (UTC)[回覆]

  已修復,去除本規則。已修復於Update 2024-2(Gerrit:1040810),請耐心等待服務器更新。—Chiefwei - 2024年6月9日 (日) 11:35 (UTC)[回覆]
現在只是把香港繁體的規則去掉了,簡體的沒去掉--屠麟傲血留言2024年6月10日 (一) 01:55 (UTC)[回覆]
@Chiefwei,你沒修完。--Txkk留言2024年6月15日 (六) 04:20 (UTC)[回覆]

日裡

狀態:   等待回覆中

請修復繁體模式下錯誤轉換:「日裡」,正確轉換應為「日里」。出錯頁面:日裡等大量條目。

此二字似乎是作爲一詞或「這段時日裏」等表述的一部分轉換,但是日里二字在中文維基百科更常見於音譯地名人名中,或者日與前文相連而里作爲後文音譯詞彙的一部分。宜將此條規則從php中去除或使用中文維基百科的轉換表覆蓋。之後也許可以額外將「時日裏」等比較常見且不會過度轉換的詞彙加入轉換規則。——留言2024年3月19日 (二) 07:01 (UTC)[回覆]

其他條目,標題中的比如日裡縣日裡雪冷縣拉維日裡弗拉基米爾·日裡諾夫斯基Special:Search/intitle:"日裡"。文本中的,比如臺北縣 (日治時期)中,日里其實是度量單位,2016年夏季奧林匹克運動會中國代表團中「2016年7月18日里約奧運」=>zh-tw:「2016年7月18日裡約奧運」,其他見Special:Search/insource:/日裡/(日+專有名詞中的里)。
想到幾個中文可能用到的「冬日裡、連日裡、整日裡、終日裡、數日裡、春日裡、秋日裡、夏日裡、幾日裡、十日裡、時日裡、一-九日裡、工作日裡、白日裡、節日裡、平日裡」,其他可見北京大學CCL語料庫,不過有些可能非百科式常用詞彙,比較像文學類詞彙。--Kethyga留言2024年3月19日 (二) 23:06 (UTC)[回覆]
可以參考年里/裏/裡、月里,日和年、月的實際用法還有差異,不過最終還得手動復檢。--Kethyga留言2024年4月1日 (一) 16:37 (UTC)[回覆]
  已修復於Update 2024-2(Gerrit:1040810),請耐心等待服務器更新。—Chiefwei - 2024年6月9日 (日) 11:35 (UTC)[回覆]
zh-hk模式下打成春日裡了--屠麟傲血留言2024年6月9日 (日) 15:32 (UTC)[回覆]

狀態:   等待中

請修復簡體模式下錯誤轉換:「峯」,正確轉換應為「峰」。出錯頁面:金峯山寺。其他說明:峯在《通用規範漢字表》作為峰的異體字,同羣和群。--Kethyga留言2024年4月7日 (日) 09:56 (UTC)[回覆]

異體字是相互的,不等同於繁體字。雖然有些異體關係中存在正體字,但是「峯」並不罕見於簡體中文環境的人名地名專名,不宜統統被「峰」取代。--— Gohan 2024年4月28日 (日) 07:49 (UTC)[回覆]
簡體中文環境常見「峯」?「峯」在《通用規範漢字表》中就是「峰」的異體字,繁體字和異體字在《中華人民共和國國家通用語言文字法》的地位是完全一致的,都是限定在一些場合使用(見第十七條),在中維的轉換規則自然也應視同繁體字(既是規範漢字又作為另一個字異體字的情況除外,如「喆」「昇」等,但繁體字同有這種情況如「乾」,仍進一步說明它們地位是一致的)。既然異體字「棄」轉換為了「弃」,「峯」當然也應轉換,正式場合中國大陸也用「林峰」而不用「林峯」([6])。--自由雨日留言2024年6月9日 (日) 16:06 (UTC)[回覆]
維基的轉換規則不會完全拘泥於《通用規範漢字表》規定,因為規定往往是滯後的,當前媒體與社會的用字傾向隨時有可能突破(近年甚至出現了黄霄雲這樣的極端人名用字,但目前只是孤例)。不過對於本案,仍可繼續討論。—Chiefwei - 2024年6月10日 (一) 03:08 (UTC)[回覆]
感謝閣下提醒!您的回覆給了我很大啟發。不過……《通用規範漢字表》雖可能滯後,但卻是強符合「可供查證」的(以及相對滯後也意味着相對穩定),根據媒體社會用字傾向來決定轉換,是否會有原創研究/總結之嫌?比如黃霄雲,在今年(2024年)文聯旗下中國文藝網中的人名還是「云」而非「雲」([7]),在看不到當事人身份證的情況下,不同可靠來源中有不同用字,該如何定奪呢?--自由雨日留言2024年6月10日 (一) 03:24 (UTC)[回覆]
請閣下留意簡體字在維基百科並非只有中國大陸使用——也會影響星馬用字,並區分「應然」與「實然」。維基百科的「應然」取決於現實的「實然」,而不由中國大陸的「應然」決定。另外,對於中國大陸,仍有不少人「名」中違法使用異體字,也曾鬧出不少交通站名借字改地名引發爭議、甚或最終改回異體字原名的新聞。--— Gohan 2024年6月13日 (四) 07:29 (UTC)[回覆]

狀態:   等待中

請修復大陸簡體模式下錯誤轉換:「鳽」,正確轉換應為「𫛚」。出錯頁面:小葦鳽。其他說明:疑似在中日韓統一表意文字擴展區內的部分簡化字有數個並未被順利轉換成對應的繁體,並導致小葦𫛚小葦鳽不被視作同等詞彙。另外可能一些同樣以鳥部類推簡化的字,如F區「𮭥」也有有類似情況。(但與𫛚字同區的「鵟」就有成功轉換。)--WiTo🐤💬 2024年4月24日 (三) 08:37 (UTC)[回覆]

@T45614631「𫛚」和「𮭥」屬於通用規範漢字表以外的漢字(簡稱「表外字」)而「鵟」屬於表內字。表內字肯定是得到簡化了的,但表外字是否需要類推簡化具有爭議性,因為中國政府態度模糊並未明言表外字需要或不需要簡化(多數實際操作中類推簡化了)。我不是要說上述兩個字不可以簡化,但可能需要更多討論。可以看這裡關於應不應該無限類推簡化的一堆文章。另外我想到了植物也有一個「苦蘵」,當中的「蘵」要不要簡化也可以討論一下。--微腫頭龍留言2024年5月6日 (一) 09:58 (UTC)[回覆]
好,我去客棧開個話題。--WiTo🐤💬 2024年5月6日 (一) 15:30 (UTC)[回覆]
等待共識,暫不處理。—Chiefwei - 2024年6月9日 (日) 11:35 (UTC)[回覆]

相信託洛茨基

狀態:   待修復

請修復臺灣正體模式下錯誤轉換:「相信託洛茨基」,正確轉換應為「相信托洛茨基」。出錯頁面:第一次莫斯科審判。其他說明:信托會轉換為信託,和相信托洛茨基毫無關係--SingBow留言2024年6月11日 (二) 16:43 (UTC)[回覆]

佔多索夫

狀態:   待修復

請修復香港繁體模式、澳門繁體模式下錯誤轉換:「佔多索夫」,正確轉換應為「占多索夫」。出錯頁面:奧拉茲·占多索夫。--Txkk留言2024年6月15日 (六) 04:17 (UTC)[回覆]

祇是

狀態:   待修復

請修復簡體模式下錯誤轉換:「祇是」,正確轉換應為「只是」。出錯頁面:阿爾巴尼亞語。其他說明:單獨的祇是多音多義字,但是「祇是」(zhǐshì)非多義詞,另外雖然不甚常用,應該不算錯。《重編國語辭典修訂本》收錄了「祇是」。--Kethyga留言2024年6月15日 (六) 12:17 (UTC)[回覆]

Wikipedia:繁簡體轉換請求/增加cn:只tw:祗、祇,另外有「祇要」、「祇有」、「祗是」、「祗要」、「祗有」。(Unicode U+7957)、(Unicode U+7947)--Kethyga留言2024年6月15日 (六) 12:32 (UTC)[回覆]