維基百科:機器人/申請/WhitePhosphorus-bot/2

  • 狀態 已批准
  • 操作者: 碸中嘌呤的白磷萃取 打譜
  • 提請時間: 2017年2月5日 (日) 18:04 (UTC)
  • 自動化程度:全自動
  • 程式語言Python
  • 用途:清理Category:引文格式1維護:未識別語文類型
  • 源代碼連結: 部分代碼見下
  • 編輯時段及頻率:不定期運行,編輯頻率最大60/min
  • 受影響頁面:上述分類中的條目數,截至申請時為14,818。
  • 遵守機器人規範不相關
  • 已有機器人權限:
  • 其他信息
    • 只替換「Cite 」(注意空格)開頭的模版中的language參數。
    • 測試編輯見此,其中有些問題:
    • 重要代碼如下(整個字典的key是將被替換的正則表達式,value是替換成的字符串,按順序替換)(最後更新於2017年2月6日 (一) 09:21 (UTC))
sub_dict = {
r'中文\s*[((](简体?|簡體?)[))]|[简簡]体(中文|[汉漢][语語])': 'zh-hans',
r'中文\s*[((]繁[体體]?[))]|繁体(中文|[汉漢][语語])': 'zh-hant',
# r'中文|[汉漢][语語]|[Cc]hinese': 'zh', 这句会有问题(不符合上面两句的都只会把“中文”替换成“zh”),第一轮先不用
r'英[语語文]|[Ee]nglish': 'en',
r'日[语語文]|[Jj]apanese|ja-JP': 'ja',
r'法[语語文]|[Ff]rench': 'fr',
r'荷[兰蘭]?[语語文]|[Dd]utch|[Nn]ederlands': 'nl',
r'德[语語文]|[Gg]erman|[Dd]eutsch': 'de',
r'俄[语語文]|[Rr]ussian': 'ru',
r'(韩|朝鲜?|韓國?)[语語文]|[Kk]orean': 'ko',
r'意(大利)?[语語文]|[Ii]talian': 'it',
r'希伯来[语文]|希伯來[語文]|[Hh]ebrew': 'he',
r'塞尔维亚[语文]|塞爾維亞[語文]|[Ss]erbian': 'sr',
r'立陶宛[语語文]|[Ll]ithuanian': 'lt',
r'乌克兰[语文]|烏克蘭[語文]|[Uu]krainian': 'uk',
r'土耳其[语語文]|[Tt]urkish': 'tr',
r'西班牙[语語文]|[Ss]panish': 'es',
r'拉丁[语語文]|[Ll]atin': 'la',
r'[及与與和、]|and': ',' # 放在最后比较安全
}
我建議最好是把字典打散,每次執行只替換一個正則內容,然後手工抽查沒啥問題後,再執行下一條替換。以上建議只是為防止bot出錯,如果正則已經基本窮盡了各種可能性,那麼一次過執行也未嘗不可--百無一用是書生 () 2017年2月10日 (五) 07:32 (UTC)[回覆]
確實有道理,畢竟這個也不急。那幾個小語種(上文義大利語到拉丁語)我想放一起執行,應該一共也沒多少。 --碸中嘌呤的白磷萃取 打譜 2017年2月10日 (五) 14:30 (UTC)[回覆]
  正式批准運作--百無一用是書生 () 2017年2月13日 (一) 09:15 (UTC)[回覆]