莱葩

自動翻譯評測工具

萊葩(英文名LEPOR)是自動評測翻譯質量的計算模型。最早公佈的版本始於2012年的機選語言學年度會議COLING。此評測模型不依賴於具體語言,可以方便應用於多種語言。此模型設計包含較豐富的評測指標因素以及可調參數。參數設置是為了滿足不同話題和不同語種下的相關需求。


背景研究

自從IBM研究團隊提出自動翻譯評測模型BLEU [1] 之後,自動翻譯評測得到很多廣泛應用,因為其耗時少並且花費少,方便快捷,對機器翻譯系統的開發工作提供很大的推動作用。榆次同時,很多科研人員對此模型進行了分析,發現很多不足之處。陸續出現的自動評測模型包括METEOR,[2]等。但是目前的評測模型仍然面臨很多不足之處,比如,評測指標設計不夠完整,導致評測不準確,評測偏差;以及,使用過多的語言學特征來提高評測質量,但是導致評測結果不易重複。萊葩評測工具[3]的提出是基於對存在問題的研究,努力克服這些議題,設置廣泛的評測因子提高評測準確性,減少語言學特征來使得評測過程可重複性好。[4]

模型設計

萊葩翻譯評測模型包含三個主要指標:長度懲罰,位移懲罰,準確度和召回率。 萊葩修改BLEU的長度懲罰因子,對簡短和冗長句子都進行懲罰係數設置。基於前人研究工作的位移懲罰設置[5],萊葩加入n元詞對齊的語言學上下文考慮。準確率和召回率是反應翻譯質量輸出準確性和對原文忠實度的重要指標。

模型表現

萊葩模型在國際機器翻譯年度會議WMT的從屬比賽上取得優秀的表現 ACL页面存档备份,存于互联网档案馆) (ACL-WMT页面存档备份,存于互联网档案馆)). 在年度比賽ACL-WMT 2013,[6]中,萊葩對英語到其他語言的翻譯評測最接近人工評測,使用Pearson先關係數,取得五個語言對平均(英-法,英語-西班牙語,英語-捷克語,英語-德語,英語-俄語)相關分數排名第一。 在英語為目標語言的評測上另一個評測模型METEOR取得第一。 跟進的使用詞性標註信息的萊葩評測模型表現出更好的分數[7]

相關鏈接

注釋

  1. ^ Papineni et al., (2002)
  2. ^ Banerjee and Lavie, (2005)
  3. ^ Han et al., (2013a)
  4. ^ Han et al., (2014)
  5. ^ Wong and Kit, (2008)
  6. ^ ACL-WMT (2013)
  7. ^ Han (2014)

參考文獻

  • Papineni, K., Roukos, S., Ward, T., and Zhu, W. J. (2002). "BLEU: a method for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311–318
  • Han, A.L.F., Wong, D.F., and Chao, L.S. (2012) "LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors" in Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012): Posters, pp. 441–450. Mumbai, India. Online paper页面存档备份,存于互联网档案馆Open source tool页面存档备份,存于互联网档案馆
  • Han, A.L.F., Wong, D.F., Chao, L.S., He, L., Lu, Y., Xing, J., and Zeng, X. (2013a) "Language-independent Model for Machine Translation Evaluation with Reinforced Factors" in Proceedings of the Machine Translation Summit XIV (MT SUMMIT 2013), pp. 215-222. Nice, France. Publisher: International Association for Machine Translation. Online paper页面存档备份,存于互联网档案馆Open source tool页面存档备份,存于互联网档案馆
  • Han, A.L.F., Wong, D.F., Chao, L.S., Lu, Y., He, L., Wang, Y., and Zhou, J. (2013b) "A Description of Tunable Machine Translation Evaluation Systems in WMT13 Metrics Task" in Proceedings of the Eighth Workshop on Statistical Machine Translation, ACL-WMT13, Sofia, Bulgaria. Association for Computational Linguistics. Online paper页面存档备份,存于互联网档案馆 pp. 414–421
  • Han, A.L.F., Wong, D.F., Chao, L.S., He, L., and Lu, Y. (2014) "Unsupervised Quality Estimation Model for English to German Translation and Its Application in Extensive Supervised Evaluation" in The Scientific World Journal. Issue: Recent Advances in Information Technology. ISSN 1537-744X. Hindawi Publishing Corporation. Online paper
  • ACL-WMT. (2013) "ACL-WMT13 METRICS TASK页面存档备份,存于互联网档案馆)"
  • Wong, B. T-M, and Kit, C. (2008). "Word choice and word position for automatic MT evaluation" in Workshop: MetricsMATR of the Association for Machine Translation in the Americas (AMTA), short paper, Waikiki, US.
  • Banerjee, S. and Lavie, A. (2005) "METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments" in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, June 2005
  • Han, Lifeng. (2014) "LEPOR: An Augmented Machine Translation Evaluation Metric". Thesis for Master of Science in Software Engineering. University of Macau, Macao. Thesis页面存档备份,存于互联网档案馆PPT页面存档备份,存于互联网档案馆

軟件鏈接