Google翻译

多语种机器翻译服务
(重定向自谷歌翻譯

谷歌翻譯(英語:Google Translate)是一項由Google於2006年開始提供的翻譯文段及網頁的服務[3]。與其他網站巴別魚美国在线雅虎使用的SYSTRAN引擎不同的是,Google使用自己開發的翻譯引擎。至2015年6月,Google翻译每天需要處理超過10億筆字詞[4]。2016年,Google翻譯正式於英語-拉丁語翻譯中引入Google神經機器翻譯系統,並已於2017年3月前成功將其拓展至所有語言上[5]

Google翻譯
网站类型
机器翻译
语言#翻译语言
持有者Google
创始人Google
网址translate.google.com 編輯維基數據鏈接
商业性质
注册
推出时间2006年4月28日,​18年前​(2006-04-28统计机器翻译[1]
2016年11月15日,​8年前​(2016-11-15神经机器翻译[2]
现状活躍

Google翻譯提供即時翻譯功能(即時輸入即時翻譯),使用者可以在左邊的輸入欄位輸入文字,翻譯結果會即時在右邊的結果框顯示。將鼠標移到翻譯結果文字上可以看到其對應的原文。此外,Google翻譯亦提供朗讀功能(包括原文和譯文),使用者亦可查看中文拼音日文羅馬字、及韓文似,Google翻譯亦有其自身功能侷限。雖然用戶可以通過其幫助來大致理解以外文書寫的文章大意,但Google翻譯服務無法提供準確的譯文,也不能提供可用於出版的內容,例如,它經常會不依據上下文來翻譯詞彙,而且會在翻譯時不遵守語法規則,這是因為其機器翻譯算法與傳統的基於語法分析的算法不同,採用的是基於統計分析的算法。而Google翻译的质量也与语种有关,当源语言是一种欧盟语言,而目标语言是英语时,往往质量较好。2010年的分析显示,法语到英语的翻译相对準確[6],2011年和2012年的分析显示意大利语到英文的翻译同样相对準確[7]。2021年,加州大学洛杉矶分校医学中心(UCLA Health)的一項研究表明,英語翻譯至西班牙語的準確率有94%,英語翻譯至亞美尼亞語的準確率只有55%[8]。然而,当所翻译的文本较短时,其他规则法机器翻译(rule-based machine translation)却表现得更好,这在中文到英语的翻译中尤为明显[6]

世界各地Google翻译朗读使用的英语口音
  英国英语(女声)
  美国英语(女声)
  大洋洲口音(女声)
  印度口音 (女声)
  无Google翻译服务

使用较广泛的语言都有“朗读”功能,对多中心语言而言,朗读采用的口音取决于所在地区。

方法

Google翻譯採用的翻譯方法稱作“統計機器翻譯”,具體而言,採用的是基於Franz-Josef Och參加2003年美國國防部高級研究項目局(DARPA)的機器速度翻譯競賽時獲獎的研究成果。Och現在領銜Google機器翻譯小組。

根據Och的說法[9],若想要開發一個可用於翻譯一對全新語言對的統計機器翻譯系統,必須做好如下的數據基礎蒐集才能有保障:一個擁有百萬的單字數量級別的雙語文本語料庫(或者其平行庫集合),以及屬於這兩種語言的單語語料庫,各自得擁有十億以上的單字。然後,用於翻譯這一對語言的機器翻譯結果就會通過這些數據產生的統計模型而得出。

為了獲取這種海量容量的語言學資料,Google採用了聯合國文檔作為語料庫內容來源。[10]由於同樣的一份聯合國文檔通常會有屬於六種聯合國官方語言的譯本,因此,Google如今就擁有了一個相當於經人工翻譯了兩百萬單字的七種語言的語料庫。

而這一點很可能就是Google翻譯之所以一開始專注的是開發英語阿拉伯語中文之間的翻譯系統,而非英語和日語或英語和德語這兩對語言之間的翻譯系統的原因。因為阿拉伯語和中文屬於聯合國六種官方語言,而日語、德語不是。

翻译语言

目前Google支持翻译249种语言。(按开始提供的时间顺序排列)

2008年5月以前

2008年9月25日开始

2009年1月30日开始

2009年6月19日开始

2009年8月25日开始

2010年1月25日开始

2010年5月13日开始[11]

2010年9月25日开始

2011年6月21日开始[13]

2012年2月22日开始

2012年9月开始

2013年4月开始

2013年5月开始

2013年12月开始

2014年12月开始

2016年2月开始

2020年3月开始

2022年5月开始

2024年6月开始

2024年10月开始

停止开发的语言

  1. 卢欧-阿乔利语(Luo)(Acholi 阿乔利语)
  2. 奥里贝什文英语Aurebesh(2015年11月推出,2016年2月删除)

有朗读服务的语言

机械朗读

人声朗读

女声

男声

[16]

整合

瀏覽器

划取翻译功能是现代浏览器的重要基础功能,翻译的集成意味着打破文化壁垒,Opera和Firefox的翻译插件亦是利用谷歌翻译API作为扩展程序的核心外部接口。不过当下许多浏览器厂商,在浏览器大战背景下,出于激烈竞争,已经做出了一站式服务,例如Windows10中自带的MicrosoftEdge,微软专门为此定制了浏览器插件版的微软必应翻译。

字典軟件

开发者可以利用谷歌提供的API,对软件集成联网翻译功能。这些软件通常是通过集成翻译功能,实现对原有用途的用户需求满足,所完善而来。例如阅读软件、在线资料搜索时集成的WebJS小程序,由于信息技术的普遍应用和入口之争以及成熟度,目前已不再有着垄断地位,也就不存在增加翻译功能需要收费或是插广告,除非是态度问题,否则一般会作为硬性标准。

掌上翻译程序/电子词典

当今智能手机和平板电脑平台上,亦有很多基於Google翻譯而衍生成的翻译软件。不但在今日动则几十M的软件膨大趋势下做到了体积小巧,而且可以下载离线字典调用,甚至可以翻译屏幕上光标停按的部分。

争议

中文政治类误译事件

中文谷歌翻译曾多次在两岸关系中国内地与香港关系等政治类议题上出现误译,引发争议。

2006年、2007年,谷歌翻译相继出现「辱华」翻译,「I thought this was shame(我认为这是一个耻辱)」被误译为「我认为这是中国的耻辱」,「物极必反」被误译为「Taiwan independence(台湾独立)」。[17]

2012年,有网友发现「Taiwan is not a part of China(台湾不属于中国)」被误译为「台湾是中国的一部分」。若将句中的台湾换成其他国家,误译同样成立。另外无论输入「Diaoyu Islands is not a part of Taiwan」或「Diaoyu Islands is not a part of Taiwan」,均会出现「钓鱼岛属于台湾」。[18]

2018年,谷歌翻译在「A比B厉害」这一类句子的翻译上出现错误,「中国比台湾厉害」被翻译成「China is worse than Taiwan」,即「中国比台湾差」[19][20]

2019年香港反对逃犯条例修订草案运动期间,网友发现「so sad to see Hong Kong became China(很难过看到香港变成中国)」被误翻译为「很高兴看到香港变成中国」。网友猜测有组织对谷歌翻译进行攻击,从而影响翻译结果。[21]

2020年,台湾网友指谷歌翻译即使在选择繁体中文的情况下,仍会出现较多中国大陆习惯用语,如「President Tsai Ing Wen(蔡英文总统)」竟被翻译成「蔡英文主席」。同样的错误在微软翻译中也有发生。有台湾网友担忧台湾习惯用语会因翻译软件流行而被大陆习惯用语取代。[22]

2021年1月,有网友发现「China breaks promise(拉)」被误译为「中国信守承诺」。但将中国替换成其他国家后并不会出现错误翻译。[23]

2021年11月26日,有中国大陆网友发现,在谷歌翻译的英文翻中文程序中,在英文对话框输入“艾滋病毒”等相关词汇,对应的中文翻译就会出现恶毒攻击中国的词汇[24]。该消息经部分媒体及安徽团省委的微博发布后,一度登上微博热搜,并导致大批中国大陆网友在评论区表示抗议,称该事件为“人为导致”,也有网友在验证后发现部分结果还出现攻击美国、俄罗斯等国的词语。同日晚间,Google官方微博@Google黑板报先是在北京时间22:03发布微博,表示“我们已经了解到Google翻译出现的问题并正在解决。”随后在23:14分,Google在微博上表示问题已经解决,并称“Google翻译是一个自动翻译器,通过数百万已有翻译的模式为用户找到最佳翻译,然而有些模式会导致错误的翻译。”[25]而有网友在验证后表示,该事件疑似为有预谋及通过机械学习等行为操纵的行为,所谓“辱华”流程的验证逻辑与用户的正常使用习惯不同,该次事件与2009年谷歌涉黄事件之中出现“儿子母亲不正当关系”等“涉黄”联想词的行为类似[26]

俄文误译事件

2022年4月9日,据多家俄罗斯媒体报道,在谷歌翻译的英文翻俄文程序中,在英文对话框中输入词组“亲爱的俄罗斯人(dear russians)”后,程序会建议将该词组替换成“死去的俄罗斯人”,并且在翻译后的俄文对话框中该词组中的形容词“亲爱的”会被替换成“死去的”,但是在翻译该词组中带有其他国家的名称时,则没有出现上述错误。[27]目前Google已纠正该错误。

于中国大陆之现状

2014年5月31日起,Google所有服务(各个IP段)在中国被大规模干扰至今[28],但因为翻译及地图网页版服务有域名后缀为.cn的入口,并且使用了专门设立在中国境内的服务器和IP地址,所以翻译及地图网页版仍然能正常服务。

2017年3月29日起,中国大陆用户可以直接使用Google翻译而不需要使用代理。在此之前,翻译需使用代理而无法直接翻译,但下载离线翻译包后可使用离线翻译进行翻译。[29][30]

2021年9月初,大量用户表示谷歌翻译app在不使用代理的情况下仅可使用转录,但网页版还能正常使用。[來源請求]

2022年9月26日,谷歌中国搜索页面到Google翻译的链接被移除[31]。9月29日,Google将位于.cn域名的Google翻译网站关闭,只留下一个到.hk域名的跳转页面,并像搜索页面一样标记“请收藏我们的网址”[32][33],这意味着Google翻译服务已不在谷歌中国的网站上提供。9月30日,一名Google发言人告诉TechCrunch关闭该服务的原因是“使用率低”[34][35]。这一变化影响了中国用户的文档查看器KOReader等应用程序的翻译功能,以及Chrome的内置翻译功能[35][36][37]

彩蛋

Google翻译曾经内置有一个小彩蛋,在输入特定文字后让程序朗读,可以输出Beatbox的效果。[38]目前该彩蛋已经移除。

參見

參考資料

  1. ^ Orch, Franz. Statistical machine translation live. Google Research Blog. April 28, 2006 [December 1, 2016]. (原始内容存档于2017-03-20). 
  2. ^ Turovsky, Barak. Found in translation: More accurate, fluent sentences in Google Translate. The Keyword Google Blog. November 15, 2016 [January 11, 2017]. (原始内容存档于2017-04-07). 
  3. ^ Google Translate. [2019-01-24]. (原始内容存档于2016-02-14). 
  4. ^ 世界滿溫情~Google日翻1千億字 翻最多的竟是我愛你. ETtoday新聞雲. 2015-06-24 [2015-06-27]. (原始内容存档于2019-12-11). 
  5. ^ See which features work with each language. [July 9, 2017]. (原始内容存档于2021-01-12). 
  6. ^ 6.0 6.1 Comparison of online machine translation tools. (原始内容存档于2011-02-10). 
  7. ^ Microsoft Bing Translator and Google Translate Compared. [2013-08-29]. (原始内容存档于2013-11-07). 
  8. ^ 谷歌翻译大型翻车现场:请服用“反坦克导弹”来缓解疼痛. [2021-03-20]. (原始内容存档于2021-04-19). 
  9. ^ 於2005年機器翻譯峰會上的主旨演講
  10. ^ 存档副本. [2009-01-06]. (原始内容存档于2021-01-18). 
  11. ^ Five more languages on translate.google.com. Google. 2010-05-13 [2010-10-11]. (原始内容存档于2016-05-27) (英语). 
  12. ^ Veni, Vidi, Verba Verti. Google. 2010-09-30 [2010-10-11]. (原始内容存档于2020-11-09) (英语). 
  13. ^ Google Translate welcomes you to the Indic web. Google Translate Blog. [2020-10-10]. (原始内容存档于2020-12-30). 
  14. ^ Tutmonda helplingvo por ĉiuj homoj. Google. 2012-02-22 [2012-03-17]. (原始内容存档于2016-03-05) (英语). 
  15. ^ 时隔四年,谷歌翻译新增5种支持语言:维吾尔语在列. IT之家. 2020-02-27 [2020-03-21]. (原始内容存档于2020-03-21). 
  16. ^ Google Text-to-Speech AI. 
  17. ^ Google翻译惹上“台独” 将台湾与中国并立. donews. [2021-12-09]. 原始内容存档于2007-05-09. 
  18. ^ 谷歌翻譯:釣魚島是台灣的. 自由时报. [2021-12-09]. (原始内容存档于2022-04-21). 
  19. ^ 谷歌翻译超低级错误让“台独”乐傻:谷歌偏爱台湾. 新浪. [2021-12-09]. (原始内容存档于2022-04-06). 
  20. ^ 「中國比台灣厲害」英文怎麼說 Google小姐偏心愛台灣!. 自由时报. [2021-12-09]. (原始内容存档于2022-04-21). 
  21. ^ 難過變高興?Google翻譯香港情勢 疑遭「天朝網軍」惡搞. 自由时报. [2021-12-09]. (原始内容存档于2022-04-21). 
  22. ^ 被統一了?小英總統變「主席」 Google翻譯滿是中國用語. 自由时报. [2021-12-09]. (原始内容存档于2022-04-21). 
  23. ^ 網瘋傳:China breaks promise被Google翻成信守承諾. 自由时报. [2021-12-09]. (原始内容存档于2022-04-21). 
  24. ^ 丁洁芸. 谷歌翻译系统出现恶毒攻击中国词汇,网友怒斥“真恶心!”谷歌回应. 环球网. [2021-11-27]. (原始内容存档于2022-04-21). 
  25. ^ 谷歌回應在線翻譯出現辱華詞語:翻譯模式導致錯誤的翻譯. 俄罗斯卫星通讯社. [2021-11-27]. (原始内容存档于2021-11-27). 
  26. ^ 存档副本. 微博. [2021-11-27]. (原始内容存档于2022-04-21). 
  27. ^ 把“亲爱的俄罗斯人”翻译成“死去的俄罗斯人” 谷歌:已纠正. 环球网. [2022-04-12]. (原始内容存档于2022-04-21). 
  28. ^ Google透明度報告(資訊公開報告). Google. 2014-05-31 [2014-07-08]. (原始内容存档于2017-05-15). 
  29. ^ 不翻墙也能用了 谷歌翻译优化了中国用户体验. [2017-03-29]. (原始内容存档于2017-03-30). 
  30. ^ 等了八年!谷歌这项重磅服务今天终于可以用了!. [2017-03-29]. (原始内容存档于2017-03-30). 
  31. ^ 移除前:26日5:58的存档,存档于互联网档案馆(存檔日期 2022-09-26)
    移除后:26日9:26的存档,存档于互联网档案馆(存檔日期 2022-09-26)
  32. ^ Google疑似关闭了Google翻译的中国站点. Solidot. 2022-09-29 [2022-09-29]. (原始内容存档于2022-09-29). 
  33. ^ Google跳转页面. [2023-09-09]. 原始内容存档于2022-09-29. 
  34. ^ Kyle Wiggers. Google appears to have disabled Google Translate in parts of China. TechCrunch. 2022-09-30 [2022-10-01]. (原始内容存档于2022-10-01). 
  35. ^ 35.0 35.1 ugmbbc. 因使用率过低 Google Translate不再向中国区域提供翻译服务. 中文业界资讯站. 2022-10-01 [2022-10-01]. (原始内容存档于2022-10-01). 
  36. ^ 蔡苡柔. Google翻譯停中國版服務、引導至香港區 「谷歌」最後功能告別. 香港01. 2022-10-03. 
  37. ^ 唐正. “Google翻译”停止在中国区域服务. 新唐人电视台. 2022-10-03 [2022-10-06]. (原始内容存档于2022-12-02). 
  38. ^ Aamoth, Doug. Check Out This Google Translate Easter Egg. Time. [2019-09-25]. (原始内容存档于2018-05-04). 

外部链接