微信翻譯在WMT 2022斬獲3項第一,相關能力已落地應用于業(yè)務場景
三年八冠
近日,WMT 2022國際機器翻譯大賽的榜單停止提交結果并發(fā)布排名。其中,微信翻譯團隊在對話翻譯和生物醫(yī)學領域翻譯的激烈競爭中脫穎而出,斬獲三項冠軍,分別是對話翻譯比賽的英德和德英翻譯冠軍,以及生物醫(yī)學領域翻譯比賽中的中英翻譯冠軍。
挑戰(zhàn)新賽道,微信翻譯以雄厚技術底蘊奪取3項第一
WMT(Workshop on Machine Translation)由國際計算語言學協(xié)會 (ACL) 舉辦,是全球學術界公認的國際頂級機器翻譯比賽之一。自2006年創(chuàng)辦至今,WMT已經(jīng)成功舉辦17屆,每年吸引著來自全球的企業(yè)、科研機構和高校所組成的頂尖團隊來參與角逐,包括微軟、Facebook、DeepMind、百度、阿里巴巴、華為、字節(jié)跳動、日本情報通信研究機構(NICT)、清華大學、上海交通大學等。
在往屆的WMT 2020和WMT 2021,微信翻譯團隊先后挑戰(zhàn)了新聞賽道的中英翻譯、英中翻譯、日英翻譯、英日翻譯和英德翻譯任務,并相繼奪冠。今年,微信翻譯團隊探索雙人(多人)對話場景和垂直領域場景的翻譯技術,參加了新賽道,即對話翻譯和生物醫(yī)學領域翻譯,并獲得了三項冠軍。其中,在對話翻譯賽道(聯(lián)合校企合作團隊–北京交通大學)中獲得了英德翻譯和德英翻譯冠軍,在生物醫(yī)學領域翻譯賽道中獲得中英翻譯冠軍。
據(jù)介紹,WMT 2022的對話翻譯賽道融合了自然語言對話和機器翻譯兩大任務,旨在讓不同母語的兩人或多人進行無障礙地對話溝通,最終模型需要考慮兩個人的對話內(nèi)容、風格,保障信息交流更加順暢和準確。華為、騰訊、知名AI翻譯平臺Unbabel、印度電子商務公司(IITP-Flipkart)、海外研究機構Naver Labs、愛丁堡大學在內(nèi)的等眾多頂尖團隊角逐于該賽道。
而生物醫(yī)學領域翻譯賽道則旨在評估翻譯系統(tǒng)在生物醫(yī)學領域文件的翻譯效果。這種垂直跨領域翻譯相較于微信翻譯此前涉及的歌詞翻譯、字幕翻譯等日常場景更為復雜,訓練數(shù)據(jù)少、術語翻譯多等難點更需要專業(yè)領域的數(shù)據(jù)進行訓練。該賽道也吸引了包括華為、騰訊、NVIDIA、巴塞羅那超級計算中心、劍橋大學等來自全球的企業(yè)、科研機構和高校所組成的頂尖團隊參與此賽道的研究。
在本次WMT 2022的對話翻譯和生物醫(yī)學領域翻譯任務的競賽中,面對諸多強勁對手,微信翻譯團隊采用了性能與多樣性俱佳的Mix-AAN Transformers架構,并在訓練數(shù)據(jù)增強、訓練優(yōu)化、模型集成方面也探索并驗證了多項技術,最終實現(xiàn)優(yōu)異的翻譯效果,奪得桂冠。
具體而言,在數(shù)據(jù)增強方面,微信翻譯團隊通過前向翻譯、迭代回譯、知識蒸餾來生產(chǎn)高質量的偽數(shù)據(jù),并在源端加入不同粒度的人工噪聲以及采用動態(tài)Top-p采樣來提高偽數(shù)據(jù)的多樣性。同時,在訓練優(yōu)化中加入目標端抗噪訓練、Speaker-aware 模型訓練、基于Prompt的對話歷史建模、基于梯度調度的多任務訓練等多種訓練方式提升翻譯效率和精度。模型集成方面,微信翻譯團隊基于WMT 2020和WMT 2021的競賽經(jīng)驗,利用Self-BLEU去衡量模型間的多樣性,有效地改進了集成搜索算法的效率,并針對任務特定的評估指標進行了適配。
技術反哺業(yè)務,相應技術已部署服務于千萬用戶
一直以來,微信翻譯團隊秉承著“業(yè)務問題驅動技術探索->緊跟前沿熱血競技->技術積淀反哺業(yè)務”的迭代優(yōu)化思路,基于業(yè)界前沿的神經(jīng)網(wǎng)絡機器翻譯技術打造了微信翻譯引擎并進行了持續(xù)迭代,引入了前沿的機器翻譯算法,不斷創(chuàng)新模型架構和算法,提升翻譯能力。發(fā)展至今,微信翻譯已成為日均翻譯近約百億字符的高質量多語言機器翻譯引擎,支持30+語種間的雙向翻譯,翻譯效果達到業(yè)界一流水準。
目前,微信翻譯已覆蓋文本、圖像、網(wǎng)頁、語音、文檔等主流翻譯場景,成功適配到豐富多樣的業(yè)務,服務于微信聊天、朋友圈、微信圖片(包括掃一掃)、微信網(wǎng)頁、輸入框邊寫邊譯、企業(yè)微信、企微郵箱、QQ郵箱、企業(yè)郵箱、騰訊文檔、微信讀書、QQ音樂、WeTV、閱文集團、騰訊小微等20多個業(yè)務場景。近期,圖片翻譯和截圖翻譯能力也在Mac版和Windows版微信上線,服務于千萬用戶。
未來,微信翻譯團隊也將堅持從實際業(yè)務場景出發(fā),持續(xù)深耕翻譯技術,借由騰訊的產(chǎn)品生態(tài)幫助用戶實現(xiàn)跨語言信息的高效轉換、創(chuàng)造價值,為千萬用戶提供更為優(yōu)質的智能服務。
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18