百度翻譯十年:語種全球首破200大關(guān),質(zhì)量提升30個百分點,每天翻譯超千億字符
百度十年磨劍,護航一帶一路
金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
十年,能讓一個機器翻譯系統(tǒng)發(fā)生怎樣的變化?
2011年,TA還只會“中-英”翻譯這一項技能。但TA卻用十年時間,在翻譯這條路上不斷打磨自己。
現(xiàn)如今,TA的“打開方式”的是這樣:
全球首個發(fā)布互聯(lián)網(wǎng)神經(jīng)翻譯系統(tǒng),10年內(nèi)讓翻譯質(zhì)量提升30個百分點(國際常用的評價指標(biāo)BLEU),而通常提升1個百分點就是非常顯著的了。
全球首次突破200種語言的互譯,10年內(nèi)讓翻譯語種數(shù)量增長100倍。
不再是只會文本翻譯這一項技能,而是掌握了圖片、視頻、文檔,甚至是同傳這樣的跨模態(tài)翻譯。
也不再限于在輸入框中輸入文本來翻譯,而是翻譯APP、AI同傳會議版、同傳助手、小程序以及翻譯開放平臺等多種產(chǎn)品。
而且現(xiàn)在的它還變得格外忙碌,全世界每天找TA翻譯的字符量超過千億,相當(dāng)于2000部大英百科全書,是10年前的10萬倍。
甚至Gartner對它還做出了這樣的評價:
是神經(jīng)網(wǎng)絡(luò)機器翻譯標(biāo)桿機構(gòu),也是國內(nèi)唯一入圍單位。
是全球AI翻譯服務(wù)中的重要力量。
……
TA,就是百度翻譯。
但如果現(xiàn)在你還認為它只是個搞翻譯的,那可能就有點片面了。
因為現(xiàn)在的百度翻譯,有點“變味”了。
10歲的百度翻譯,長什么樣?
如果說百度翻譯的起點,是十年前那個只會中英翻譯的網(wǎng)站。
那么現(xiàn)在的它,可謂是把翻譯這事玩出了一種新高度。
首先在翻譯語種這件事,也正如剛才提到的,百度翻譯全世界范圍內(nèi)首個突破200種語言互譯的系統(tǒng)。
而且不只是翻譯語種數(shù)量多的問題,更是在翻譯難度上有所體現(xiàn)。
例如它甚至在涉獵一些“冷門”的語言,以國粹文言文為例,輸入一段《學(xué)弈》的文字:
弈秋,通國之善弈者也。使弈秋誨二人弈,其一人專心致志,惟弈秋之為聽;一人雖聽之,一心以為有鴻鵠將至,思援弓繳而射之。雖與之俱學(xué),弗若之矣。為是其智弗若與?曰:非然也。
啪的一下,百度翻譯瞬間就能把晦澀難懂的古文,用大白話的形式展現(xiàn)出來:
然而機器能做到這一點,也相當(dāng)不容易,因為除去大語種,大部分語言的互譯資源是稀缺的,無法供AI學(xué)習(xí)足夠多的知識。
但百度翻譯所滿足的可不止于對文本翻譯的“多”和“精”,它還花了十年時間在便捷性這塊下足了功夫。
這不就在最近,百度翻譯App更新迭代到了10.0版本,“花式翻譯”也在這里得到了很好的體現(xiàn)。
不再是把文字輸進去、翻出來這樣單一的套路,而是把語音、圖片、視頻、文檔等形式也融入了進來。
換言之,現(xiàn)在想要做翻譯,不再是輸入文本這種單一的形式了。
說一句話、拍一張照,甚至直接把完整的文檔導(dǎo)進來,就可以完成翻譯了。
不僅如此,甚至像同傳這樣高段位的翻譯,百度翻譯也是能夠輕松hold住。
百度翻譯更是在全球頂級機器翻譯比賽WMT (Workshop on Machine Translation)中,拿下過中英翻譯第一名的成績。
不難看出,百度翻譯花了十年時間,不只是在做橫向的擴展,也是對各個產(chǎn)品在縱向上“自修功法”。Big Family目前已經(jīng)枝繁葉茂。
那么百度翻譯,是如何通過十年時間進階到如此的呢?
百度翻譯進化之路
我們不妨先來簡單回顧一下機器翻譯的發(fā)展。
“機器翻譯”這件事,早在1946年第一臺計算機ENIAC誕生之后的一年,便由信息論先驅(qū)、美國科學(xué)家Warren Weaver提出:
而至此之后,機器翻譯先是進入到了“基于規(guī)則方法”的時代。
這個方法本質(zhì)上將專家的翻譯知識采用規(guī)則形式寫下來,然后采用軟件的方式利用翻譯規(guī)則來實現(xiàn)機器翻譯過程。
但這種方法的缺點也是顯而易見,那就是構(gòu)建成本、維護成本過高,動輒還要將整個程序重寫。
而到了上世紀80年代末90年代初,IBM提出了另一種機器翻譯的方式——統(tǒng)計機器翻譯,這便開啟了機器翻譯時代的第二個大門。
與基于規(guī)則的機器翻譯不同,統(tǒng)計機器翻譯不再需要從人工書寫翻譯規(guī)則,而是轉(zhuǎn)換到了數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法。
最大的優(yōu)點在于機器可以按照人工定義的特征進行“自學(xué)”,而之前的基于規(guī)則方法,需要人類專家手把手的。
百度翻譯上線之初,主要用的就是基于統(tǒng)計機器翻譯的方法,同時研發(fā)了融合已有方法的多策略模型,以便應(yīng)對互聯(lián)網(wǎng)上復(fù)雜多樣的翻譯請求。
2010年百度翻譯自建了研發(fā)團隊,僅時隔一年,便上線了網(wǎng)頁版。
但此時統(tǒng)計機器翻譯已經(jīng)誕生了20多年時間,其發(fā)展的瓶頸也是越發(fā)明顯——在經(jīng)歷了基于短語的方法、基于句法的方法等一系列技術(shù)迭代之后,統(tǒng)計機器翻譯逐漸遇到天花板,翻譯質(zhì)量難以進一步提升,尤其在長距離調(diào)序、譯文流暢度方面。
即便摸石頭過河,也要身先士卒
到了2013年,一篇名為《Recurrent Continuous Translation Models》的研究橫空出世。
而伴隨著研究人員們所提出的新方法,機器翻譯也就步入到了神經(jīng)機器翻譯 (NMT)時代。
雖然這種神經(jīng)網(wǎng)絡(luò)的方法確實是一種理想的“替代品”,但非?,F(xiàn)實的問題也擺在百度翻譯團隊的面前。
那就是“無從參考”,建模的方式完全是新的,沒有經(jīng)驗可循。
再則以當(dāng)時的技術(shù)水平,通過神經(jīng)網(wǎng)絡(luò)模型來做機器翻譯還是一件非?!皞Y源”的事。
翻譯效果提升的代價,就是消耗大量的計算資源,往往翻譯一個句子就得花個十幾秒的時間。
時間拉到2015年,即便是在這種大背景的情況下,百度翻譯團隊依舊做了一個“敢為人先”的決定:
上線基于神經(jīng)網(wǎng)絡(luò)的機器翻譯。
在技術(shù)方法上,百度翻譯團隊針對NMT所存在的缺點,將上一代統(tǒng)計機器翻譯的特性融入了進來。
具體而言,就是將n-gram語言模型、短語表特征、長度特征等,融合到NMT模型中。
實驗結(jié)果表明,這種“新舊結(jié)合”的方法,顯著提升了NMT在中英互譯方面翻譯的性能。
而從立項到發(fā)布全球首個互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng),百度翻譯僅僅花了不到半年的時間。
這個節(jié)奏要比谷歌翻譯提早了整整16個月的時間。
然而百度翻譯卻并不滿足于此。
還要做更多方向上的“領(lǐng)頭羊”
為了能夠進一步翻譯出更多的語言,百度翻譯還提出了《Multi-Task Learning for Multiple Language Translation》。
在這項研究中,百度翻譯提出了共享編碼器的多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)翻譯模型,建立了基于神經(jīng)網(wǎng)絡(luò)的多語言翻譯統(tǒng)一框架。
這也是百度翻譯現(xiàn)在能夠hold住203種語言互譯的關(guān)鍵所在。
到了2017年,百度翻譯又驚艷地亮出了AI同傳功能。
具體而言,是提出了語義單元驅(qū)動的機器同聲傳譯模型,解決了翻譯質(zhì)量和同傳時延難以兼顧的難題。
與此同時,百度翻譯團隊還研發(fā)了高質(zhì)量、低時延的機器同傳系統(tǒng),翻譯準確率超過80%,平均時間延遲3秒。
也正是因為百度在機器翻譯這件事上技術(shù)處于領(lǐng)先地位,翻譯準確度又高。
所以許多國際性的會議、活動,都陸陸續(xù)續(xù)選擇百度翻譯作為技術(shù)支持。百度翻譯的AI同傳,更是挺進了服貿(mào)會、進博會這樣的重要活動。
……
那么隨之而來的一個問題便是:
百度為什么要如此發(fā)力翻譯這件事?
翻譯,不僅僅是工具那么簡單
首先,需要明確且達成共識的一點是,機器翻譯是人工智能終極目標(biāo)之一,也是AI技術(shù)最具挑戰(zhàn)的應(yīng)用之一。
這也就是百度在機器翻譯領(lǐng)域不斷創(chuàng)新的原因所在。
但從另一個角度來看,百度翻譯要做的事情,從來就不是翻譯本身這么簡單。
而從它十年的發(fā)展歷程來看,現(xiàn)在的百度翻譯已經(jīng)“變味”了:
不僅僅是個工具,更是橋梁、窗口和世界文化的感受器。
這又該如何理解?
我們不妨從百度翻譯帶來了什么,來理解它的“變味”。
TA是用戶身邊的翻譯助手
例如在交警執(zhí)法的過程中,就曾遇到過外國(俄羅斯)友人的這種情況。
由于他們不會中文,溝通就成了老大難的問題。
最終,交警通過百度翻譯的能力,成功地救助了外籍船員。
再如工作中,語言的障礙成為了信息獲取與溝通交流的阻礙。
而用戶通過使用百度翻譯的軟件,讓跨語言交流這件事變得更加絲滑。
但這樣的服務(wù)和體驗,應(yīng)當(dāng)是所有人都該擁有的體驗,哪怕是殘障人士也應(yīng)如此。
為此,百度翻譯還幫助視力障礙的開發(fā)者開發(fā)盲人操作軟件,免費幫助大量盲人用戶獲取翻譯服務(wù)。
也正是這樣一件又一件的真實故事,讓百度翻譯不再是只是翻譯工具這么簡單,更是賦予了諸如橋梁、窗口和感受器等這樣的含義。
TA助力全球抗擊疫情
但講真,比起體驗上的這層“變味”,百度翻譯還逐漸發(fā)揮著更具深層宏大的使命和價值。
例如在抗疫這件事上,百度翻譯也在發(fā)揮著它的熱量。
法語的3M口罩說明書、英語的防護服說明書、俄語的三層口罩商檢證書……這些抗疫物資等等,無不需要翻譯的工作。
但眾所周知,抗疫這件事不僅任務(wù)量重,更是在與時間賽跑。
百度翻譯便扛起了抗疫期間翻譯工作的重擔(dān),僅僅在2天時間內(nèi)便搭建出了高效易用的定制化翻譯工具,而且火速向志愿者團隊免費開放。
TA服務(wù)國家需求,為跨語言交流鋪路
而且百度翻譯做的事,還是符合國家需求的那種。
國家在第二屆“一帶一路”國際合作峰會論壇中便提出:
共建“一帶一路”,關(guān)鍵是互聯(lián)互通。我們應(yīng)該構(gòu)建全球互聯(lián)互通伙伴關(guān)系,實現(xiàn)共同發(fā)展繁榮。
而跨語言交流,就成為了實現(xiàn)這一目標(biāo)的關(guān)鍵所在。
百度翻譯便在十年時間里,在翻譯語種增長100倍的情況下,沿著“一帶一路”沿線國家,將跨語言翻譯逐步鋪展開來。
不難看出,這也是應(yīng)了國家乃至全球發(fā)展的互聯(lián)互通大趨勢。
而放眼當(dāng)下,百度翻譯還在“變味”著,要將翻譯這件事轉(zhuǎn)變?yōu)橐环N生產(chǎn)力。
但畢竟翻譯這件事可謂是任重而道遠,即便是拿下諸多“全球首次”的百度翻譯也還有很長的一段路要走。
至于在接下里的時間里,百度翻譯又將在技術(shù)和價值上帶來怎樣的提升,我們拭目以待。
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08