谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進(jìn)
亞洲擁有全球三分之一的語言,卻在數(shù)字世界里”失聲”了
亞洲擁有全球三分之一的語言,卻在數(shù)字世界里”失聲”了!
最新數(shù)據(jù)顯示,亞洲大陸上存在著超過2300種本土語言,占全球現(xiàn)存語言的32%。然而這些語言在數(shù)字化呈現(xiàn)方面卻存在著巨大的鴻溝。谷歌正在通過一系列AI項(xiàng)目改變這一現(xiàn)狀,從印度的773個地區(qū)到東南亞的1200種語言,再到日本喜劇的全球化傳播,一場覆蓋整個亞洲的語言數(shù)字化變革正在展開。
21500小時語音數(shù)據(jù):Project Vaani深入印度腹地
三年前,谷歌與印度科學(xué)研究所聯(lián)手啟動了Project Vaani項(xiàng)目。這個項(xiàng)目的野心相當(dāng)大:要覆蓋印度全部773個地區(qū)的語言變體。
目前的成果已經(jīng)相當(dāng)驚人。項(xiàng)目已經(jīng)收集了近21500小時的語音音頻和835小時的轉(zhuǎn)錄語音數(shù)據(jù),涵蓋86種獨(dú)特語言。這些數(shù)據(jù)來自印度22個邦120個地區(qū)的112000多名發(fā)言者。更重要的是,這些數(shù)據(jù)已經(jīng)通過印度國家語言任務(wù)Bhashini和開源平臺HuggingFace向公眾免費(fèi)開放。
為什么要覆蓋所有773個地區(qū)?項(xiàng)目負(fù)責(zé)人在問答環(huán)節(jié)解釋道:”人們通常認(rèn)為一個邦內(nèi)的語言是統(tǒng)一的,但事實(shí)并非如此。以比哈爾邦為例,那里就有超過100種不同的語言及變體?!庇《热丝诹鲃宇l繁,當(dāng)一個人從一個邦遷移到另一個邦,他們說母語的方式會產(chǎn)生變體和細(xì)微差異。要讓技術(shù)真正服務(wù)于全國所有人,捕捉這些自然存在的變體就成了必要條件。
目前項(xiàng)目正在發(fā)布第一階段和第二階段的數(shù)據(jù),已經(jīng)覆蓋了160個區(qū)縣。谷歌正在與Megdap、Karya等合作伙伴攜手,繼續(xù)推進(jìn)這項(xiàng)龐大的工程。
Aquarium平臺:為東南亞1200種語言建立數(shù)據(jù)庫
東南亞的語言環(huán)境復(fù)雜程度不亞于印度。這個擁有11個國家、6.5億人口的地區(qū),四大不同語系涵蓋了約1200種語言。僅印度尼西亞一國就有超過700種語言。
谷歌與AI Singapore合作推出的Project SEALD,專門應(yīng)對這種復(fù)雜性。項(xiàng)目的核心是Aquarium平臺——一個面向東南亞語言數(shù)據(jù)集的綜合性資源庫。
Aquarium的目標(biāo)很明確:構(gòu)建一個全面的東南亞數(shù)據(jù)集目錄,讓社區(qū)中的任何人都能獲取和貢獻(xiàn)數(shù)據(jù),助力開發(fā)出能真正反映地區(qū)生態(tài)的AI模型。最終目標(biāo)是打造出更出色的工具和解決方案,以當(dāng)?shù)卣Z言滿足東南亞的特定應(yīng)用場景需求。
面對低資源或?yàn)l危語言的挑戰(zhàn),SEALD團(tuán)隊(duì)采取了獨(dú)特的策略。項(xiàng)目負(fù)責(zé)人William介紹:”我們始終與當(dāng)?shù)貦C(jī)構(gòu)合作,通過他們找到這些鮮為人知的方言?!边@些資料通常是非數(shù)字化的,需要轉(zhuǎn)化為可用數(shù)字格式并請當(dāng)?shù)厝藛T進(jìn)行校驗(yàn)。在某些特定情況下,如果某種語言確實(shí)瀕臨滅絕且完全沒有相關(guān)資源,團(tuán)隊(duì)會向該語言的母語使用者分享圖像提示或文本提示,收集他們的音頻數(shù)據(jù)并進(jìn)行轉(zhuǎn)錄,然后將這些數(shù)據(jù)作為語料庫的一部分。
90%準(zhǔn)確率:吉本興業(yè)用AI讓日本喜劇走向世界
語言AI的應(yīng)用不僅限于保護(hù)瀕危語言。日本最大的娛樂經(jīng)紀(jì)公司吉本興業(yè)正在用谷歌的AI技術(shù)解決一個特殊問題:如何讓全世界理解日本喜劇。
吉本興業(yè)成立于1912年,管理著6000多名藝人,每年制作5000多部作品。但日本喜劇的全球擴(kuò)張面臨兩大挑戰(zhàn):許多笑點(diǎn)依賴于高語境化的表達(dá),涉及大量文化細(xì)節(jié)與典故,對外來觀眾難以理解;語言障礙依然顯著,日本英語普及率較低,阻礙了與全球觀眾建立聯(lián)系。
2014年開始,吉本興業(yè)與谷歌合作開發(fā)了CHAD 2系統(tǒng)——一個由Gemini 2.0 Flash驅(qū)動的AI翻譯系統(tǒng)。這個系統(tǒng)專為喜劇設(shè)計,能將日語視頻翻譯成英語、中文和韓語。只需上傳電影文件,系統(tǒng)便會自動生成字幕文件。
最令人印象深刻的是準(zhǔn)確率。CHAD 2的轉(zhuǎn)錄和翻譯準(zhǔn)確率約為90%,大幅領(lǐng)先于其他模型60%-75%的準(zhǔn)確率。更重要的是,翻譯時間從數(shù)月縮短至幾分鐘。
系統(tǒng)還包含了一個專門為”O(jiān)warai(日本喜?。绷可矶ㄖ频淖远x詞典,目前包含超過200個條目。如果要將系統(tǒng)調(diào)整為其他內(nèi)容類型,比如動漫、電視劇或體育,只需額外添加針對特定類型的詞典,核心提示無需進(jìn)行任何特殊調(diào)整。
吉本興業(yè)的代表表示:”我們的終極愿望是創(chuàng)建一個無論何時何地,任何人都能實(shí)時理解日本喜劇的世界?!蹦壳癈HAD 2還在內(nèi)部使用階段,但公司正在加速推進(jìn)外部商業(yè)化銷售,并持續(xù)提升翻譯質(zhì)量與新增語言支持。
這些項(xiàng)目展示了AI技術(shù)在語言保護(hù)和文化傳播方面的巨大潛力。從印度腹地的方言到東南亞的瀕危語言,再到日本喜劇的文化細(xì)節(jié),谷歌正在用技術(shù)彌合亞洲語言的數(shù)字鴻溝。隨著更多數(shù)據(jù)的收集和技術(shù)的進(jìn)步,亞洲2300種語言在數(shù)字世界獲得應(yīng)有地位的那一天,或許并不遙遠(yuǎn)。
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18
- 倒反天罡!AI新貴345億美元報價谷歌瀏覽器,此前碰瓷Tiktok未果2025-08-13