一口氣發(fā)布1008種機(jī)器翻譯模型,GitHub最火NLP項(xiàng)目大更新
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
現(xiàn)在,你可以用 GitHub 上最火的 NLP 項(xiàng)目做機(jī)器翻譯了。
沒錯(cuò),就是 Hugging Face (抱抱臉)標(biāo)星?26.9k?的 Transformer 項(xiàng)目。在最新更新的版本里,抱抱臉發(fā)布了 1008 種模型,正式涉足機(jī)器翻譯領(lǐng)域。
模型涵蓋 140 種不同語(yǔ)言組合,中文翻英文,英文譯法語(yǔ),法語(yǔ)翻阿拉伯語(yǔ)……還能一對(duì)多翻譯。
就像這樣:
抱抱臉創(chuàng)始人 Clement Delangue 表示:
全世界有那么多人在使用我們的開源項(xiàng)目,越來(lái)越多使用不同語(yǔ)言的人聚集在NLP社區(qū)。
這讓我們意識(shí)到,應(yīng)該在模型中提供更多其他語(yǔ)言的接入,同時(shí)也提供翻譯。
1008種機(jī)器翻譯模型
據(jù)抱抱臉介紹,這1000+模型,是研究人員使用無(wú)監(jiān)督學(xué)習(xí)和?OPUS 數(shù)據(jù)集訓(xùn)練的。
OPUS 項(xiàng)目來(lái)自赫爾辛基大學(xué)及其全球合作伙伴,旨在收集和開源各種語(yǔ)言數(shù)據(jù)集,尤其是低資源(小語(yǔ)種)語(yǔ)言數(shù)據(jù)集。
△部分模型
并且,抱抱臉也在 Transformer 項(xiàng)目中增加了喜聞樂見的 Seq2Seq 模型。
比如谷歌 AI 的?T5,F(xiàn)acebook 的?BART。
使用方法,一如既往的簡(jiǎn)單。
比如用?opus-mt-en-ROMANCE?這個(gè)模型同時(shí)進(jìn)行英語(yǔ)翻法語(yǔ)、英語(yǔ)翻葡萄牙語(yǔ)和英語(yǔ)翻西班牙語(yǔ),一個(gè) API 就搞定了。
就有網(wǎng)友評(píng)價(jià)道:節(jié)約時(shí)間的利器。
關(guān)于 Hugging Face Transformer
抱抱臉的 Transformer Python 庫(kù)目前已有超過 50 萬(wàn) pip 安裝量,SQuAD排行榜上的最佳語(yǔ)言模型們通通被收編其中。
比如谷歌 AI 的 BERT、XLNet,F(xiàn)acebook AI 的 RoBERTa,OpenAI 的 GPT-2。
使用簡(jiǎn)單,只需一個(gè) import。
支持 TensorFlow 2.0 和 PyTorch 之間的深度互操作。
還有在線 Demo 供你實(shí)時(shí)調(diào)戲。
這樣的萬(wàn)星項(xiàng)目,NLPer 用了都說(shuō)好。
這就用起來(lái)?
傳送門
GitHub 項(xiàng)目:https://github.com/huggingface/transformers
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30