GitHub萬(wàn)星NLP資源大升級(jí):實(shí)現(xiàn)Pytorch和TF深度互操作,集成32個(gè)最新預(yù)訓(xùn)練模型
乾明 魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
GitHub上最火的NLP項(xiàng)目,標(biāo)星13000+,現(xiàn)在迎來(lái)重大更新。
剛剛, 抱抱臉(Hugging Face)團(tuán)隊(duì),放出了transformers 2.0版本。
一方面,實(shí)現(xiàn)了TensorFlow 2.0和 PyTorch 之間的深度互操作性。
你可以在TPU上訓(xùn)練模型,然后再Pytorch上測(cè)試,最后通過TensorFlow部署。
另一方面,也集成了超過32個(gè)經(jīng)過100多種語(yǔ)言預(yù)訓(xùn)練的模型。最新的NLP架構(gòu),比如BERT、GPT-2、XLNet、RoBERTa、DistilBert、XLM等等通通在內(nèi)。
更新放出之后,業(yè)內(nèi)人士紛紛送上各種感嘆:
This is so cool! Good job!、That’s awesome、Hot damn this is amazing!、Jesus christ.
transformers 2.0,最全的NLP庫(kù)
更直接一點(diǎn)說(shuō),transformers 2.0項(xiàng)目,就是一個(gè)NLP領(lǐng)域的SOTA的集合。
SQuAD排行榜上的選手們通通收編在內(nèi),一共有8大架構(gòu)可供調(diào)用:
BERT、XLNet這幾位重量級(jí)選手自不必說(shuō)。
最新鮮的RoBERTa、GPT-2 774M版本都已更新在列。
還有兩個(gè)XLM架構(gòu),它們?cè)赬NLI跨語(yǔ)言分類任務(wù)中擁有比多語(yǔ)言BERT更優(yōu)秀的表現(xiàn)。
此外,還有抱抱臉自家的DistilBERT,這是一個(gè)更小、更快、更便宜、更輕量級(jí)的BERT蒸餾版。
七月底剛把BERT拉回GLUE榜首的RoBERTa也幾乎是在第一時(shí)間被整合到了pytorch-transformers庫(kù)中。
所有這些架構(gòu),都已經(jīng)在SQuAD數(shù)據(jù)集上進(jìn)行了測(cè)試,均與原始實(shí)現(xiàn)的性能相匹配。
在這些架構(gòu)之下,一共有超過32個(gè)經(jīng)過100多種語(yǔ)言預(yù)訓(xùn)練的模型。
使用起來(lái)也非常方便,只需一個(gè)API,就能調(diào)用。
在線Demo,當(dāng)場(chǎng)試用
NLP界的超強(qiáng)模型們到底有什么高招?抱抱臉也在官網(wǎng)上搭建了Write With Transformer,真·AI幫你在線寫論文,在線編故事。
不過,在線服務(wù)的模型只有GPT,GPT-2和XLNet。
想要完整使用整個(gè)Transformer庫(kù),安裝也并不困難。
官方提供的repo已經(jīng)在Python 2.7和3.5+、PyTorch 1.0.0+、TensorFlow 2.0.0-rc1中進(jìn)行了測(cè)試。
在安裝了TensorFlow 2.0和/或PyTorch之后,可以通過pip安裝:
pip install transformers
然后把庫(kù)克隆到本地:
pip install [—editable] .
樣本測(cè)試則可以在pytest上運(yùn)行:
python -m pytest -sv ./transformers/tests/
python -m pytest -sv ./examples/
甚至,你還可以在移動(dòng)設(shè)備上運(yùn)行這些模型,repo地址:
https://github.com/huggingface/swift-coreml-transformers
從pytorch-transformers到transformers
這一項(xiàng)目,一開始名為pytorch-pretrained-bert,在1.2版本時(shí)更名為pytorch-transformers,現(xiàn)在變?yōu)閠ransformers。
從名字的變遷中,也能夠看出它的功能也越來(lái)越強(qiáng)大。在2.0版本中,實(shí)現(xiàn)了TensorFlow 2.0和 PyTorch 之間的深度互操作性,這也可能是在名字中去掉“pytorch-”的直接原因。
在GitHub項(xiàng)目中,他們也當(dāng)場(chǎng)演示了如何用12行代碼訓(xùn)練TensorFlow 2.0模型,然后將其放到PyTorch進(jìn)行快速檢測(cè)和測(cè)試:
當(dāng)然,這一庫(kù)還有更多強(qiáng)大的功能等待你發(fā)掘,如果你是NLP領(lǐng)域的從業(yè)者或者研究者,千萬(wàn)不要錯(cuò)過。
項(xiàng)目鏈接:
https://github.com/huggingface/transformers
關(guān)于抱抱臉
雖然看上去很萌,但Hugging Face可不是興趣小團(tuán)體,而是個(gè)正經(jīng)的AI創(chuàng)業(yè)公司。
他們的目標(biāo)是建設(shè)真正的社會(huì)人工智能,并在這一過程中不斷貢獻(xiàn)技術(shù)力量。在NLP領(lǐng)域,他們的論文登上過ICLR,NeurIPS ,AAAI等國(guó)際頂會(huì)。
而他們?cè)趖ransformers這個(gè)廣受歡迎的項(xiàng)目上付出的持續(xù)努力,正是其堅(jiān)持的體現(xiàn),而且也已經(jīng)贏得了廣泛的聲譽(yù)。
在看到transformers 2.0項(xiàng)目更新的時(shí)候,就有網(wǎng)友評(píng)論稱:
每次我聽到 Huggingface,就好像看到“悟空”(龍珠)從訓(xùn)練營(yíng)回來(lái)后的行動(dòng)一樣。每個(gè)人都對(duì)他們的進(jìn)步感到敬畏和難以置信。
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30