姚班斯隆獎(jiǎng)馬騰宇創(chuàng)業(yè):大模型+顧問(wèn)李飛飛
嵌入模型SOTA,超越OpenAI
克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
清華姚班校友、斯坦福助理教授馬騰宇,正式宣布大模型創(chuàng)業(yè)!
馬騰宇透露,他帶領(lǐng)團(tuán)隊(duì)打造了目前最好的嵌入模型,比OpenAI的還要好。
此外,還會(huì)提供專注于某個(gè)領(lǐng)域或企業(yè)的定制化模型。

馬騰宇將這個(gè)項(xiàng)目命名為Voyage,是針對(duì)RAG(檢索增強(qiáng)生成)專門優(yōu)化的嵌入模型。
根據(jù)Voyage官網(wǎng)顯示,斯坦福人工智能實(shí)驗(yàn)室主任Christopher Manning、AI領(lǐng)域著名華人學(xué)者李飛飛等三名教授都擔(dān)任了Voyage的學(xué)術(shù)顧問(wèn)。

Voyage最重要的特點(diǎn)就是高檢索精度,在HuggingFace提出的MTEB數(shù)據(jù)集上的評(píng)分超過(guò)了OpenAI,成為SOTA。
Voyage還與知名開(kāi)源框架LangChain合作,同時(shí)提高了其聊天機(jī)器人的檢索和回復(fù)質(zhì)量。

對(duì)于嵌入模型,有人評(píng)價(jià)到與大語(yǔ)言模型相比“需要的算力、數(shù)據(jù)和行業(yè)經(jīng)驗(yàn)都少的多”,似乎是個(gè)創(chuàng)業(yè)的好方向。

Voyage具體是什么樣的產(chǎn)品,下面就來(lái)了解一下。
嵌入模型SOTA
在ChatPDF等RAG應(yīng)用中,嵌入模型(Embedding Model)負(fù)責(zé)將文本向量化的環(huán)節(jié)。
嵌入模型與生成式模型有一定相似之處,但更加側(cè)重于語(yǔ)義理解,通過(guò)神經(jīng)網(wǎng)絡(luò)(通常是Transformer)架構(gòu)來(lái)對(duì)語(yǔ)義上下文進(jìn)行捕獲和壓縮。
難度上,訓(xùn)練嵌入模型和生成式模型一樣困難——訓(xùn)練高質(zhì)量的嵌入模型需要在架構(gòu)、數(shù)據(jù)、損失函數(shù)等許多方面進(jìn)行反復(fù)實(shí)驗(yàn)。
Voyage團(tuán)隊(duì)介紹,他們選擇創(chuàng)業(yè)的一個(gè)重要原因是認(rèn)為業(yè)界對(duì)嵌入模型的重視程度遠(yuǎn)遠(yuǎn)不夠。
他們用了5年時(shí)間,收集了海量訓(xùn)練數(shù)據(jù)和預(yù)/后處理方法,最終打造出了這款SOTA的嵌入模型。

測(cè)試成績(jī)方面,Voyage在常用于測(cè)試嵌入模型的MTEB數(shù)據(jù)集中取得了SOTA的成績(jī),比OpenAI高了0.5個(gè)百分點(diǎn)。
在工業(yè)領(lǐng)域數(shù)據(jù)集上,Voyage相對(duì)OpenAI的優(yōu)勢(shì)就更加明顯了。

不過(guò)Voyage的通告中也說(shuō),MTEB這個(gè)數(shù)據(jù)集因?yàn)閼?yīng)用過(guò)于廣泛,有時(shí)會(huì)被拿來(lái)專門訓(xùn)練。
在承諾沒(méi)有在MTEB上“作弊”的同時(shí),Voyage還提出了9個(gè)“真實(shí)世界”數(shù)據(jù)集,內(nèi)容涵蓋了技術(shù)文檔、新聞,甚至是餐館評(píng)價(jià)等多個(gè)方面。
結(jié)果在這9個(gè)數(shù)據(jù)集上,Voyage全部取得了最好成績(jī),其中還有幾項(xiàng)取得了碾壓式的結(jié)果。

技術(shù)上,Voyage使用了全新的自監(jiān)督損失函數(shù),以及涉及多個(gè)領(lǐng)域、針對(duì)RAG和搜索量身定做的訓(xùn)練數(shù)據(jù)。
同時(shí),Voyage還采用了新的微調(diào)技術(shù),無(wú)需人類標(biāo)注就能完成。

使用方式上,可以通過(guò)API或者安裝Python庫(kù)來(lái)調(diào)用,窗口長(zhǎng)度為4096token。
目前,Voyage推出了標(biāo)準(zhǔn)版和輕量版兩個(gè)版本,未來(lái)還將推出XL規(guī)模以及代碼和金融領(lǐng)域版本。

價(jià)格方面,標(biāo)準(zhǔn)版和輕量版都是每100萬(wàn)token0.4美元,新用戶可以免費(fèi)體驗(yàn)5000次輸入(查詢或文檔)。

那么,Voyage的創(chuàng)始人兼CEO馬騰宇是誰(shuí)呢?
保送清華姚班,和陳丹琦同學(xué)
馬騰宇現(xiàn)任斯坦福大學(xué)助理教授,研究方向包括機(jī)器學(xué)習(xí)、算法等多項(xiàng)內(nèi)容。

2008年,馬騰宇被保送進(jìn)入清華姚班,和陳丹琦是同班同學(xué)。

馬騰宇博士就讀于普林斯頓大學(xué),導(dǎo)師是理論計(jì)算機(jī)科學(xué)家、兩屆哥德?tīng)柂?jiǎng)得主Sanjeev Arora教授。
讀博期間,馬騰宇獲得了理論計(jì)算機(jī)方向的西蒙斯獎(jiǎng)等諸多獎(jiǎng)項(xiàng),被導(dǎo)師夸贊“比自己還聰明”。
博士畢業(yè)后,MIT、哈佛、斯坦福等頂尖高校都給了他助理教授的Offer,馬騰宇最終選擇了斯坦福。
2021年,馬騰宇獲得了具有“諾獎(jiǎng)風(fēng)向標(biāo)”之稱的斯隆獎(jiǎng),成為繼鬲融之后清華姚班又一名獲此獎(jiǎng)項(xiàng)的校友。
參考鏈接:
https://blog.voyageai.com/2023/10/29/voyage-embeddings/