多模態(tài)大模型
CVPR2025視頻生成統(tǒng)一評(píng)估架構(gòu),上交x斯坦福聯(lián)合提出讓MLLM像人類一樣打分
能夠通過模擬人類的認(rèn)知過程,建立起連接文本指令與視覺內(nèi)容的智能評(píng)估體系。
上海AI實(shí)驗(yàn)室造出首個(gè)「通才」機(jī)器人大腦:看懂世界+空間推理+精準(zhǔn)操控全拿下
可實(shí)現(xiàn)多模態(tài)大模型(MLLM)對(duì)物理實(shí)體的直接操控,使機(jī)器人能像人類一樣“看到-思考-行動(dòng)”
全球最大開源視頻模型,現(xiàn)在也Created in China了,階躍出品
開源生態(tài)滾雪球ing
多模態(tài)模型免微調(diào)接入互聯(lián)網(wǎng),即插即用新框架,效果超閉源方案
首個(gè)輔助多模態(tài)大模型對(duì)實(shí)時(shí)信息進(jìn)行反饋的開源檢索增強(qiáng)框架SearchLVLMs。
超越GPT-4o!阿里發(fā)布最強(qiáng)開源多模態(tài)模型Qwen2-VL,支持實(shí)時(shí)視頻對(duì)話
還能操縱手機(jī)和機(jī)械臂
阿里大模型元老楊紅霞去向:入職香港高校!被曝創(chuàng)業(yè)項(xiàng)目也在推進(jìn)
通義底層技術(shù)核心貢獻(xiàn)人
全華人團(tuán)隊(duì)推出多模態(tài)大模型新基準(zhǔn),GPT-4o準(zhǔn)確率僅為65.5%
還發(fā)現(xiàn)感知錯(cuò)誤、推理錯(cuò)誤是所有模型最常見的兩大錯(cuò)誤。
港大字節(jié)提出多模態(tài)大模型新范式,模擬人類先感知后認(rèn)知
區(qū)域性圖像編碼來提升多模態(tài)大模型的感知定位能力。
國產(chǎn)大模型:今天起,我們100萬tokens只需1元!
1塊錢可以寫10000條小紅書