多模態(tài)
Gemini負(fù)責(zé)人爆料!多模態(tài)統(tǒng)一token表示,視覺(jué)至關(guān)重要
多模態(tài)背后理念,當(dāng)前應(yīng)用及未來(lái)方向全公開(kāi)了
首創(chuàng)像素空間推理,7B模型領(lǐng)先GPT-4o,讓VLM能像人類(lèi)一樣「眼腦并用」
首次將推理戰(zhàn)場(chǎng)從文本空間拓展到像素空間
打破跨模態(tài)干擾,快手東北大學(xué)聯(lián)合提出統(tǒng)一多模態(tài)框架,橫掃多模態(tài)檢索基準(zhǔn)
構(gòu)建一個(gè)能同時(shí)處理文本、圖像、視頻及其融合模態(tài)輸入的統(tǒng)一嵌入器
多模態(tài)模型挑戰(zhàn)北京杭州地鐵圖!o3成績(jī)顯著,但跟人類(lèi)有差距
首個(gè)聚焦于高分辨率交通圖(主要為地鐵圖)的多模態(tài)推理評(píng)測(cè)基準(zhǔn)
GPT-4o不敵Qwen,無(wú)一模型及格!UC伯克利港大等提出多模態(tài)新基準(zhǔn)
多視圖理解推理有新的評(píng)判標(biāo)準(zhǔn)了
圖像編輯開(kāi)源新SOTA,來(lái)自多模態(tài)卷王階躍!大模型行業(yè)正步入「多模態(tài)時(shí)間」
首個(gè)MLLM+DiT架構(gòu)開(kāi)源圖像編輯模型來(lái)了
GPT-4o能拼好樂(lè)高嗎?首個(gè)多步空間推理評(píng)測(cè)基準(zhǔn):閉源模型領(lǐng)跑
多模態(tài)大模型的真實(shí)“空間智商”究竟如何
OPPO 旗艦新機(jī) Find X8 Ultra 首發(fā)“一鍵閃記”,階躍星辰多模態(tài)提供技術(shù)支持
只需拍一張圖,小布助手就可以精準(zhǔn)識(shí)別并理解圖像中蘊(yùn)含的信息
業(yè)界突破多模態(tài)泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術(shù)
基于動(dòng)態(tài)強(qiáng)化學(xué)習(xí)
“計(jì)算機(jī)視覺(jué)被GPT-4o終結(jié)了”(狗頭)
GPT-4o原生多模態(tài)圖像生成更多玩法被開(kāi)發(fā)出來(lái)
240元打造擅長(zhǎng)數(shù)學(xué)的多模態(tài)版R1,基于DeepSeek核心思想,兩階段訓(xùn)練提升推理能力至工業(yè)級(jí)應(yīng)用標(biāo)準(zhǔn)
創(chuàng)造性引入規(guī)則化獎(jiǎng)勵(lì)函數(shù)機(jī)制
僅1/70的數(shù)據(jù)量,多模態(tài)檢索效果卻更優(yōu)! 智源發(fā)布BGE-VL,合成數(shù)據(jù)立大功
算法能夠以極低成本持續(xù)生成多樣化且高質(zhì)量的多模態(tài)三元組
多模態(tài)大模型事實(shí)正確性評(píng)估:o1最強(qiáng),模型普遍過(guò)于自信,最擅長(zhǎng)現(xiàn)代建筑/工程技術(shù)/科學(xué)
推理次數(shù)>30時(shí),模型表現(xiàn)趨于穩(wěn)定
中科聞歌發(fā)布智川X-Agent平臺(tái)、優(yōu)雅音視頻大模型更新
助力政企極速落地AI應(yīng)用與創(chuàng)意靈感,讓AI技術(shù)精細(xì)化滿(mǎn)足真實(shí)業(yè)務(wù)場(chǎng)景,加速AI普惠落地。