ViT
谷歌全網(wǎng)扒1000億圖像文本對(duì),ViT大佬坐鎮(zhèn):數(shù)據(jù)Scaling潛力依舊
數(shù)據(jù)規(guī)模越大對(duì)細(xì)節(jié)理解越好
李飛飛團(tuán)隊(duì)將ViT用在機(jī)器人身上,規(guī)劃推理最高提速512倍,還cue了何愷明的MAE
論文主要內(nèi)容只有8頁(yè)
把大核卷積拆成三步,清華胡事民團(tuán)隊(duì)新視覺(jué)Backbone刷榜了,集CNN與ViT優(yōu)點(diǎn)于一身
超越SwinTransformer與ConvNeXT
2040張圖片訓(xùn)練出的ViT,準(zhǔn)確率96.7%,連遷移性能都令人驚訝 | 南京大學(xué)
訣竅是轉(zhuǎn)為參數(shù)化實(shí)例判別
2040張圖片訓(xùn)練出的ViT,準(zhǔn)確率96.7%,連遷移性能都令人驚訝
訣竅是轉(zhuǎn)為參數(shù)化實(shí)例判別