RNN
Bengio精簡(jiǎn)了傳統(tǒng)RNN,性能可與Transformer媲美
Were RNNs All We Needed?
新架構(gòu)RNN反超Transformer:每個(gè)隱藏狀態(tài)都是一個(gè)模型,一作:從根本上改變語(yǔ)言模型
與其讓隱藏狀態(tài)被動(dòng)地儲(chǔ)存信息,不如讓它主動(dòng)學(xué)習(xí)
RNN在大模型時(shí)代「復(fù)活」,27家機(jī)構(gòu)聯(lián)名重磅論文來(lái)了!模型已在GitHub攬星7.2k
時(shí)間復(fù)雜度、空間復(fù)雜度均低于Transformer