姚班代有才人出:清華本科生用“最簡(jiǎn)單的形式”,大幅提高少樣本學(xué)習(xí)性能
魚(yú)羊 十三 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitA
僅僅根據(jù)元學(xué)習(xí)(Meta-Learning)的基線,就徹底打敗了所有“花里胡哨”的改進(jìn)方法。
就是這些看似簡(jiǎn)單,又容易被忽略的方法,卻有著強(qiáng)大的魔力。
而它們的發(fā)現(xiàn)者,是一位叫做陳胤伯的在讀本科生,來(lái)自清華姚班。
他提出了一種元基線?(Meta-Baseline)方法,通過(guò)在所有基類(base classes)上預(yù)先訓(xùn)練分類器,并在基于最近質(zhì)心的少樣本(few-shot)分類算法上進(jìn)行元學(xué)習(xí),實(shí)驗(yàn)結(jié)果大大優(yōu)于目前最先進(jìn)的方法。
那么問(wèn)題來(lái)了:為什么這么簡(jiǎn)單的方法卻如此有效?
作者發(fā)現(xiàn),在元學(xué)習(xí)階段,一個(gè)模型在基類未見(jiàn)任務(wù)中的獲得更強(qiáng)泛化能力的同時(shí),在新類任務(wù)中的泛化表現(xiàn)可能反而下降。
此外,對(duì)于元基線來(lái)說(shuō),存在2個(gè)重要的因素:一個(gè)是預(yù)訓(xùn)練,另一個(gè)是從預(yù)訓(xùn)練分類器中繼承一個(gè)好的少樣本分類度量。
這就有可能讓模型更好地利用,具有更強(qiáng)可傳遞性的預(yù)訓(xùn)練表示。
陳胤伯的研究可以說(shuō)是從問(wèn)題的本質(zhì)出發(fā),直擊“七寸”,正如論文所說(shuō):
這項(xiàng)工作為該領(lǐng)域建立了一個(gè)新基準(zhǔn),并給進(jìn)一步理解元學(xué)習(xí)框架(用于少樣本學(xué)習(xí))提供了思路。
知名互聯(lián)網(wǎng)博主、北郵陳老師也分享了這項(xiàng)研究,得到了較高的關(guān)注。
那么,具體又是怎么做到的呢?
什么是元基線方法?
少樣本學(xué)習(xí)的目的,是讓分類模型能遷移到僅帶有少量標(biāo)記樣本的新類別中。而元學(xué)習(xí)是目前少樣本學(xué)習(xí)研究中比較常見(jiàn)的方法。
陳胤伯的元基線方法所做的,是用最簡(jiǎn)單的形式利用預(yù)訓(xùn)練分類器和元學(xué)習(xí)的優(yōu)勢(shì)。
元基線方法包括兩個(gè)訓(xùn)練階段。
階段一:預(yù)訓(xùn)練階段
預(yù)訓(xùn)練階段,主要是分類器基線(Classifier-Baseline)的訓(xùn)練。
具體方法是,在具有標(biāo)準(zhǔn)交叉熵?fù)p失的所有基類上訓(xùn)練分類器,然后刪除其最后一個(gè) FC 層,得到編碼器 fθ。編碼器能將輸入映射到特征空間。
階段二:元學(xué)習(xí)(meta-learning)階段
這一階段,主要基于分類器基線評(píng)估算法,進(jìn)行模型優(yōu)化。
給定預(yù)訓(xùn)練特征編碼器fθ,在基類訓(xùn)練數(shù)據(jù)中采樣 N-way K-shot 任務(wù)。
為了計(jì)算每個(gè)任務(wù)的損失,在支持集(support-set)中計(jì)算N種類型的質(zhì)心,公式如下。
然后用它們來(lái)計(jì)算查詢集(query-set)中每個(gè)樣本的預(yù)測(cè)概率分布,公式如下。
損失是根據(jù) p 和查詢集樣本的標(biāo)簽計(jì)算的交叉熵?fù)p失。
簡(jiǎn)單的基線改良,大幅提升性能
那么,元基線方法效果如何?
論文作者在 miniImageNet 和 tieredImageNet 兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
△miniImageNet
△tieredImageNet
可以看到,盡管元基線方法設(shè)計(jì)簡(jiǎn)單,但在兩個(gè)數(shù)據(jù)集上,都明顯超過(guò)了前輩們,提高了至少 2 個(gè)百分點(diǎn)。
這樣的改進(jìn)效果并不僅僅局限于 N-way K-shot 任務(wù)。在單類 K-shot 任務(wù)中,實(shí)驗(yàn)結(jié)果同樣證明了元學(xué)習(xí)階段的有效性。
作者還在大規(guī)模數(shù)據(jù)集 ImageNet-800 上進(jìn)行了進(jìn)一步評(píng)估。
在這一規(guī)模的數(shù)據(jù)集上,1-shot 任務(wù)中,比起分類器基線,元基線有大幅提升。但在 5-shot 任務(wù)中,性能沒(méi)有明顯的改善。
一位清華姚班本科生
最后,姚班代有才人才,一起認(rèn)識(shí)一下今日主角吧。
陳胤伯,清華姚班本科生,高中就讀于湖南省長(zhǎng)沙市長(zhǎng)郡中學(xué),高中期間除了日常學(xué)習(xí)外,大部分時(shí)間都投入到了算法競(jìng)賽之中。
陳胤伯回憶說(shuō),非常幸運(yùn)身邊能有許多提供指導(dǎo)、探討問(wèn)題的朋友,可以共同學(xué)習(xí)、共同進(jìn)步。
加之對(duì)算法競(jìng)賽濃厚的興趣和不懈的努力,陳胤伯在NOI 2014上摘得金牌,入選國(guó)家集訓(xùn)隊(duì),并保送清華大學(xué)。
目前,陳胤伯就讀于清華姚班(清華學(xué)堂計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班),將于今年本科畢業(yè)。
不過(guò)下一階段目標(biāo)也已經(jīng)明確。
接下來(lái),他將繼續(xù)在計(jì)算機(jī)領(lǐng)域中深造,前往UCSD(加州大學(xué)圣迭戈分校)攻讀博士學(xué)位。
△我不管這就是大佬本佬
最后,量子位也聯(lián)系到陳胤伯本人,就個(gè)人和學(xué)術(shù)的一些話題進(jìn)行了交流。他簡(jiǎn)單、直率,回答孜孜干脆,我們把問(wèn)答實(shí)錄同步如下。
One more thing:?jiǎn)柎痍愗凡?/h2>
量子位:為什么要選擇研究元學(xué)習(xí)這一領(lǐng)域?
陳胤伯:感覺(jué)少樣本學(xué)習(xí)這個(gè)問(wèn)題比較有價(jià)值,元學(xué)習(xí)是少樣本學(xué)習(xí)目前比較常見(jiàn)的方法。這篇文章并不是研究廣泛意義上的元學(xué)習(xí),主要還是對(duì)少樣本學(xué)習(xí)的探討。
量子位:其他研究者目前主要關(guān)注改進(jìn)的點(diǎn)是哪個(gè)/些方面
陳胤伯:關(guān)注的點(diǎn)挺廣的,我了解到的有提出新方法的 (比如meta-learning, self-supervised learning),也有嘗試探索新的更符合實(shí)際的少樣本學(xué)習(xí)setting的。
量子位:是怎么發(fā)現(xiàn)大部分人忽略基線方法缺陷的?
陳胤伯:做實(shí)驗(yàn)發(fā)現(xiàn)的。
量子位:目前很多科研人員選擇在已有的方法上進(jìn)行改良,然后發(fā)paper、畢業(yè),對(duì)于這樣的一個(gè)態(tài)度或者趨勢(shì),有何看法?為什么沒(méi)有這么做?
陳胤伯:我覺(jué)得在已有方法上改良、發(fā)paper、畢業(yè)這三件事都挺好的(?),很多有價(jià)值的發(fā)現(xiàn)都是在改良中慢慢產(chǎn)生的。這篇paper主要側(cè)重對(duì)現(xiàn)象的討論,不過(guò)也有在經(jīng)典方法上改良。
量子位:本科階段就開(kāi)始科研相關(guān),你是怎么看論文、篩選論文的?如何處理與其他通識(shí)、基礎(chǔ)課程學(xué)分的關(guān)系?
陳胤伯:看論文:google搜,沿著相關(guān)工作找。如何處理:好好學(xué)習(xí)。
量子位:現(xiàn)在在清華學(xué)習(xí)過(guò)程中,有什么不同?或者有沒(méi)有一些經(jīng)驗(yàn)分享?
陳胤伯:不同就是不搞競(jìng)賽了。沒(méi)啥值得分享的經(jīng)驗(yàn)。
量子位:姚班的培養(yǎng)機(jī)制,對(duì)你來(lái)說(shuō)受益最大的是哪一方面?
陳胤伯:氛圍很好,在與老師、同學(xué)的交流中能收獲很多。
量子位:從這次科研過(guò)程中,有何心得體會(huì)?
陳胤伯:沒(méi)啥特別的……
量子位:平時(shí)有怎么樣的興趣愛(ài)好?
陳胤伯:有一些大家都有的愛(ài)好。
量子位:看研究是和伯克利的老師合作,本科畢業(yè)之后,準(zhǔn)備去伯克利讀博嗎?還是有其他打算?
陳胤伯:去UCSD讀博。
嗯,大佬的回答,果然干練,且精辟。
最后,希望陳胤伯在接下來(lái)的學(xué)習(xí)道路上一帆風(fēng)順,不斷帶來(lái)新進(jìn)展、新研究和新發(fā)現(xiàn)。
傳送門(mén)
論文地址:
https://arxiv.org/abs/2003.04390
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08