吳恩達(dá):AI是時(shí)候從大數(shù)據(jù)轉(zhuǎn)向「小數(shù)據(jù)」了
傳統(tǒng)行業(yè)缺少海量數(shù)據(jù)集
豐色 編譯整理
量子位 | 公眾號(hào) QbitAI
AI大牛吳恩達(dá)不久前剛被檢測(cè)出新冠陽(yáng)性,許多網(wǎng)友都向他表達(dá)了早日康復(fù)的祝愿。

如今,他的工作重心放在了他的Landing AI公司上。
這是一家專門面向制造業(yè)廠商數(shù)字化轉(zhuǎn)型的初創(chuàng)公司,創(chuàng)立目標(biāo)就是幫助制造業(yè)公司更快速、輕松地構(gòu)建和部署人工智能系統(tǒng)。
對(duì)于傳統(tǒng)企業(yè)來(lái)說(shuō),預(yù)訓(xùn)練好的模型都是基于公開(kāi)數(shù)據(jù),實(shí)際派不上用場(chǎng)。
但畢竟是傳統(tǒng)企業(yè),上哪兒收集海量的特定數(shù)據(jù)來(lái)支撐訓(xùn)練?
那Landing AI是如何克服的這個(gè)困難?
最近,吳恩達(dá)在接受IEEE Spectrum的一段專訪中,討論了人工智能領(lǐng)域下一個(gè)十年的風(fēng)向,表達(dá)了“是時(shí)候從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)”的觀點(diǎn)。
或許我們能從中找到這個(gè)問(wèn)題的答案。
以下整理自采訪原文,略有刪減。
IEEE Spectrum:得益于越來(lái)越大的模型和數(shù)據(jù)集,深度學(xué)習(xí)在過(guò)去十年間取得了巨大的進(jìn)步。一些人認(rèn)為這是一個(gè)不可持續(xù)發(fā)展的軌跡。你同意嗎?
吳:這確實(shí)是個(gè)值得思考的問(wèn)題。NLP領(lǐng)域已經(jīng)有了基礎(chǔ)模型(foundation model),并正在繼續(xù)擴(kuò)大規(guī)模。計(jì)算機(jī)視覺(jué)領(lǐng)域也有構(gòu)建基礎(chǔ)模型的潛力,就是在視頻領(lǐng)域由于計(jì)算帶寬(算力)和處理成本的限制還有待開(kāi)發(fā)。雖然擴(kuò)展深度學(xué)習(xí)算法的引擎已經(jīng)運(yùn)行了大約15年,但它還有足夠的動(dòng)力。不過(guò),它只適用于某些問(wèn)題,還有一系列場(chǎng)景需要小數(shù)據(jù)解決方案。
注:基礎(chǔ)模型是Percy Liang和吳在斯坦福大學(xué)的一些朋友創(chuàng)造的一個(gè)術(shù)語(yǔ),指的是在非常大的數(shù)據(jù)集上訓(xùn)練的巨大模型,這種模型可以針對(duì)特定的應(yīng)用進(jìn)行調(diào)整,例如GPT-3。
過(guò)去十年里,面向消費(fèi)者的企業(yè)由于擁有大量用戶群(有時(shí)甚至高達(dá)數(shù)十億),因此獲得了非常大的數(shù)據(jù)集得以開(kāi)展深度學(xué)習(xí)。這給它們帶來(lái)了不少經(jīng)濟(jì)價(jià)值,但我發(fā)現(xiàn)這種法則不適用于其他行業(yè)。
IEEE Spectrum:有意思,你以前就是在這種公司工作。
吳:確實(shí),不過(guò)十多年前,當(dāng)我提議啟動(dòng)谷歌大腦項(xiàng)目、利用谷歌的計(jì)算基礎(chǔ)設(shè)施建設(shè)大規(guī)模網(wǎng)絡(luò)時(shí)就引起了爭(zhēng)議。一位非常資深的人把我拉到一邊,警告我說(shuō),這會(huì)對(duì)我的職業(yè)生涯不利。我想他的意思是這個(gè)項(xiàng)目不能只注重?cái)U(kuò)大規(guī)模,應(yīng)該把重點(diǎn)放在架構(gòu)創(chuàng)新上。
我還記得當(dāng)我和我的學(xué)生,發(fā)表第一篇倡導(dǎo)使用CUDA進(jìn)行深度學(xué)習(xí)的論文時(shí),另一位AI資深人士坐下來(lái)對(duì)我說(shuō):“CUDA編程非常復(fù)雜。作為一種編程范例,如果這么做的話工作量太大了。”
IEEE Spectrum:我想他們后來(lái)肯定都被說(shuō)服了。
吳:是的。
現(xiàn)在當(dāng)我與大家討論以數(shù)據(jù)為中心的人工智能(Data-centric AI)運(yùn)動(dòng)時(shí),也會(huì)想到15年前與大家討論深度學(xué)習(xí)時(shí)的場(chǎng)景。這一年,許多人和我說(shuō)“方向錯(cuò)了”、“兩者之間似乎沒(méi)有什么新東西”。
IEEE Spectrum:你是如何定義以數(shù)據(jù)為中心的人工智能,為什么你認(rèn)為它是一種運(yùn)動(dòng)(movement)?
吳:以數(shù)據(jù)為中心的AI是為構(gòu)建成功AI系統(tǒng)所需數(shù)據(jù)的系統(tǒng)準(zhǔn)則。對(duì)于AI系統(tǒng)來(lái)說(shuō),你必須用代碼實(shí)現(xiàn)一些算法,然后在你的數(shù)據(jù)集上進(jìn)行訓(xùn)練。過(guò)去十年里,主要的應(yīng)用范例就是我們下載數(shù)據(jù)集,同時(shí)專注于改進(jìn)代碼。這種模式給深度學(xué)習(xí)網(wǎng)絡(luò)帶來(lái)了顯著的改進(jìn),但其架構(gòu)基本上表達(dá)的就是一個(gè)已解決的問(wèn)題。因此,對(duì)于許多實(shí)際應(yīng)用來(lái)說(shuō),現(xiàn)在更有效的方法是固定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),找到改進(jìn)數(shù)據(jù)的方法。
而當(dāng)我提出這個(gè)觀點(diǎn)時(shí),有從業(yè)者說(shuō):“這事兒我們已經(jīng)做了20年了。” 我想說(shuō)的是,現(xiàn)在是時(shí)候把這件少數(shù)人憑直覺(jué)做的事情變成一門系統(tǒng)的事。
IEEE Spectrum:你前面提到,一些公司或機(jī)構(gòu)只有少量數(shù)據(jù)可供使用。以數(shù)據(jù)為中心的人工智能如何幫助他們?
吳:像很多視覺(jué)模型都是用數(shù)百萬(wàn)張圖像構(gòu)建的,我也曾經(jīng)花3.5億張圖像搭建了一個(gè)人臉識(shí)別系統(tǒng)。但這種模型在只有50張圖像的數(shù)據(jù)集上卻沒(méi)法運(yùn)行。不過(guò)事實(shí)證明,如果你有50個(gè)非常好的數(shù)據(jù),你也可以做出有價(jià)值的東西,比如缺陷檢查系統(tǒng)。在許多根本不存在巨型數(shù)據(jù)集的行業(yè),我認(rèn)為重點(diǎn)必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。有50個(gè)經(jīng)過(guò)深思熟慮的實(shí)例就足以向神經(jīng)網(wǎng)絡(luò)解釋你想要它學(xué)會(huì)什么。
IEEE Spectrum:用50張圖像訓(xùn)練一個(gè)模型的意思是在一個(gè)用大數(shù)據(jù)集訓(xùn)練好的現(xiàn)有模型上對(duì)其進(jìn)行微調(diào)嗎?還是說(shuō)這是一個(gè)全新的模式,就從這個(gè)小數(shù)據(jù)集上學(xué)習(xí)?
吳:我來(lái)講一下Landing AI是做什么的吧。在給制造商提供暇疵檢查服務(wù)時(shí),我們一般就用帶有我們自己風(fēng)格的RetinaNet。它是一個(gè)預(yù)訓(xùn)練模型。話說(shuō)過(guò)來(lái),預(yù)訓(xùn)練只是難題的一小部分,更大的難題是提供一個(gè)工具讓制造商能夠選擇正確的圖像集(用于微調(diào)),并用一致的方式對(duì)圖集進(jìn)行標(biāo)記。面對(duì)大數(shù)據(jù)集的應(yīng)用時(shí),我們的通常反應(yīng)都是如果數(shù)據(jù)有噪音也沒(méi)關(guān)系,所有數(shù)據(jù)照單全收,算法會(huì)對(duì)其進(jìn)行平均(average over)。但是,如果我們能夠開(kāi)發(fā)出用來(lái)標(biāo)記出數(shù)據(jù)不一致的地方的工具,為制造商提供一種非常有針對(duì)性的方法來(lái)提高數(shù)據(jù)質(zhì)量,那這將是獲得高性能系統(tǒng)的更有效方法。
就比如你現(xiàn)在你有10000張圖像,其中30張屬于一個(gè)類別,但這30張的標(biāo)簽不一致。我們要做的一件事就是構(gòu)建工具來(lái)吸引你注意到這個(gè)特殊的數(shù)據(jù)子集,使你能夠快速重新對(duì)它們進(jìn)行標(biāo)記,從而提高模型性能。
IEEE Spectrum:像這樣生成高質(zhì)量的數(shù)據(jù)集是否有助于消除數(shù)據(jù)偏見(jiàn)?
吳:非常有幫助。有偏見(jiàn)的數(shù)據(jù)是導(dǎo)致最終模型產(chǎn)生偏見(jiàn)的眾多因素之一。在NeurIPS會(huì)議上,Mary Gray的演講談到了以數(shù)據(jù)為中心的AI是這個(gè)問(wèn)題的解決方案之一(并非全部)。
以數(shù)據(jù)為中心的AI給我們帶來(lái)的強(qiáng)大能力之一是構(gòu)建(engineer)數(shù)據(jù)子集。想象一下,你訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型,它的性能對(duì)于大多數(shù)數(shù)據(jù)集都還可以,但只有一個(gè)子集有偏差。要是僅僅為了提高該子集的性能就更改整個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu),那是相當(dāng)困難的。
但如果你能針對(duì)這個(gè)子集構(gòu)建(engineer)出合適的數(shù)據(jù),解決方式也就更有針對(duì)性。
IEEE Spectrum:構(gòu)建(engineer)數(shù)據(jù)的確切意思是?
吳:在AI領(lǐng)域,數(shù)據(jù)清洗很重要,但目前都是靠很機(jī)械的方式。面對(duì)一個(gè)非常大的數(shù)據(jù)集時(shí),這個(gè)工具可以快速地將你的注意力吸引到有噪音的數(shù)據(jù)子集上,針對(duì)該子集進(jìn)行集中收集。
就像我曾經(jīng)發(fā)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)的性能很差,主要是背景中有汽車噪音。知道了這一點(diǎn),我就可以再收集更多帶這種噪音背景的數(shù)據(jù),而不是對(duì)所有內(nèi)容都采取行動(dòng),省錢又省時(shí)。
IEEE Spectrum:使用合成數(shù)據(jù)怎么樣?這也是個(gè)好的解決方式嗎?
吳:合成數(shù)據(jù)也是Data-centric AI工具集中的一個(gè)重要工具。在NeurIPS研討會(huì)上,Anima Anandkumar做了一次涉及合成數(shù)據(jù)的精彩演講。我認(rèn)為它僅僅只是一個(gè)為模型增加數(shù)據(jù)的預(yù)處理步驟。我希望能看到開(kāi)發(fā)人員將生成合成數(shù)據(jù)作為迭代機(jī)器學(xué)習(xí)模型閉環(huán)的一部分。
IEEE Spectrum:你的意思是合成數(shù)據(jù)可以讓你在更多不同數(shù)據(jù)集上嘗試模型嗎?
吳:不止如此。假設(shè)你要檢測(cè)智能手機(jī)外殼上的瑕疵,包括劃痕、凹痕、材料變色等。如果你的訓(xùn)練模型在這個(gè)檢測(cè)任務(wù)上總體表現(xiàn)良好,但就是在識(shí)別凹痕上表現(xiàn)不佳,那么就可以用合成數(shù)據(jù)生成更有針對(duì)性的數(shù)據(jù)來(lái)解決問(wèn)題。
IEEE Spectrum:能和我們?cè)敿?xì)說(shuō)一下當(dāng)一家公司找到Landing AI,比如要做視覺(jué)檢驗(yàn),你們會(huì)提供何種幫助?
吳:我們會(huì)要求他們將數(shù)據(jù)上傳到我們的平臺(tái),用以數(shù)據(jù)為中心的人工智能方法向他們提供建議,并幫助他們標(biāo)記數(shù)據(jù)。
Landing AI的重點(diǎn)是授權(quán)制造商自己做機(jī)器學(xué)習(xí)工作,我們的很多工作是確保軟件快速且好上手。在機(jī)器學(xué)習(xí)的迭代過(guò)程中,我們會(huì)為客戶提供建議,比如如何在平臺(tái)上訓(xùn)練模型,如何以及何時(shí)改進(jìn)數(shù)據(jù)標(biāo)記來(lái)提高模型性能。
IEEE Spectrum:如果產(chǎn)品或照明條件什么的發(fā)生變化,這種模型能跟上嗎?
吳:所以說(shuō)授權(quán)制造業(yè)客戶自己更正數(shù)據(jù)、重新訓(xùn)練和更新模型非常重要。
在消費(fèi)互聯(lián)網(wǎng)中,我們只需訓(xùn)練少數(shù)機(jī)器學(xué)習(xí)模型就能服務(wù)10億用戶。在制造業(yè)中,有10000家制造商就要搭建10000個(gè)定制模型。挑戰(zhàn)是,你如何做到這點(diǎn)還不用雇傭10000名機(jī)器學(xué)習(xí)專家?
這個(gè)問(wèn)題在其他行業(yè)比如醫(yī)療健康領(lǐng)域也存在。
擺脫這一困境的唯一辦法是開(kāi)發(fā)出能夠讓客戶自己設(shè)計(jì)數(shù)據(jù)、表達(dá)專業(yè)領(lǐng)域知識(shí)的工具,讓他們自己構(gòu)建模型。這也是Landing AI在計(jì)算機(jī)視覺(jué)領(lǐng)域中正在做的事兒。
IEEE Spectrum:最后還有什么想說(shuō)的?
吳:在過(guò)去十年中,人工智能的最大轉(zhuǎn)變是向深度學(xué)習(xí)的轉(zhuǎn)變。我認(rèn)為在這十年中,最大的轉(zhuǎn)變很可能是轉(zhuǎn)向以數(shù)據(jù)為中心的人工智能。隨著當(dāng)今神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟,我認(rèn)為對(duì)于許多實(shí)際應(yīng)用而言,瓶頸將是我們能否有效地獲取讓模型運(yùn)行良好所需的數(shù)據(jù)。
而以數(shù)據(jù)為中心的人工智能運(yùn)動(dòng)在整個(gè)社區(qū)擁有巨大的能量和動(dòng)力。我希望更多的研究人員和開(kāi)發(fā)人員能夠加入并致力于它。
完。