AI在茫茫人海中,看到只有你被Deepfake了丨阿里安全
基于實(shí)例學(xué)習(xí)
魚(yú)羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
自打有了deepfake,再也不敢相信「眼見(jiàn)為實(shí)」了。
要說(shuō)把朱茵換臉成楊冪,把海王換臉成徐錦江,大家還可以一笑而過(guò)。
△圖源:微博用戶(hù)@慢三與偏見(jiàn)
可若是公眾人物被deepfake了什么不該說(shuō)的話(huà)、不該做的事,就讓人細(xì)思極恐了。
為了防止世界被破壞,為了維護(hù)世界的和平,(狗頭)現(xiàn)在,阿里安全圖靈實(shí)驗(yàn)室也加入了“圍剿”deepfake的隊(duì)列:
打造deepfake檢測(cè)算法S-MIL,多人現(xiàn)場(chǎng)視頻,只要其中1人被換臉,就能精準(zhǔn)識(shí)別。
基于多實(shí)例學(xué)習(xí)的deepfake檢測(cè)方法
魔高一尺,道高一丈。deepfake和deepfake檢測(cè)技術(shù)的較量其實(shí)早已展開(kāi)。
不過(guò),此前存在的deepfake檢測(cè)方法主要分為兩類(lèi):幀級(jí)檢測(cè)和視頻級(jí)檢測(cè)。
基于幀級(jí)的方法需要高成本的幀級(jí)別標(biāo)注,在轉(zhuǎn)化到視頻級(jí)任務(wù)時(shí),也需要設(shè)計(jì)巧妙的融合方法才能較好地將幀級(jí)預(yù)測(cè)轉(zhuǎn)化為視頻級(jí)預(yù)測(cè)。簡(jiǎn)單的平均值或者取最大值極易導(dǎo)致漏檢或誤檢。
而基于視頻級(jí)別的檢測(cè)方法,比如LSTM等,在deepfake視頻檢測(cè)時(shí),過(guò)多專(zhuān)注于時(shí)序建模,導(dǎo)致deepfake視頻的檢測(cè)效果受到了一定的限制。
△部分deepfake攻擊,四個(gè)人中只有一人被換臉
為了解決這些問(wèn)題,阿里安全圖靈實(shí)驗(yàn)室的研究人員們提出了基于多實(shí)例學(xué)習(xí)的Sharp-MIL(S-MIL)方法,只需視頻級(jí)別的標(biāo)注,就能對(duì)deepfake作品進(jìn)行檢測(cè)。
核心思想是,只要視頻中有一張人臉被篡改,那么該視頻就被定義為deepfake視頻。這就和多實(shí)例學(xué)習(xí)的思想相吻合。
在多實(shí)例學(xué)習(xí)中,一個(gè)包由多個(gè)實(shí)例組成,只要其中有一個(gè)實(shí)例是正類(lèi),那么該包就是正類(lèi)的,否則就是負(fù)類(lèi)。
S-MIL就將人臉和輸入視頻分別當(dāng)作多實(shí)例學(xué)習(xí)里的實(shí)例和包進(jìn)行檢測(cè)。
并且,通過(guò)將多個(gè)實(shí)例的聚合由輸出層提前到特征層,一方面使得聚合更加靈活,另一方面也利用了偽造檢測(cè)的目標(biāo)函數(shù)直接指導(dǎo)實(shí)例級(jí)深度表征的學(xué)習(xí),來(lái)緩解傳統(tǒng)多實(shí)例學(xué)習(xí)面臨的梯度消失難題。
具體而言,算法主要由三個(gè)關(guān)鍵部分組成。
首先,對(duì)輸入視頻中的采樣幀進(jìn)行人臉檢測(cè),并將提取的人臉喂給CNN,以獲取特征作為實(shí)例。
在實(shí)例設(shè)計(jì)上,與傳統(tǒng)多實(shí)例學(xué)習(xí)的設(shè)定一樣,實(shí)例與實(shí)例間是相互獨(dú)立的。
但由于deepfake是單幀篡改的,導(dǎo)致同一人臉在相鄰幀上會(huì)有一些抖動(dòng),就像這樣:
為此,研究人員設(shè)計(jì)了時(shí)空實(shí)例,用來(lái)刻畫(huà)幀間一致性,用于輔助deepfake檢測(cè)。
具體而言,使用文本分類(lèi)里常用的1-d卷積,使用不同大小的核對(duì)輸入的人臉序列從多視角上進(jìn)行編碼,以得到時(shí)空實(shí)例,用于最終檢測(cè)。
也就是說(shuō),第二步,是將編碼后的時(shí)空實(shí)例提取出來(lái),形成時(shí)間核大小不同的時(shí)空包。這些包被一起用來(lái)表示一段視頻。
最后,對(duì)這些包進(jìn)行S-MIL,算出所有包的fake分?jǐn)?shù),這樣,就能得到整個(gè)視頻的最終fake分?jǐn)?shù),從而判斷視頻到底是不是deepfake。
S-MIL定義如下:
其中,pi和p(i)^(j)分別是第i個(gè)包及其包里的第j個(gè)實(shí)例的正類(lèi)概率;M為包里的實(shí)例數(shù);w是網(wǎng)絡(luò)參數(shù);h(i)^(j)是包i里的實(shí)例j對(duì)應(yīng)的特征。
由于現(xiàn)有的帶幀標(biāo)簽的數(shù)據(jù)集中,同一視頻中真假人臉混雜的樣本較少,研究人員還構(gòu)建了一個(gè)部分攻擊數(shù)據(jù)集FFPMS。
FFPMS共包含14000幀,包括4種類(lèi)型的造假視頻(DF、F2F、FS、NT)和原始視頻,既有幀級(jí)標(biāo)簽,也包含視頻級(jí)標(biāo)簽。
檢測(cè)效果達(dá)到SOTA
研究人員在DFDC、Celeb和FFPMS數(shù)據(jù)集上對(duì)S-MIL進(jìn)行了評(píng)估。
實(shí)驗(yàn)結(jié)果表明,假臉的權(quán)重比較高,說(shuō)明該方法在僅需視頻級(jí)別標(biāo)簽的情況下,可以很好地定位到假臉,具有一定的可解釋性:
并且,該方法在視頻檢測(cè)上能到達(dá)到state-of-the-art的效果。
團(tuán)隊(duì)介紹
據(jù)阿里安全圖靈實(shí)驗(yàn)室資深算法專(zhuān)家華棠介紹,截止目前,阿里已經(jīng)將該檢測(cè)技術(shù)使用在內(nèi)容安全場(chǎng)景中,后續(xù)也會(huì)在直播場(chǎng)景中進(jìn)行布局。
阿里安全成立于2005年,目標(biāo)是面向阿里巴巴經(jīng)濟(jì)體建立全面的網(wǎng)絡(luò)安全、業(yè)務(wù)安全、數(shù)據(jù)安全與平臺(tái)治理的管理機(jī)制,利用大數(shù)據(jù)構(gòu)建強(qiáng)大的實(shí)時(shí)風(fēng)險(xiǎn)防御能力。
目前所涵蓋的業(yè)務(wù)范疇既包括最底層的設(shè)備層、網(wǎng)關(guān)層以及流量層的網(wǎng)絡(luò)威脅防御,也包括了業(yè)務(wù)層的安全治理,例如賬號(hào)安全、假貨與欺詐識(shí)別、內(nèi)容合規(guī)、數(shù)據(jù)及信息保護(hù)、營(yíng)商環(huán)境治理等等。同時(shí),安全中臺(tái)能力還全面輸出給阿里巴巴經(jīng)濟(jì)體內(nèi)的跨境公司以及生態(tài)伙伴。
阿里安全圖靈實(shí)驗(yàn)室是阿里安全旗下的機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì),從事安全與風(fēng)險(xiǎn)方面的AI系統(tǒng)研發(fā),核心技術(shù)包括計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、生物特征識(shí)別、AI安全、圖計(jì)算以及異常檢測(cè)和分析等。
傳送門(mén)
論文地址:
https://arxiv.org/abs/2008.04585
— 完 —
- 馬斯克收購(gòu)OpenAI新計(jì)劃實(shí)錘了:找小扎籌千億美元,果然敵人的敵人就是朋友…2025-08-23
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01