博士在淘寶“掃垃圾”
因“網(wǎng)絡(luò)牛皮癬”泛濫成災(zāi)
金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
相信在座各位網(wǎng)上沖浪時(shí),總會(huì)遇到一些“葬愛家族”式的文字:
“胃?”、“叩—裙”、“9え”、“發(fā)嘌”……
這些詞語的出現(xiàn),不單單是追求個(gè)性這么簡單,更多的是為了規(guī)避系統(tǒng)排查,以便發(fā)送成千上萬條“垃圾信息”。
這樣的情況在淘寶、旺旺等平臺(tái)上泛濫成災(zāi),堪稱互聯(lián)網(wǎng)時(shí)代的“牛皮癬”。
而有這么一位叫劉翔宇的博士,他和團(tuán)隊(duì)在阿里巴巴每天的工作,便是掃除諸如此類的垃圾。
這位博士用AI“掃垃圾”
“垃圾清理人”面對(duì)的不是散兵游勇,而是黑灰產(chǎn)的團(tuán)伙作戰(zhàn)。
劉翔宇這樣介紹道:
他們應(yīng)該是專業(yè)團(tuán)伙,按照攻擊時(shí)間,可以看出他們每天也有固定的上下班時(shí)間,不少人應(yīng)該是學(xué)計(jì)算機(jī)相關(guān)專業(yè)出身的,甚至是像我們一樣做過安全防控的人,這些人對(duì)安全防控非常了解,會(huì)用智能化手段對(duì)抗,比如他們會(huì)發(fā)測試信息,對(duì)我們的攔截做試探再做調(diào)整。
尤其是“雙11”大促期間,黑灰產(chǎn)非常瘋狂,發(fā)出的垃圾信息量比平時(shí)多幾十倍。劉翔宇說:
臨近大促節(jié)日的晚上,垃圾信息像消費(fèi)者去搶‘秒殺’一樣呼地一下就上去了。他們很聰明,知道‘雙11’期間用戶最活躍,這時(shí)候騷擾用戶感覺效果最好,這就需要我們提前做好預(yù)案防控,把他們趕出去。
不僅如此,這種行徑還會(huì)像病毒一樣,發(fā)生“變異”。
也就是剛才提到的那種情況,用音近、形近或語義相近的字詞代替,讓系統(tǒng)無法快速識(shí)別。
面對(duì)這種情況,“垃圾清理人”也需要升級(jí)裝備,更好的清除網(wǎng)絡(luò)垃圾。
于是,在這些算法專家們的努力下,平臺(tái)利用神經(jīng)機(jī)器翻譯和多模態(tài)詞嵌入技術(shù),不斷增強(qiáng)垃圾文本內(nèi)容風(fēng)險(xiǎn)識(shí)別系統(tǒng)的性能。
劉翔宇介紹:
基于主動(dòng)生成的對(duì)抗平行語料,利用神經(jīng)機(jī)器翻譯技術(shù),構(gòu)建對(duì)抗糾錯(cuò)模型,可消除黑灰產(chǎn)發(fā)出的內(nèi)容對(duì)抗擾動(dòng)。
同時(shí),利用多模態(tài)詞嵌入技術(shù)提取垃圾文本的語義、語音、字形特征,并通過多模態(tài)融合機(jī)制有效地增強(qiáng)系統(tǒng)針對(duì)基于義近、音近、形近等文本變異的魯棒性,可進(jìn)一步提供系統(tǒng)識(shí)別準(zhǔn)確率。
現(xiàn)在,他們打造的算法已能夠自行理解某個(gè)字和與它音形義近似的字的關(guān)聯(lián),識(shí)別準(zhǔn)確率高于98%,可有效新增識(shí)別變異違規(guī)文本內(nèi)容50%以上。
此外,算法專家還開發(fā)了“變異垃圾語言”翻譯功能,系統(tǒng)可以將“變異信息”翻譯回正常語句。
值得一提的是,劉翔宇和團(tuán)隊(duì)成員的技術(shù)成果,還獲得了國際頂尖AI會(huì)議的承認(rèn),被USENIX Security、ACL、WWW、SIGIR、IJCAI等收錄。
關(guān)于劉翔宇
2016年,香港中文大學(xué)博士劉翔宇畢業(yè)后來到了阿里工作。同一年,《網(wǎng)絡(luò)安全法》和《國家網(wǎng)絡(luò)空間安全戰(zhàn)略》正式通過,社會(huì)對(duì)于網(wǎng)絡(luò)環(huán)境治理和網(wǎng)絡(luò)安全的關(guān)注度迅速飆升。
劉翔宇隨著這股浪潮加入了阿里安全。起初,他做著基礎(chǔ)安全的研究。
后來,慢慢聚焦在淘寶交互內(nèi)容、旺旺、直播彈幕等的內(nèi)容安全治理。
如果說阿里巴巴是座城,劉翔宇和他的同事們就是專門為這座城“掃垃圾”的人。
對(duì)于清掃垃圾內(nèi)容的“劉翔宇”們而言,城太大,人力不可能覆蓋每一個(gè)角落。
如何對(duì)這些垃圾信息做到秒級(jí)處理,同時(shí)誤判率必須在萬分之五以下,劉翔宇和一眾算法專家與不斷變異的黑灰產(chǎn)斗智斗勇。
現(xiàn)在,劉翔宇和阿里安全的小二研發(fā)的阿里新一代安全架構(gòu)核心算法,每日已能清理百萬級(jí)的垃圾信息。
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08