博士在淘寶“掃垃圾”
因“網絡牛皮癬”泛濫成災
金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
相信在座各位網上沖浪時,總會遇到一些“葬愛家族”式的文字:
“胃?”、“叩—裙”、“9え”、“發(fā)嘌”……
這些詞語的出現,不單單是追求個性這么簡單,更多的是為了規(guī)避系統(tǒng)排查,以便發(fā)送成千上萬條“垃圾信息”。
這樣的情況在淘寶、旺旺等平臺上泛濫成災,堪稱互聯(lián)網時代的“牛皮癬”。
而有這么一位叫劉翔宇的博士,他和團隊在阿里巴巴每天的工作,便是掃除諸如此類的垃圾。
這位博士用AI“掃垃圾”
“垃圾清理人”面對的不是散兵游勇,而是黑灰產的團伙作戰(zhàn)。
劉翔宇這樣介紹道:
他們應該是專業(yè)團伙,按照攻擊時間,可以看出他們每天也有固定的上下班時間,不少人應該是學計算機相關專業(yè)出身的,甚至是像我們一樣做過安全防控的人,這些人對安全防控非常了解,會用智能化手段對抗,比如他們會發(fā)測試信息,對我們的攔截做試探再做調整。
尤其是“雙11”大促期間,黑灰產非常瘋狂,發(fā)出的垃圾信息量比平時多幾十倍。劉翔宇說:
臨近大促節(jié)日的晚上,垃圾信息像消費者去搶‘秒殺’一樣呼地一下就上去了。他們很聰明,知道‘雙11’期間用戶最活躍,這時候騷擾用戶感覺效果最好,這就需要我們提前做好預案防控,把他們趕出去。
不僅如此,這種行徑還會像病毒一樣,發(fā)生“變異”。
也就是剛才提到的那種情況,用音近、形近或語義相近的字詞代替,讓系統(tǒng)無法快速識別。
面對這種情況,“垃圾清理人”也需要升級裝備,更好的清除網絡垃圾。
于是,在這些算法專家們的努力下,平臺利用神經機器翻譯和多模態(tài)詞嵌入技術,不斷增強垃圾文本內容風險識別系統(tǒng)的性能。
劉翔宇介紹:
基于主動生成的對抗平行語料,利用神經機器翻譯技術,構建對抗糾錯模型,可消除黑灰產發(fā)出的內容對抗擾動。
同時,利用多模態(tài)詞嵌入技術提取垃圾文本的語義、語音、字形特征,并通過多模態(tài)融合機制有效地增強系統(tǒng)針對基于義近、音近、形近等文本變異的魯棒性,可進一步提供系統(tǒng)識別準確率。
現在,他們打造的算法已能夠自行理解某個字和與它音形義近似的字的關聯(lián),識別準確率高于98%,可有效新增識別變異違規(guī)文本內容50%以上。
此外,算法專家還開發(fā)了“變異垃圾語言”翻譯功能,系統(tǒng)可以將“變異信息”翻譯回正常語句。
值得一提的是,劉翔宇和團隊成員的技術成果,還獲得了國際頂尖AI會議的承認,被USENIX Security、ACL、WWW、SIGIR、IJCAI等收錄。
關于劉翔宇
2016年,香港中文大學博士劉翔宇畢業(yè)后來到了阿里工作。同一年,《網絡安全法》和《國家網絡空間安全戰(zhàn)略》正式通過,社會對于網絡環(huán)境治理和網絡安全的關注度迅速飆升。
劉翔宇隨著這股浪潮加入了阿里安全。起初,他做著基礎安全的研究。
后來,慢慢聚焦在淘寶交互內容、旺旺、直播彈幕等的內容安全治理。
如果說阿里巴巴是座城,劉翔宇和他的同事們就是專門為這座城“掃垃圾”的人。
對于清掃垃圾內容的“劉翔宇”們而言,城太大,人力不可能覆蓋每一個角落。
如何對這些垃圾信息做到秒級處理,同時誤判率必須在萬分之五以下,劉翔宇和一眾算法專家與不斷變異的黑灰產斗智斗勇。
現在,劉翔宇和阿里安全的小二研發(fā)的阿里新一代安全架構核心算法,每日已能清理百萬級的垃圾信息。
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設計,讓70年經驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08