加密流量分類在網(wǎng)絡(luò)負(fù)載管理和安全威脅檢測(cè)中逐漸成為自動(dòng)識(shí)別目標(biāo)應(yīng)用、服務(wù)和協(xié)議的主要方式。現(xiàn)有的模型通常使用大規(guī)模帶有準(zhǔn)確標(biāo)注的會(huì)話樣本來提取流量深層的可識(shí)別特征,比如證書鏈、包長(zhǎng)序列和方向序列。但是在網(wǎng)絡(luò)環(huán)境(例如局域網(wǎng))中,流量包含的場(chǎng)景多樣,這些方法不具備健壯的通用能力來適應(yīng)不同場(chǎng)景下的遷移,以及在小規(guī)模的標(biāo)注樣本下達(dá)到預(yù)期效果。
在WWW 2022這篇文章中,中科院信工所的研究者提出了一種流量表征模型, ET-BERT,有效學(xué)習(xí)無標(biāo)注流量中的隱式關(guān)系,從而提升不同場(chǎng)景下流量分類的效果。研究者考慮了流量傳輸?shù)慕Y(jié)構(gòu)特點(diǎn)和報(bào)文格式,通過借鑒自然語言處理中的大規(guī)模預(yù)訓(xùn)練架構(gòu),將流量報(bào)文(traffic datagram)作為符號(hào)序列(token sequence),來捕捉大規(guī)模無標(biāo)注流量中隱含的上下文關(guān)聯(lián)關(guān)系,然后使用小規(guī)模標(biāo)注的特定場(chǎng)景任務(wù)進(jìn)一步訓(xùn)練來完成最終的分類任務(wù)。
ET-BERT可以應(yīng)用到多個(gè)加密流量場(chǎng)景任務(wù)中,比如新型加密協(xié)議TLS 1.3網(wǎng)站和應(yīng)用分類,加密隧道VPN應(yīng)用分類,匿名通信Tor應(yīng)用分類,惡意服務(wù)Malware Service分類,不均衡加密移動(dòng)應(yīng)用分類等場(chǎng)景。在公開數(shù)據(jù)集ISCX-VPN,ISCX-Tor,USTC-TFC、Cross-Platform和中國(guó)科技網(wǎng)TLS 1.3數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,ET-BERT可以有效應(yīng)用到多個(gè)場(chǎng)景任務(wù)并提升分類的效果。該方法對(duì)全加密網(wǎng)絡(luò)時(shí)代下,加密流量分類技術(shù)的研究和網(wǎng)絡(luò)空間安全的維護(hù)具有重要啟發(fā)。
論文鏈接:
https://arxiv.org/abs/2202.06335
代碼鏈接:
https://github.com/linwhitehat/ET-BERT
一、背景介紹
近十年間,伴隨網(wǎng)絡(luò)傳輸協(xié)議加密化的發(fā)展,流量分類的研究工作也在不斷優(yōu)化以適應(yīng)現(xiàn)實(shí)場(chǎng)景下的流量分類需求。現(xiàn)有的工作已經(jīng)意識(shí)到流量爆炸式增長(zhǎng)和加密化不能再利用專家經(jīng)驗(yàn)來手動(dòng)構(gòu)建明文字段構(gòu)成的指紋庫(kù)。
一種基于明文報(bào)文包頭域信息聚類和交叉關(guān)聯(lián)的方法FlowPrint優(yōu)化了對(duì)專家經(jīng)驗(yàn)的依賴,但仍無法在全密化趨勢(shì)的新型加密協(xié)議TLS 1.3中發(fā)揮作用。而另外兩類典型的方法是依賴專家經(jīng)驗(yàn)構(gòu)造流序列統(tǒng)計(jì)特征和使用深度模型學(xué)習(xí)原始流序列的表征,他們優(yōu)化了模型對(duì)明文的依賴性但是需要大量人工成本或準(zhǔn)確標(biāo)注的流序列。由于加密協(xié)議的全密化發(fā)展趨勢(shì)和隱私保護(hù)相關(guān)法律的日益完善,獲取準(zhǔn)確標(biāo)注的大規(guī)模流量不只是一個(gè)困難的工程問題,也面臨社會(huì)管理和合法合規(guī)的挑戰(zhàn)。因此,現(xiàn)有典型的三類方法的缺點(diǎn)是明顯的。
在自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域,無監(jiān)督的大規(guī)模預(yù)訓(xùn)練模型被提出并在相應(yīng)領(lǐng)域取得里程碑式的發(fā)展。在自然語言處理中,BERT等工作提出即使沒有標(biāo)注,文字詞語和句子之間也有關(guān)聯(lián)關(guān)系能夠?qū)W習(xí)并幫助構(gòu)建這些自然語言的表征,并且對(duì)現(xiàn)有待解決的問題具有明顯增益。但是如何在加密流量中引入,并且有效地進(jìn)一步解決現(xiàn)有挑戰(zhàn)是本篇文章重點(diǎn)解決的問題。
HongYe He等人是已知近幾年的首次嘗試應(yīng)用預(yù)訓(xùn)練架構(gòu)到加密流量分類任務(wù),但是研究者發(fā)現(xiàn)他們的嘗試還有很多可優(yōu)化的地方。網(wǎng)絡(luò)流量本身是無語義的編碼符號(hào)序列,但是網(wǎng)絡(luò)傳輸過程受到實(shí)際內(nèi)容(例如文本,圖片,音頻,視頻等)的不同以及前后順序的差異的影響,這導(dǎo)致直接將流序列視作“句子”進(jìn)行生硬遷移的效果還不理想。
因此,研究者認(rèn)為:
l 現(xiàn)有挖掘加密流量特征的模型并沒有考慮到加密流量在不同場(chǎng)景下都具有流量的共性特征,在流量表征過程只關(guān)注單一場(chǎng)景;
l 現(xiàn)有引入預(yù)訓(xùn)練架構(gòu)的模型沒有從深層次發(fā)掘和利用流量的傳輸行為對(duì)區(qū)分不同應(yīng)用的關(guān)聯(lián)關(guān)系。
二、方法介紹
針對(duì)這些挑戰(zhàn),研究者提出了一種基于挖掘流量上下文和傳輸關(guān)系的加密流量表征模型—?ET-BERT(Encrypted Traffic Bidirectional Encoder Representations from Transformer)。該方法使用掩碼BURST預(yù)測(cè)任務(wù)(Masked BURST Model)和同源BURST預(yù)測(cè)任務(wù)(Same-origin BURST Prediction),來挖掘和表征加密流量報(bào)文的隱式關(guān)聯(lián)信息。
研究者表明,ET-BERT的關(guān)鍵思路在于從原始流量報(bào)文中捕獲健壯通用的關(guān)聯(lián)關(guān)系并且不僅在過去、現(xiàn)在的不同網(wǎng)絡(luò)流量場(chǎng)景中有效應(yīng)用,還能適應(yīng)全加密的未來網(wǎng)絡(luò)流量場(chǎng)景。
說明:加密流量及其結(jié)構(gòu)
流量的形式在網(wǎng)絡(luò)傳輸中是二進(jìn)制的比特流形式,主要構(gòu)造單元有數(shù)據(jù)包和會(huì)話流。其中數(shù)據(jù)包為傳輸最小完整單元;會(huì)話流由通信的設(shè)備兩端的一個(gè)完整交互單元,由多個(gè)數(shù)據(jù)包組成;BURST結(jié)構(gòu)在本文中定義的是會(huì)話流中的局部結(jié)構(gòu),由會(huì)話流中單向傳輸?shù)倪B續(xù)n個(gè)數(shù)據(jù)包組成。
ET-BERT
具體而言,該方法主要分為三個(gè)部分:A.預(yù)處理和編碼加密流量為token組成的BURST結(jié)構(gòu),B.預(yù)訓(xùn)練學(xué)習(xí)加密流量報(bào)文的關(guān)聯(lián)關(guān)系,C.將預(yù)訓(xùn)練模型應(yīng)用到下游任務(wù)中微調(diào)。
預(yù)處理階段的關(guān)鍵在于將原始的會(huì)話流量抽取帶有內(nèi)容傳輸特性的BURST結(jié)構(gòu)和顯著偏置的數(shù)據(jù)信息。BURST結(jié)構(gòu)是由于不同網(wǎng)絡(luò)服務(wù)的內(nèi)容在與客戶端交互時(shí)的內(nèi)容結(jié)構(gòu)差異產(chǎn)生的帶有傳輸特性的流量結(jié)構(gòu)。相比于直接將完整報(bào)文作為模型輸入進(jìn)行表示學(xué)習(xí),這種預(yù)處理能夠更好結(jié)合本文使用的預(yù)訓(xùn)練任務(wù)。
預(yù)訓(xùn)練階段的關(guān)鍵在于利用自監(jiān)督學(xué)習(xí)任務(wù)從大規(guī)模無標(biāo)注的BURST結(jié)構(gòu)化流量報(bào)文中捕捉到內(nèi)容的上下文關(guān)系以及流量傳輸?shù)耐搓P(guān)系。在網(wǎng)絡(luò)流量中,離散的加密數(shù)據(jù)包作為基礎(chǔ)單元無法體現(xiàn)出不同應(yīng)用、服務(wù)的差異性。為了挖掘流量信息之間的可區(qū)分特性,研究者不僅是對(duì)符號(hào)上下文進(jìn)行掩碼預(yù)測(cè)學(xué)習(xí),同時(shí)對(duì)BURST結(jié)構(gòu)進(jìn)行截?cái)喑蓪?duì)并預(yù)測(cè)來源于相同BURST的BURST子對(duì)。相比于只學(xué)習(xí)符號(hào)上下文的關(guān)系,這兩種自監(jiān)督任務(wù)能夠兼顧流量的傳輸關(guān)系以及內(nèi)容關(guān)聯(lián)性,并且更好地為下游場(chǎng)景服務(wù)。
微調(diào)階段是對(duì)帶標(biāo)注的不同場(chǎng)景的流量數(shù)據(jù)進(jìn)行兩種通用輸入結(jié)構(gòu)的處理,包括包級(jí)別和流級(jí)別。這兩種處理也是應(yīng)用場(chǎng)景中通常使用的模式,在預(yù)訓(xùn)練好模型的基礎(chǔ)上繼續(xù)訓(xùn)練較少的輪次以達(dá)到最適合特定場(chǎng)景的識(shí)別需求。
三、實(shí)驗(yàn)與分析
為了證明提出的ET-BERT框架的有效性,研究者在網(wǎng)絡(luò)流量分類公開數(shù)據(jù)集ISCX-VPN,ISCX-Tor,USTC-TFC和Cross-Platform數(shù)據(jù)集以及自采的CST-NET TLS 1.3數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。采用準(zhǔn)確性指標(biāo)macro-accuracy,精確度指標(biāo)macro-precision,召回率指標(biāo)macro-recall,以及F-measure指標(biāo)macro-F1 進(jìn)行評(píng)估。
1、總體結(jié)果
研究者將ET-BERT模型和五個(gè)場(chǎng)景下的11個(gè)代表模型在所有場(chǎng)景任務(wù)中進(jìn)行了比較,包括AppScanner,CUMUL,BIND,K-fp,F(xiàn)lowPrint,DeepFingerprint,F(xiàn)S-Net,GraphDApp,TSCRNN,Deeppacket和PERT。表2和表3中報(bào)告了具體的結(jié)果。
由結(jié)果可以看到,盡管在個(gè)別場(chǎng)景的數(shù)據(jù)集下,F(xiàn)S-Net、Deeppacket等傳統(tǒng)模型是具有強(qiáng)大性能展現(xiàn)的,但在不同場(chǎng)景下的遷移性不足,而ET-BERT在所有場(chǎng)景下的性能表現(xiàn)波動(dòng)明顯優(yōu)于對(duì)比模型。此外,該研究在測(cè)試集上實(shí)現(xiàn)了比其他方法更好的結(jié)果,這進(jìn)一步證明了ET-BERT強(qiáng)大的泛化能力。
2、消融實(shí)驗(yàn)
研究者對(duì)該研究進(jìn)行消融實(shí)驗(yàn),以了解ET-BERT中具有和不具有單個(gè)模塊與處理模式的影響。如表4所示,研究者選擇了學(xué)術(shù)界引用較多的ISCX-VPN數(shù)據(jù)集作為消融實(shí)驗(yàn)數(shù)據(jù)來源。ET-BERT在沒有單一模塊的情況下在測(cè)試集的性能均有不同程度的下降,這驗(yàn)證了所提出的每個(gè)模塊對(duì)表征加密流量起到了積極作用。
3、解釋性分析
從結(jié)果而言,目前為止的數(shù)據(jù)已經(jīng)表現(xiàn)了ET-BERT的可靠性能,但是研究者對(duì)加密流量在無語義的背景前提下為何能夠借助自然語言處理領(lǐng)域的BERT思想展開了一定的探索和解釋,這對(duì)進(jìn)一步提高模型在流量場(chǎng)景應(yīng)用的泛化能力是十分有益的。
在密碼學(xué)體系中,理想的安全密碼體制包含兩個(gè)特性:雪崩效應(yīng)和完備性(擴(kuò)散和混淆特性),他們能夠保證加密數(shù)據(jù)的真實(shí)隨機(jī)性,而使得攻擊者無法從加密數(shù)據(jù)中獲取任何有利于破譯信息的模式。然而,在現(xiàn)實(shí)密碼系統(tǒng)中,完全隨機(jī)并未被實(shí)現(xiàn),部署在網(wǎng)站、應(yīng)用中的不同加密算法存在著不一致的隨機(jī)性。為了衡量現(xiàn)有常見加密算法的安全強(qiáng)度以及實(shí)際流量數(shù)據(jù)中密碼套件的分布,研究者對(duì)常見的5類加密套件進(jìn)行NIST隨機(jī)性測(cè)試評(píng)估和密碼套件統(tǒng)計(jì)。
如表5所示,不同密碼套件在15種隨機(jī)性測(cè)試項(xiàng)目下展現(xiàn)出的隨機(jī)性指標(biāo)差異明顯,這種隨機(jī)性差異會(huì)放大部署了不同密碼套件的加密流量間的區(qū)分性。同時(shí),如圖3所示,研究者發(fā)現(xiàn)在6種測(cè)試場(chǎng)景的數(shù)據(jù)集中,TLS 1.3部署了隨機(jī)性較強(qiáng)的加密套件并且分布維度偏單一化。對(duì)比分類性能結(jié)果,研究者認(rèn)為密碼套件的實(shí)際部署不當(dāng)可能導(dǎo)致加密流量數(shù)據(jù)更易被識(shí)別。
4、質(zhì)量分析
(1)小樣本場(chǎng)景分類的質(zhì)量
如圖4所示,通過壓縮訓(xùn)練數(shù)據(jù)規(guī)模和實(shí)驗(yàn)測(cè)試,研究者表明ET-BERT相比其他典型代表方法在3種不同規(guī)模的小樣本場(chǎng)景下展現(xiàn)的性能更加穩(wěn)定,即使在10%的數(shù)據(jù)規(guī)模量級(jí)(50左右)下仍保持90%左右的macro-F1結(jié)果。
(2)結(jié)果可視化對(duì)比的質(zhì)量
如圖5所示,研究者通過分類結(jié)果的可視化展示ET-BERT的性能表現(xiàn)出色,在多類別的樣本類內(nèi)距離以及類間距離的邊界識(shí)別更加清晰,對(duì)于流量特征近似的類別也能夠保持較低的錯(cuò)檢率。
四、總結(jié)
研究者提出了一種面向加密流量分類的流量表征模型ET-BERT,該模型采用基于Transformer網(wǎng)絡(luò)的預(yù)訓(xùn)練-微調(diào)設(shè)計(jì)結(jié)構(gòu),極大改變了傳統(tǒng)流量分類研究中依賴大規(guī)模標(biāo)注流量和大量專家經(jīng)驗(yàn)知識(shí)的問題。ET-BERT具有良好的泛化性,能夠適應(yīng)不同的加密流量場(chǎng)景,包括新型加密協(xié)議,在未來全加密網(wǎng)絡(luò)中應(yīng)用更加普適和可靠的網(wǎng)絡(luò)行為分析技術(shù)具有較好的啟示作用。
此外,研究者表示當(dāng)前工作相比于統(tǒng)計(jì)特征構(gòu)建的方法,在可解釋和易理解方面還存在不足,同時(shí)還未對(duì)數(shù)據(jù)毒化和場(chǎng)景漂移等不穩(wěn)定因素干擾展開進(jìn)一步測(cè)試驗(yàn)證。研究者計(jì)劃在未來的研究工作中嘗試解決這些問題并進(jìn)一步保障在全加密網(wǎng)絡(luò)中的可靠和可用。
作者與團(tuán)隊(duì)簡(jiǎn)介:
林鑫杰,中國(guó)科學(xué)院信息工程研究所(中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院)在讀博士研究生,在熊剛老師的網(wǎng)絡(luò)行為分析與對(duì)抗組、于靜老師的跨模態(tài)智能研究組開展研究,研究方向包括加密流量分析和預(yù)訓(xùn)練學(xué)習(xí),個(gè)人GitHub主頁:
https://github.com/linwhitehat。
中科院信息工程研究所網(wǎng)絡(luò)行為分析與對(duì)抗團(tuán)隊(duì)的主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)測(cè)量與行為分析、信息對(duì)抗理論與技術(shù)、網(wǎng)絡(luò)取證技術(shù)、海量數(shù)據(jù)挖掘與分析等,相關(guān)研究工作在USENIX Security、WWW、INFOCOM、Computers & Security、ACSAC、WWWJ、CIKM、計(jì)算機(jī)學(xué)報(bào)、RAID、IWQoS等國(guó)內(nèi)外重要會(huì)議期刊發(fā)表。
中科院信息工程研究所跨模態(tài)智能研究組的主要研究領(lǐng)域?yàn)槎嗄B(tài)信息表示、記憶、推理、生成和積累等,應(yīng)用場(chǎng)景包括跨模態(tài)信息檢索、視覺問答/對(duì)話、圖像/視頻描述生成、視覺場(chǎng)景圖生成等,相關(guān)研究工作在CVPR、ICML、AAAI、IJCAI、ACM MM、TIP、TMM等國(guó)際重要會(huì)議和期刊發(fā)表,研究組主頁:
https://mmlab-iie.github.io/。