本技術涉及網(wǎng)絡,尤其涉及一種會話分類方法、裝置、存儲介質及計算機設備。
背景技術:
1、隨著互聯(lián)網(wǎng)應用和數(shù)據(jù)安全需求的不斷提升,網(wǎng)絡通信日益向高度私密化與隱蔽化方向發(fā)展。許多隱蔽通信、匿名通信(如tor)和加密隧道(如vpn)等安全通信工具,通過網(wǎng)絡加密(如tls1.3、quic)、流量混淆和流量偽裝等技術,掩蓋了原本可直接觀察的流量特征,使得網(wǎng)絡流量呈現(xiàn)高度混淆與動態(tài)變化的特點。愈發(fā)難以通過傳統(tǒng)手段(如基于端口或明文內容檢測)對網(wǎng)絡流量進行有效識別。如何在不可見的加密流量中精準區(qū)分正常與異常服務,識別出各種隱蔽或多樣化的應用類型成為網(wǎng)絡流量分析領域亟待破解的核心難題。
2、相關技術中,盡管深度學習和預訓練模型在加密流量分類任務中取得了一定的進展,但在面對高度私密化與隱蔽化的加密流量環(huán)境時,仍然存在諸多不足,導致其在實際應用中效果不盡如人意。首先,現(xiàn)有模型離線測試會導致參數(shù)固化機制,難以在新型加密協(xié)議涌現(xiàn)(如tls1.3、quic的版本迭代)或流量特征分布顯著偏移時動態(tài)調整,導致分類性能隨流量演化急劇退化。其次,先前方法多聚焦于單一特征提取策略,忽視了流量序列的交互方向性與時序規(guī)律,而此類特征對區(qū)分高混淆場景(如匿名通信、vpn隧道)具有關鍵作用,導致分類準確性較低,故相關技術亟待提出一種會話分類方法來解決上述技術問題。
技術實現(xiàn)思路
1、本技術的主要目的在于提供一種會話分類方法、裝置、存儲介質及計算機設備,通過引入多個模型處理塊的層級處理機制,每個塊包含靜態(tài)語義提取器和補償預測模塊,通過補償預測模塊能動態(tài)預測補償向量,通過靜態(tài)語義提取器提取出的深層會話特征結合補償向量的修正方式,使每個處理塊均可根據(jù)當前流量特征調整輸出。這種逐層動態(tài)修正機制允許模型在推理階段適應新型加密協(xié)議或流量分布偏移,避免分類性能隨流量演化退化。分層時空特征張量通過位置編碼捕捉流量的時序規(guī)律,確保特征包含序列的時間關聯(lián)信息;將最后一個標記的表示張量與數(shù)據(jù)包的方向序列結合用于分類,直接利用了流量的交互方向特征,彌補了現(xiàn)有技術對該類特征的忽視,提升了高混淆場景的分類準確性。
2、第一方面,本技術實施例提供了一種會話分類方法,包括:
3、獲取流量數(shù)據(jù),對所述流量數(shù)據(jù)依次進行會話劃分、加密負載字節(jié)組提取、離散標記轉換及時序位置編碼處理,得到所述流量數(shù)據(jù)包括的每個會話的分層時空特征張量;
4、針對于每個所述會話的分層時空特征張量,將所述分層時空特征張量輸入至多個模型處理塊的未進行處理的首個目標模型處理塊的靜態(tài)語義提取器中,提取出深層會話特征,并通過所述目標模型處理塊的補償預測模塊預測所述靜態(tài)語義提取器的補償向量;
5、獲取所述深層會話特征與所述補償向量的和值,得到第一會話語義向量;
6、將所述第一會話語義向量確定為分層時空特征張量,返回執(zhí)行所述將所述分層時空特征張量輸入至多個模型處理塊的未進行處理的首個目標模型處理塊的靜態(tài)語義提取器中的步驟,直至每個所述模型處理塊均處理完畢,將最終輸出的第一會話語義向量確定為每個所述會話對應的會話語義向量;
7、針對于每個所述會話,從對應的會話語義向量中提取相應的離散標記序列中最后一個標記對應的表示張量,并獲取每個所述會話對應的多個數(shù)據(jù)包的方向序列;
8、基于每個所述會話對應的表示張量以及對應的方向序列,確定各所述會話的會話類型。
9、第二方面,本技術實施例提供一種會話分類裝置,包括:
10、第一獲取單元,用于獲取流量數(shù)據(jù),對所述流量數(shù)據(jù)依次進行會話劃分、加密負載字節(jié)組提取、離散標記轉換及時序位置編碼處理,得到所述流量數(shù)據(jù)包括的每個會話的分層時空特征張量;
11、輸入單元,用于針對于每個所述會話的分層時空特征張量,將所述分層時空特征張量輸入至多個模型處理塊的未進行處理的首個目標模型處理塊的靜態(tài)語義提取器中,提取出深層會話特征,并通過所述目標模型處理塊的補償預測模塊預測所述靜態(tài)語義提取器的補償向量;
12、第二獲取單元,用于獲取所述深層會話特征與所述補償向量的和值,得到第一會話語義向量;
13、第一確定單元,用于將所述第一會話語義向量確定為分層時空特征張量,返回執(zhí)行所述將所述分層時空特征張量輸入至多個模型處理塊的未進行處理的首個目標模型處理塊的靜態(tài)語義提取器中的步驟,直至每個所述模型處理塊均處理完畢,將最終輸出的第一會話語義向量確定為每個所述會話對應的會話語義向量;
14、提取單元,用于針對于每個所述會話,從對應的會話語義向量中提取相應的離散標記序列中最后一個標記對應的表示張量,并獲取每個所述會話對應的多個數(shù)據(jù)包的方向序列;
15、第二確定單元,用于基于每個所述會話對應的表示張量以及對應的方向序列,確定各所述會話的會話類型。
16、第三方面,本技術實施例提供一種存儲介質,計算機可讀存儲介質存儲有多條指令,該指令適于處理器進行加載,以執(zhí)行如上任一項的會話分類方法。
17、第四方面,本技術實施例提供一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可以在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上任一項的會話分類方法。
18、在本技術實施例中,通過獲取流量數(shù)據(jù),對所述流量數(shù)據(jù)依次進行會話劃分、加密負載字節(jié)組提取、離散標記轉換及時序位置編碼處理,得到所述流量數(shù)據(jù)包括的每個會話的分層時空特征張量;針對于每個所述會話的分層時空特征張量,將所述分層時空特征張量輸入至多個模型處理塊的未進行處理的首個目標模型處理塊的靜態(tài)語義提取器中,提取出深層會話特征,并通過所述目標模型處理塊的補償預測模塊預測所述靜態(tài)語義提取器的補償向量;獲取所述深層會話特征與所述補償向量的和值,得到第一會話語義向量;將所述第一會話語義向量確定為分層時空特征張量,返回執(zhí)行所述將所述分層時空特征張量輸入至多個模型處理塊的未進行處理的首個目標模型處理塊的靜態(tài)語義提取器中的步驟,直至每個所述模型處理塊均處理完畢,將最終輸出的第一會話語義向量確定為每個所述會話對應的會話語義向量;針對于每個所述會話,從對應的會話語義向量中提取相應的離散標記序列中最后一個標記對應的表示張量,并獲取每個所述會話對應的多個數(shù)據(jù)包的方向序列;基于每個所述會話對應的表示張量以及對應的方向序列,確定各所述會話的會話類型。以通過引入多個模型處理塊的層級處理機制,每個塊包含靜態(tài)語義提取器和補償預測模塊,通過補償預測模塊能動態(tài)預測補償向量,通過靜態(tài)語義提取器提取出的深層會話特征結合補償向量的修正方式,使每個處理塊均可根據(jù)當前流量特征調整輸出。這種逐層動態(tài)修正機制允許模型在推理階段適應新型加密協(xié)議或流量分布偏移,避免分類性能隨流量演化退化。分層時空特征張量通過位置編碼捕捉流量的時序規(guī)律,確保特征包含序列的時間關聯(lián)信息;將最后一個標記的表示張量與數(shù)據(jù)包的方向序列結合用于分類,直接利用了流量的交互方向特征,彌補了現(xiàn)有技術對該類特征的忽視,提升了高混淆場景的分類準確性。
19、本公開的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本公開而了解。本公開的目的和其他優(yōu)點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現(xiàn)和獲得。