本技術(shù)涉及網(wǎng)絡(luò),尤其涉及一種會(huì)話分類方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)應(yīng)用和數(shù)據(jù)安全需求的不斷提升,網(wǎng)絡(luò)通信日益向高度私密化與隱蔽化方向發(fā)展。許多隱蔽通信、匿名通信(如tor)和加密隧道(如vpn)等安全通信工具,通過(guò)網(wǎng)絡(luò)加密(如tls1.3、quic)、流量混淆和流量偽裝等技術(shù),掩蓋了原本可直接觀察的流量特征,使得網(wǎng)絡(luò)流量呈現(xiàn)高度混淆與動(dòng)態(tài)變化的特點(diǎn)。愈發(fā)難以通過(guò)傳統(tǒng)手段(如基于端口或明文內(nèi)容檢測(cè))對(duì)網(wǎng)絡(luò)流量進(jìn)行有效識(shí)別。如何在不可見(jiàn)的加密流量中精準(zhǔn)區(qū)分正常與異常服務(wù),識(shí)別出各種隱蔽或多樣化的應(yīng)用類型成為網(wǎng)絡(luò)流量分析領(lǐng)域亟待破解的核心難題。
2、相關(guān)技術(shù)中,盡管深度學(xué)習(xí)和預(yù)訓(xùn)練模型在加密流量分類任務(wù)中取得了一定的進(jìn)展,但在面對(duì)高度私密化與隱蔽化的加密流量環(huán)境時(shí),仍然存在諸多不足,導(dǎo)致其在實(shí)際應(yīng)用中效果不盡如人意。首先,現(xiàn)有模型離線測(cè)試會(huì)導(dǎo)致參數(shù)固化機(jī)制,難以在新型加密協(xié)議涌現(xiàn)(如tls1.3、quic的版本迭代)或流量特征分布顯著偏移時(shí)動(dòng)態(tài)調(diào)整,導(dǎo)致分類性能隨流量演化急劇退化。其次,先前方法多聚焦于單一特征提取策略,忽視了流量序列的交互方向性與時(shí)序規(guī)律,而此類特征對(duì)區(qū)分高混淆場(chǎng)景(如匿名通信、vpn隧道)具有關(guān)鍵作用,導(dǎo)致分類準(zhǔn)確性較低,故相關(guān)技術(shù)亟待提出一種會(huì)話分類方法來(lái)解決上述技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種會(huì)話分類方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備,通過(guò)引入多個(gè)模型處理塊的層級(jí)處理機(jī)制,每個(gè)塊包含靜態(tài)語(yǔ)義提取器和補(bǔ)償預(yù)測(cè)模塊,通過(guò)補(bǔ)償預(yù)測(cè)模塊能動(dòng)態(tài)預(yù)測(cè)補(bǔ)償向量,通過(guò)靜態(tài)語(yǔ)義提取器提取出的深層會(huì)話特征結(jié)合補(bǔ)償向量的修正方式,使每個(gè)處理塊均可根據(jù)當(dāng)前流量特征調(diào)整輸出。這種逐層動(dòng)態(tài)修正機(jī)制允許模型在推理階段適應(yīng)新型加密協(xié)議或流量分布偏移,避免分類性能隨流量演化退化。分層時(shí)空特征張量通過(guò)位置編碼捕捉流量的時(shí)序規(guī)律,確保特征包含序列的時(shí)間關(guān)聯(lián)信息;將最后一個(gè)標(biāo)記的表示張量與數(shù)據(jù)包的方向序列結(jié)合用于分類,直接利用了流量的交互方向特征,彌補(bǔ)了現(xiàn)有技術(shù)對(duì)該類特征的忽視,提升了高混淆場(chǎng)景的分類準(zhǔn)確性。
2、第一方面,本技術(shù)實(shí)施例提供了一種會(huì)話分類方法,包括:
3、獲取流量數(shù)據(jù),對(duì)所述流量數(shù)據(jù)依次進(jìn)行會(huì)話劃分、加密負(fù)載字節(jié)組提取、離散標(biāo)記轉(zhuǎn)換及時(shí)序位置編碼處理,得到所述流量數(shù)據(jù)包括的每個(gè)會(huì)話的分層時(shí)空特征張量;
4、針對(duì)于每個(gè)所述會(huì)話的分層時(shí)空特征張量,將所述分層時(shí)空特征張量輸入至多個(gè)模型處理塊的未進(jìn)行處理的首個(gè)目標(biāo)模型處理塊的靜態(tài)語(yǔ)義提取器中,提取出深層會(huì)話特征,并通過(guò)所述目標(biāo)模型處理塊的補(bǔ)償預(yù)測(cè)模塊預(yù)測(cè)所述靜態(tài)語(yǔ)義提取器的補(bǔ)償向量;
5、獲取所述深層會(huì)話特征與所述補(bǔ)償向量的和值,得到第一會(huì)話語(yǔ)義向量;
6、將所述第一會(huì)話語(yǔ)義向量確定為分層時(shí)空特征張量,返回執(zhí)行所述將所述分層時(shí)空特征張量輸入至多個(gè)模型處理塊的未進(jìn)行處理的首個(gè)目標(biāo)模型處理塊的靜態(tài)語(yǔ)義提取器中的步驟,直至每個(gè)所述模型處理塊均處理完畢,將最終輸出的第一會(huì)話語(yǔ)義向量確定為每個(gè)所述會(huì)話對(duì)應(yīng)的會(huì)話語(yǔ)義向量;
7、針對(duì)于每個(gè)所述會(huì)話,從對(duì)應(yīng)的會(huì)話語(yǔ)義向量中提取相應(yīng)的離散標(biāo)記序列中最后一個(gè)標(biāo)記對(duì)應(yīng)的表示張量,并獲取每個(gè)所述會(huì)話對(duì)應(yīng)的多個(gè)數(shù)據(jù)包的方向序列;
8、基于每個(gè)所述會(huì)話對(duì)應(yīng)的表示張量以及對(duì)應(yīng)的方向序列,確定各所述會(huì)話的會(huì)話類型。
9、第二方面,本技術(shù)實(shí)施例提供一種會(huì)話分類裝置,包括:
10、第一獲取單元,用于獲取流量數(shù)據(jù),對(duì)所述流量數(shù)據(jù)依次進(jìn)行會(huì)話劃分、加密負(fù)載字節(jié)組提取、離散標(biāo)記轉(zhuǎn)換及時(shí)序位置編碼處理,得到所述流量數(shù)據(jù)包括的每個(gè)會(huì)話的分層時(shí)空特征張量;
11、輸入單元,用于針對(duì)于每個(gè)所述會(huì)話的分層時(shí)空特征張量,將所述分層時(shí)空特征張量輸入至多個(gè)模型處理塊的未進(jìn)行處理的首個(gè)目標(biāo)模型處理塊的靜態(tài)語(yǔ)義提取器中,提取出深層會(huì)話特征,并通過(guò)所述目標(biāo)模型處理塊的補(bǔ)償預(yù)測(cè)模塊預(yù)測(cè)所述靜態(tài)語(yǔ)義提取器的補(bǔ)償向量;
12、第二獲取單元,用于獲取所述深層會(huì)話特征與所述補(bǔ)償向量的和值,得到第一會(huì)話語(yǔ)義向量;
13、第一確定單元,用于將所述第一會(huì)話語(yǔ)義向量確定為分層時(shí)空特征張量,返回執(zhí)行所述將所述分層時(shí)空特征張量輸入至多個(gè)模型處理塊的未進(jìn)行處理的首個(gè)目標(biāo)模型處理塊的靜態(tài)語(yǔ)義提取器中的步驟,直至每個(gè)所述模型處理塊均處理完畢,將最終輸出的第一會(huì)話語(yǔ)義向量確定為每個(gè)所述會(huì)話對(duì)應(yīng)的會(huì)話語(yǔ)義向量;
14、提取單元,用于針對(duì)于每個(gè)所述會(huì)話,從對(duì)應(yīng)的會(huì)話語(yǔ)義向量中提取相應(yīng)的離散標(biāo)記序列中最后一個(gè)標(biāo)記對(duì)應(yīng)的表示張量,并獲取每個(gè)所述會(huì)話對(duì)應(yīng)的多個(gè)數(shù)據(jù)包的方向序列;
15、第二確定單元,用于基于每個(gè)所述會(huì)話對(duì)應(yīng)的表示張量以及對(duì)應(yīng)的方向序列,確定各所述會(huì)話的會(huì)話類型。
16、第三方面,本技術(shù)實(shí)施例提供一種存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,該指令適于處理器進(jìn)行加載,以執(zhí)行如上任一項(xiàng)的會(huì)話分類方法。
17、第四方面,本技術(shù)實(shí)施例提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可以在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上任一項(xiàng)的會(huì)話分類方法。
18、在本技術(shù)實(shí)施例中,通過(guò)獲取流量數(shù)據(jù),對(duì)所述流量數(shù)據(jù)依次進(jìn)行會(huì)話劃分、加密負(fù)載字節(jié)組提取、離散標(biāo)記轉(zhuǎn)換及時(shí)序位置編碼處理,得到所述流量數(shù)據(jù)包括的每個(gè)會(huì)話的分層時(shí)空特征張量;針對(duì)于每個(gè)所述會(huì)話的分層時(shí)空特征張量,將所述分層時(shí)空特征張量輸入至多個(gè)模型處理塊的未進(jìn)行處理的首個(gè)目標(biāo)模型處理塊的靜態(tài)語(yǔ)義提取器中,提取出深層會(huì)話特征,并通過(guò)所述目標(biāo)模型處理塊的補(bǔ)償預(yù)測(cè)模塊預(yù)測(cè)所述靜態(tài)語(yǔ)義提取器的補(bǔ)償向量;獲取所述深層會(huì)話特征與所述補(bǔ)償向量的和值,得到第一會(huì)話語(yǔ)義向量;將所述第一會(huì)話語(yǔ)義向量確定為分層時(shí)空特征張量,返回執(zhí)行所述將所述分層時(shí)空特征張量輸入至多個(gè)模型處理塊的未進(jìn)行處理的首個(gè)目標(biāo)模型處理塊的靜態(tài)語(yǔ)義提取器中的步驟,直至每個(gè)所述模型處理塊均處理完畢,將最終輸出的第一會(huì)話語(yǔ)義向量確定為每個(gè)所述會(huì)話對(duì)應(yīng)的會(huì)話語(yǔ)義向量;針對(duì)于每個(gè)所述會(huì)話,從對(duì)應(yīng)的會(huì)話語(yǔ)義向量中提取相應(yīng)的離散標(biāo)記序列中最后一個(gè)標(biāo)記對(duì)應(yīng)的表示張量,并獲取每個(gè)所述會(huì)話對(duì)應(yīng)的多個(gè)數(shù)據(jù)包的方向序列;基于每個(gè)所述會(huì)話對(duì)應(yīng)的表示張量以及對(duì)應(yīng)的方向序列,確定各所述會(huì)話的會(huì)話類型。以通過(guò)引入多個(gè)模型處理塊的層級(jí)處理機(jī)制,每個(gè)塊包含靜態(tài)語(yǔ)義提取器和補(bǔ)償預(yù)測(cè)模塊,通過(guò)補(bǔ)償預(yù)測(cè)模塊能動(dòng)態(tài)預(yù)測(cè)補(bǔ)償向量,通過(guò)靜態(tài)語(yǔ)義提取器提取出的深層會(huì)話特征結(jié)合補(bǔ)償向量的修正方式,使每個(gè)處理塊均可根據(jù)當(dāng)前流量特征調(diào)整輸出。這種逐層動(dòng)態(tài)修正機(jī)制允許模型在推理階段適應(yīng)新型加密協(xié)議或流量分布偏移,避免分類性能隨流量演化退化。分層時(shí)空特征張量通過(guò)位置編碼捕捉流量的時(shí)序規(guī)律,確保特征包含序列的時(shí)間關(guān)聯(lián)信息;將最后一個(gè)標(biāo)記的表示張量與數(shù)據(jù)包的方向序列結(jié)合用于分類,直接利用了流量的交互方向特征,彌補(bǔ)了現(xiàn)有技術(shù)對(duì)該類特征的忽視,提升了高混淆場(chǎng)景的分類準(zhǔn)確性。
19、本公開(kāi)的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本公開(kāi)而了解。本公開(kāi)的目的和其他優(yōu)點(diǎn)可通過(guò)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。