本發(fā)明涉及生態(tài)環(huán)保與數(shù)據(jù)分析,更具體的說是涉及一種面向固定污染源監(jiān)測數(shù)據(jù)的異常檢測方法。
背景技術(shù):
1、隨著大數(shù)據(jù)、云計(jì)算、移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新一代信息技術(shù)的飛速發(fā)展,全球污染源監(jiān)測數(shù)據(jù)總量呈現(xiàn)爆發(fā)式增長。這些技術(shù)使得能夠從工業(yè)排放口等固定污染源收集到大量的監(jiān)測數(shù)據(jù)。然而,由于設(shè)備故障、操作失誤或外部環(huán)境影響等因素,數(shù)據(jù)中難免會出現(xiàn)異常值。這些異常值如果未被有效識別和處理,將嚴(yán)重影響環(huán)境評估的準(zhǔn)確性、政策制定的科學(xué)性以及環(huán)境治理的效率。
2、目前,固定污染源監(jiān)測數(shù)據(jù)的異常檢測存在以下缺陷:
3、1、傳統(tǒng)的固定污染源監(jiān)測數(shù)據(jù)異常檢測主要依賴于人工歸納的規(guī)則,這種方法雖然可以在一定程度上識別出初步的異常情況,但其能夠標(biāo)記的異常數(shù)據(jù)量有限。并且由于人為因素影響,這些標(biāo)記的可靠性存在一定局限。
4、2、傳統(tǒng)的人工審查、機(jī)器學(xué)習(xí)方法不足以處理大量多維數(shù)據(jù),難以高效實(shí)現(xiàn)復(fù)雜數(shù)據(jù)結(jié)構(gòu)的異常檢測,從而影響異常檢測的效率和準(zhǔn)確性。
5、3、目前廣泛使用的異常檢測算法大多是基于單一開源數(shù)據(jù)集或面向圖像數(shù)據(jù)設(shè)計(jì)的,對于固定污染源這種高異質(zhì)性的多維時序數(shù)據(jù)來說,直接應(yīng)用這些算法效果不佳。特別是當(dāng)沒有可信標(biāo)簽時,現(xiàn)有的主流算法往往不能很好地適應(yīng)和解決問題。
6、4、主流的時序數(shù)據(jù)預(yù)處理技術(shù)主要是使用滑動窗口提取時序數(shù)據(jù),但不同污染源之間的差異很大,傳統(tǒng)的滑動窗口法主要是針對較為統(tǒng)一的數(shù)據(jù)集設(shè)計(jì)的,如果簡單地使用窗口提取和歸一化的方法可能會忽略污染源間的重要差異,導(dǎo)致后續(xù)分析結(jié)果的偏差。
7、因此,如何提升固定污染源監(jiān)測數(shù)據(jù)中異常檢測的準(zhǔn)確性和效率,是本領(lǐng)域技術(shù)人員亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本發(fā)明提供一種面向固定污染源監(jiān)測數(shù)據(jù)的異常檢測方法,以至少解決上述背景技術(shù)中提到的部分技術(shù)問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、本發(fā)明提供了一種面向固定污染源監(jiān)測數(shù)據(jù)的異常檢測方法,包括如下步驟:
4、將目標(biāo)污染源監(jiān)測數(shù)據(jù)輸入到訓(xùn)練好的對抗網(wǎng)絡(luò)模型中,輸出所述目標(biāo)污染源監(jiān)測數(shù)據(jù)為正常數(shù)據(jù)的概率;
5、其中,所述對抗網(wǎng)絡(luò)模型的訓(xùn)練過程包括:
6、s1、對獲取到的固定污染源監(jiān)測數(shù)據(jù)進(jìn)行預(yù)處理,獲得時間序列數(shù)據(jù)和輔助特征;
7、s2、對時間序列數(shù)據(jù)和輔助特征進(jìn)行融合,并將融合特征輸入至基于vae-diffusion構(gòu)成的生成器中進(jìn)行重構(gòu),獲得重構(gòu)數(shù)據(jù);
8、s3、將重構(gòu)數(shù)據(jù)標(biāo)記為假,將獲取到的固定污染源監(jiān)測數(shù)據(jù)標(biāo)記為真,均輸入到由時序卷積網(wǎng)絡(luò)構(gòu)成的神經(jīng)網(wǎng)絡(luò)判別器中,輸出判別結(jié)果;
9、s4、基于神經(jīng)網(wǎng)絡(luò)判別器輸出的判別結(jié)果,采用總損失函數(shù)對生成器進(jìn)行反向傳播,完成生成器的訓(xùn)練。
10、進(jìn)一步地,所述步驟s1具體包括:
11、對獲取到的固定污染源監(jiān)測數(shù)據(jù)進(jìn)行分組歸一化處理;
12、采用滑動窗口技術(shù),按照預(yù)設(shè)時間尺度,從分組歸一化處理后的固定污染源監(jiān)測數(shù)據(jù)中提取連續(xù)的時間序列數(shù)據(jù);
13、針對不同污染源所對應(yīng)的固定污染源監(jiān)測數(shù)據(jù),識別出其中的分類變量;并針對每個分類變量,創(chuàng)建一個與該分類變量數(shù)據(jù)長度相同的二進(jìn)制向量,作為獨(dú)熱編碼后的輔助特征;
14、將時間序列數(shù)據(jù)和輔助特征分別存儲為csv文件。
15、進(jìn)一步地,所述對獲取到的固定污染源監(jiān)測數(shù)據(jù)進(jìn)行分組歸一化處理,具體包括:
16、獲取不同監(jiān)測點(diǎn)所對應(yīng)的固定污染源監(jiān)測數(shù)據(jù);
17、按照污染物類型對固定污染源監(jiān)測數(shù)據(jù)進(jìn)行初始劃分,獲得多個大組;
18、對每個大組中的固定污染源監(jiān)測數(shù)據(jù)進(jìn)行歸一化處理。
19、進(jìn)一步地,在所述步驟s1中,選用minmax歸一化法。
20、進(jìn)一步地,所述對時間序列數(shù)據(jù)和輔助特征進(jìn)行融合,具體包括:
21、通過一維卷積層對所述時間序列數(shù)據(jù)進(jìn)行特征壓縮處理,獲得卷積特征;
22、對所述輔助特征依次進(jìn)行卷積和池化處理,獲得池化特征;
23、通過全連接層對所述卷積特征和池化特征進(jìn)行融合處理,獲得融合特征。
24、進(jìn)一步地,在步驟s2中,在基于vae-diffusion構(gòu)成的生成器中,對所述融合特征進(jìn)行如下處理:
25、在編碼器中,通過引入概率分布對所述融合特征的潛在空間進(jìn)行建模,輸出所述融合特征在潛在空間中的分布規(guī)律,并降維采樣,獲得潛在變量;
26、在擴(kuò)散模型中,對所述潛在變量分別進(jìn)行前向擴(kuò)散處理和反向擴(kuò)散處理,生成初始重構(gòu)數(shù)據(jù);
27、在解碼器中,對所述初始重構(gòu)數(shù)據(jù)的特征結(jié)構(gòu)進(jìn)行還原,獲得最終的重構(gòu)數(shù)據(jù)。
28、進(jìn)一步地,在步驟s4中,所述總損失函數(shù)的獲取步驟包括:
29、(1)獲取產(chǎn)生于生成器重構(gòu)誤差的第一損失函數(shù),表示為:
30、
31、其中,xi是原始輸入的時間序列數(shù)據(jù)中的第i個元素;n表示原始輸入數(shù)據(jù)中共有n個元素;是重構(gòu)后的第i個元素。
32、(2)獲取產(chǎn)生于生成器的第二損失函數(shù),表示為:
33、
34、同時,獲取直接作用于神經(jīng)網(wǎng)絡(luò)判別器的負(fù)反饋訓(xùn)練的第三損失函數(shù),表示為:
35、
36、其中,x~pd(x)表示從原始數(shù)據(jù)中采樣一個樣本x;x~pg(x)表示從生成數(shù)據(jù)中采樣一個樣本x;表示期望;d(x)表示判別結(jié)果;
37、(3)將重構(gòu)數(shù)據(jù)輸入至由人工異常檢測規(guī)則匯總而成的人工規(guī)則判別器中,輸出重構(gòu)數(shù)據(jù)的違規(guī)情況,并基于違規(guī)情況獲取對應(yīng)的第四損失函數(shù);
38、將第一損失函數(shù)、第二損失函數(shù)和第四損失函數(shù)進(jìn)行加權(quán)求和,獲得總損失函數(shù)。
39、進(jìn)一步地,所述第四損失函數(shù),表示為:
40、
41、其中,rj表示為第j項(xiàng)人工異常檢測規(guī)則的違反次數(shù);wj表示為第j項(xiàng)人工異常檢測規(guī)則的當(dāng)前權(quán)重。
42、進(jìn)一步地,第j項(xiàng)人工異常檢測規(guī)則的當(dāng)前權(quán)重wj,將在每輪訓(xùn)練之后根據(jù)本輪總違規(guī)次數(shù)v進(jìn)行更新,設(shè)總權(quán)重w={w1,w2,...,wj};更新公式表示為:
43、
44、其中,wnew表示人工異常檢測規(guī)則更新后的總權(quán)重;η表示為學(xué)習(xí)率。
45、經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明公開提供了一種面向固定污染源監(jiān)測數(shù)據(jù)的異常檢測方法,具有如下有益效果:
46、本發(fā)明結(jié)合卷積和lstm的變分?jǐn)U散模型,創(chuàng)新性地將擴(kuò)散模型用于時序多維數(shù)據(jù),實(shí)現(xiàn)了有效捕捉高異質(zhì)性時序數(shù)據(jù)中的復(fù)雜模式和異常行為,提高了異常檢測的準(zhǔn)確性。
47、本發(fā)明設(shè)計(jì)的新?lián)p失函數(shù),結(jié)合了人工總結(jié)的異常監(jiān)測規(guī)則、重構(gòu)誤差與判別器判別結(jié)果,使得模型能夠在無標(biāo)簽數(shù)據(jù)上進(jìn)行有效的訓(xùn)練和異常檢測,大大降低了對標(biāo)簽數(shù)據(jù)的依賴。
48、本發(fā)明采用的分組歸一化和滑動窗口提取技術(shù),有效處理了高異質(zhì)性和多維時序數(shù)據(jù),提高了模型對不同數(shù)據(jù)源的適應(yīng)性和泛化能力。
49、通過對抗網(wǎng)絡(luò)訓(xùn)練,本發(fā)明的模型能夠在訓(xùn)練過程中有效評估訓(xùn)練效果,進(jìn)一步降低誤報率。對抗網(wǎng)絡(luò)訓(xùn)練提高了模型對異常數(shù)據(jù)的識別能力,而多損失值機(jī)制則使得模型能夠在無標(biāo)簽數(shù)據(jù)訓(xùn)練過程中有效評估訓(xùn)練效果,從而減少誤報。
50、下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。