本技術(shù)涉及故障檢測,適用于金融科技和醫(yī)療領(lǐng)域,尤其涉及一種故障檢測方法和裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、故障檢測用于診斷發(fā)生故障的系統(tǒng),例如可以用于識別系統(tǒng)故障發(fā)生的原因。以金融科技領(lǐng)域為例,通過對金融云平臺進行故障檢測,能夠幫助平臺維護人員找出平臺故障的原因,從而及時恢復系統(tǒng)運行;以醫(yī)療領(lǐng)域為例,通過對醫(yī)療應(yīng)用程序進行故障檢測,能夠幫助應(yīng)用維護人員找出應(yīng)用故障原因,從而及時對醫(yī)療應(yīng)用程序進行修復。
2、目前,系統(tǒng)的故障檢測方法通常對發(fā)生故障的系統(tǒng)整體進行檢測,得到系統(tǒng)故障原因,但是當系統(tǒng)架構(gòu)過于復雜時,該故障檢測方法需要耗費大量的時間,導致故障檢測的效率較低,因此,如何提高故障檢測的效率,成為了亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的主要目的在于提出一種故障檢測方法和裝置、電子設(shè)備及存儲介質(zhì),旨在提高故障檢測的效率。
2、為實現(xiàn)上述目的,本技術(shù)實施例的第一方面提出了一種故障檢測方法,所述方法包括:
3、獲取目標故障事件;
4、對所述目標故障事件進行故障資源識別,得到異常資源列表;
5、基于所述異常資源列表,進行資源拓撲圖交集處理,得到全資源拓撲交集;
6、對所述全資源拓撲交集進行拓撲圖剪枝,得到資源拓撲簡圖;
7、基于所述資源拓撲簡圖,進行資源運行日志查詢,得到資源運行信息;
8、基于所述資源運行信息,對所述資源拓撲簡圖進行資源異常檢測,得到資源異常檢測信息,其中,所述資源異常檢測信息包括資源異常標簽及資源異常類型;
9、基于所述資源異常標簽,對所述資源拓撲簡圖進行節(jié)點查詢,得到異常資源節(jié)點;
10、基于所述異常資源節(jié)點、所述資源異常類型及所述資源拓撲簡圖,確定異常節(jié)點比例;
11、基于所述異常節(jié)點比例及所述資源異常類型,對所述目標故障事件進行故障根因檢測。
12、在一些實施例,所述基于所述資源運行信息,對所述資源拓撲簡圖進行資源異常檢測,得到資源異常檢測信息,包括:
13、獲取資源運行異常判定準則;
14、基于所述資源運行異常判定準則及所述資源運行信息,對所述資源拓撲簡圖進行異常類型判定,得到所述資源異常類型;
15、基于所述資源異常類型,對所述資源拓撲簡圖進行節(jié)點打標,得到所述資源異常標簽;
16、基于所述資源異常類型及所述資源異常標簽,生成所述資源異常檢測信息。
17、在一些實施例,所述對所述全資源拓撲交集進行拓撲圖剪枝,得到資源拓撲簡圖,包括:
18、基于所述異常資源列表,對所述全資源拓撲交集進行異常節(jié)點標注,得到異常拓撲節(jié)點;
19、基于所述異常拓撲節(jié)點,對所述全資源拓撲交集進行非關(guān)聯(lián)節(jié)點標注,得到剪枝拓撲節(jié)點;
20、對所述剪枝拓撲節(jié)點進行切除,得到所述資源拓撲簡圖。
21、在一些實施例,所述異常資源列表包括異常資源,所述基于所述異常資源列表,進行資源拓撲圖交集處理,得到全資源拓撲交集,包括:
22、對所述異常資源進行關(guān)聯(lián)資源查詢,得到關(guān)聯(lián)資源;
23、基于所述異常資源及所述關(guān)聯(lián)資源,生成資源拓撲圖;
24、基于所述異常資源列表,對所述資源拓撲圖進行拓撲交集,得到所述全資源拓撲交集。
25、在一些實施例,所述對所述目標故障事件進行故障資源識別,得到異常資源列表,包括:
26、對所述目標故障事件進行生成條件提取,得到故障生成條件;
27、對所述故障生成條件進行實體識別,得到異常資源列表。
28、在一些實施例,所述基于所述異常節(jié)點比例及所述資源異常類型,對所述目標故障事件進行故障根因檢測,包括:
29、將所述異常節(jié)點比例與預設(shè)的比例閾值進行數(shù)值比對,得到數(shù)值比對信息,其中,所述數(shù)值比對信息包括比例超閾值信息或閾值超比例信息;
30、基于所述比例超閾值信息及所述資源異常類型,確定所述目標故障事件的故障根因;
31、基于所述閾值超比例信息及所述全資源拓撲交集,對目標故障事件進行二次根因檢測,得到故障根因。
32、在一些實施例,所述基于所述異常資源節(jié)點、所述資源異常類型及所述資源拓撲簡圖,確定異常節(jié)點比例,包括:
33、對所述資源拓撲簡圖進行節(jié)點記錄,得到拓撲簡圖節(jié)點數(shù);
34、基于所述資源異常類型,對所述異常資源節(jié)點進行節(jié)點記錄,得到相同異常類型節(jié)點數(shù);
35、基于所述相同異常類型節(jié)點數(shù)及所述拓撲簡圖節(jié)點數(shù),進行比例運算處理,得到所述異常節(jié)點比例。
36、為實現(xiàn)上述目的,本技術(shù)實施例的第二方面提出了一種故障檢測裝置,所述裝置包括:
37、事件獲取模塊,用于獲取目標故障事件;
38、資源識別模塊,用于對所述目標故障事件進行故障資源識別,得到異常資源列表;
39、拓撲表示模塊,用于基于所述異常資源列表,進行資源拓撲圖交集處理,得到全資源拓撲交集;
40、拓撲剪枝模塊,用于對所述全資源拓撲交集進行拓撲圖剪枝,得到資源拓撲簡圖;
41、日志查詢模塊,用于基于所述資源拓撲簡圖,進行資源運行日志查詢,得到資源運行信息;
42、異常檢測模塊,用于基于所述資源運行信息,對所述資源拓撲簡圖進行資源異常檢測,得到資源異常檢測信息,其中,所述資源異常檢測信息包括資源異常標簽及資源異常類型;
43、節(jié)點查詢模塊,用于基于所述資源異常標簽,對所述資源拓撲簡圖進行節(jié)點查詢,得到異常資源節(jié)點;
44、比例計算模塊,用于基于所述異常資源節(jié)點、所述資源異常類型及所述資源拓撲簡圖,確定異常節(jié)點比例;
45、故障檢測模塊,用于基于所述異常節(jié)點比例及所述資源異常類型,對所述目標故障事件進行故障根因檢測。
46、為實現(xiàn)上述目的,本技術(shù)實施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一方面所述的方法。
47、為實現(xiàn)上述目的,本技術(shù)實施例的第四方面提出了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面所述的方法。
48、本技術(shù)提出的故障檢測方法和裝置、電子設(shè)備及存儲介質(zhì),其通過獲取目標故障事件并識別異常資源,形成異常資源列表,為故障分析提供了基礎(chǔ)數(shù)據(jù)支持,接著根據(jù)異常資源列表,進行資源拓撲圖交集處理和剪枝操作,得到資源拓撲簡圖,便于逐步聚焦造成目標故障事件的關(guān)鍵資源,能夠提高故障檢測的效率,其次,基于資源拓撲簡圖,查詢資源運行日志和進行資源異常檢測,能夠得到資源異常檢測信息,便于定位異常資源及其類型,為故障檢測提供了詳細依據(jù),最后,基于資源異常標簽,對資源拓撲簡圖進行節(jié)點查詢,得到異常資源節(jié)點,基于異常資源節(jié)點、資源異常類型及資源拓撲簡圖,確定異常節(jié)點比例,再基于異常節(jié)點比例及資源異常類型,對目標故障事件進行故障根因檢測,可以實現(xiàn)對故障根源的準確識別,減少了故障處理時間和運維成本,提升了故障檢測的效率和準確性。