本發(fā)明涉及計算機,尤其是涉及服務器的自動巡檢方法和系統(tǒng)。
背景技術:
1、隨著數(shù)據(jù)中心規(guī)模的迅速擴大,服務器的數(shù)量和復雜性與日俱增。在傳統(tǒng)運維模式下,管理員需要對大量的服務器進行手動分組管理和定期巡檢,這種方式不僅效率低下,還容易因人為操作失誤導致故障漏檢或延遲響應。特別是在面對超大規(guī)模分布式系統(tǒng)時,傳統(tǒng)巡檢方式難以適應現(xiàn)代數(shù)據(jù)中心對高效性、靈活性和可靠性的要求。
2、雖然自動化運維工具(如ansible、puppet、chef)逐漸成為主流,但這些工具在應用于服務器分組管理與巡檢時,仍存在以下問題:
3、1)分組管理難度高。當前的工具多依賴于靜態(tài)分組方式,難以動態(tài)調整服務器分組,尤其是在處理多種類型服務器(如不同硬件配置、操作系統(tǒng)版本或網(wǎng)絡拓撲)時,分組策略靈活性不足。
4、2)巡檢流程缺乏智能化。傳統(tǒng)巡檢多依賴固定規(guī)則或腳本,無法動態(tài)適應不同分組的服務器需求。同時,巡檢結果僅能提供簡單的健康狀態(tài)判斷,缺乏智能分析與趨勢預測能力。
5、3)擴展性與兼容性有限。當前方案難以適配不同廠商的服務器硬件和管理接口,尤其是在支持硬件級數(shù)據(jù)采集與分析(如溫度、功耗、硬盤健康狀態(tài),傳感器等)時,需要進行大量的額外開發(fā)工作。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供服務器的自動巡檢方法和系統(tǒng),集成了自動化任務編排、動態(tài)分組管理和智能化巡檢,實現(xiàn)了對大規(guī)模服務器的高效分組管理與自動巡檢。
2、第一方面,本發(fā)明實施例提供了服務器的自動巡檢方法,所述方法包括:
3、在交互界面上獲取用戶設置的分組規(guī)則和巡檢規(guī)則;
4、根據(jù)所述分組規(guī)則和所述巡檢規(guī)則,對目標服務器的參數(shù)信息進行采集,并將采集的參數(shù)信息存儲到分布式關系型數(shù)據(jù)庫中;
5、通過調度和執(zhí)行工具將所述采集的參數(shù)信息編寫為巡檢任務列表;
6、通過所述調度和執(zhí)行工具以及python腳本對所述采集的參數(shù)信息進行巡檢,得到巡檢結果;
7、將所述巡檢結果生成巡檢報告,并通過所述巡檢報告顯示所述目標服務器的運行狀態(tài)、故障分配和性能瓶頸;
8、對所述巡檢結果進行分析,當所述巡檢結果存在異常時,自動發(fā)出告警信息。
9、進一步的,所述目標服務器包括第一云服務器和第二云服務器;根據(jù)所述分組規(guī)則和所述巡檢規(guī)則,對目標服務器的參數(shù)信息進行采集,并將采集的參數(shù)信息存儲到分布式關系型數(shù)據(jù)庫中,包括:
10、根據(jù)所述分組規(guī)則和所述巡檢規(guī)則,通過信息采集工具對所述第一云服務器的硬件信息和軟件信息進行采集,得到第一參數(shù)信息;
11、通過服務器管理接口對所述第二云服務器的硬件信息和軟件信息進行采集,得到第二參數(shù)信息;
12、將所述第一參數(shù)信息和所述第二參數(shù)信息存儲為動態(tài)庫文件,并將所述第一參數(shù)信息和所述第二參數(shù)信息保存到所述分布式關系型數(shù)據(jù)庫中。
13、進一步的,通過所述調度和執(zhí)行工具以及python腳本對所述采集的參數(shù)信息進行巡檢,得到巡檢結果,包括:
14、通過所述調度和執(zhí)行工具以及python腳本對所述采集的參數(shù)信息進行歸一化處理,得到處理后的參數(shù)信息;
15、通過設定規(guī)則和歷史數(shù)據(jù)對所述處理后的參數(shù)信息進行異常數(shù)據(jù)檢測;
16、當檢測到異常值時,進行記錄和標記,并且丟棄無法修復的數(shù)據(jù)。
17、進一步的,對所述巡檢結果進行分析,當所述巡檢結果存在異常時,自動發(fā)出告警信息,包括:
18、通過ansible執(zhí)行nvidia-smi命令查看返回是否正常;
19、當返回錯誤信息時,確定顯卡驅動異常,并自動發(fā)出所述告警信息。
20、進一步的,所述軟件信息包括cpu型號、核心數(shù)、內(nèi)存容量、硬盤大小和gpu卡類型;所述硬件信息包括傳感器數(shù)據(jù)、磁盤、網(wǎng)卡、風扇和電源。
21、第二方面,本發(fā)明實施例提供了服務器的自動巡檢系統(tǒng),所述系統(tǒng)包括:
22、交互界面模塊,用于在交互界面上獲取用戶設置的分組規(guī)則和巡檢規(guī)則;
23、動態(tài)分組與標簽管理模塊,用于根據(jù)所述分組規(guī)則和所述巡檢規(guī)則,對目標服務器的參數(shù)信息進行采集,并將采集的參數(shù)信息存儲到分布式關系型數(shù)據(jù)庫中;
24、巡檢任務管理模塊,用于通過調度和執(zhí)行工具將所述采集的參數(shù)信息編寫為巡檢任務列表;
25、數(shù)據(jù)采集與處理模塊,用于通過所述調度和執(zhí)行工具以及python腳本對所述采集的參數(shù)信息進行巡檢,得到巡檢結果;
26、結果可視化與生成報告模塊,用于將所述巡檢結果生成巡檢報告,并通過所述巡檢報告顯示所述目標服務器的運行狀態(tài)、故障分配和性能瓶頸;
27、巡檢異常通知模塊,用于對所述巡檢結果進行分析,當所述巡檢結果存在異常時,自動發(fā)出告警信息。
28、進一步的,所述目標服務器包括第一云服務器和第二云服務器;所述動態(tài)分組與標簽管理模塊具體用于:
29、根據(jù)所述分組規(guī)則和所述巡檢規(guī)則,通過信息采集工具對所述第一云服務器的硬件信息和軟件信息進行采集,得到第一參數(shù)信息;
30、通過服務器管理接口對所述第二云服務器的硬件信息和軟件信息進行采集,得到第二參數(shù)信息;
31、將所述第一參數(shù)信息和所述第二參數(shù)信息存儲為動態(tài)庫文件,并將所述第一參數(shù)信息和所述第二參數(shù)信息保存到所述分布式關系型數(shù)據(jù)庫中。
32、進一步的,所述數(shù)據(jù)采集與處理模塊具體用于:
33、通過所述調度和執(zhí)行工具以及python腳本對所述采集的參數(shù)信息進行歸一化處理,得到處理后的參數(shù)信息;
34、通過設定規(guī)則和歷史數(shù)據(jù)對所述處理后的參數(shù)信息進行異常數(shù)據(jù)檢測;
35、當檢測到異常值時,進行記錄和標記,并且丟棄無法修復的數(shù)據(jù)。
36、第三方面,本發(fā)明實施例提供了電子設備,包括存儲器、處理器,所述存儲器上存儲有可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上所述的方法。
37、第四方面,本發(fā)明實施例提供了具有處理器可執(zhí)行的非易失的程序代碼的計算機可讀介質,所述程序代碼使所述處理器執(zhí)行如上所述的方法。
38、本發(fā)明實施例提供了服務器的自動巡檢方法和系統(tǒng),包括:在交互界面上獲取用戶設置的分組規(guī)則和巡檢規(guī)則;根據(jù)分組規(guī)則和巡檢規(guī)則,對目標服務器的參數(shù)信息進行采集,并將采集的參數(shù)信息存儲到分布式關系型數(shù)據(jù)庫中;通過調度和執(zhí)行工具將采集的參數(shù)信息編寫為巡檢任務列表;通過調度和執(zhí)行工具以及python腳本對采集的參數(shù)信息進行巡檢,得到巡檢結果;將巡檢結果生成巡檢報告,并通過巡檢報告顯示目標服務器的運行狀態(tài)、故障分配和性能瓶頸;對巡檢結果進行分析,當巡檢結果存在異常時,自動發(fā)出告警信息;集成了自動化任務編排、動態(tài)分組管理和智能化巡檢,實現(xiàn)了對大規(guī)模服務器的高效分組管理與自動巡檢。
39、本發(fā)明的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點在說明書、權利要求書以及附圖中所特別指出的結構來實現(xiàn)和獲得。
40、為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。