科技改變生活 · 科技引領未來
隨著企業數字化轉型的不斷深入,利用 AI 技術改善運維和 IT 服務水平成為當前運維管理的主要關注方向。在此過程中逐漸產生了不同的發展策略:圍繞著 AI 的平臺化智能運維發展模式、場景化智能運維發展模式以及自建智能運維發展模式。
不同發展策略的智能運維發展方向是一致的,即通過大數據和人工智能技術對運維管理進行賦能:
●結合現有監控手段,增強數據分析,進一步提高監控的能力;
●通過資源的有效配置節省運維成本;
●通過多數據源分析增強排查問題的能力,有效縮短故障恢復時間;
●通過預警并結合自動化工具,有效提高運維效率甚至自愈能力。
目前智能運維尚處在弱人工智能階段,人機協作的方式將促進智能運維的發展,人教會 AI 去學習,AI 實現對數據的智能分析,提高運維人員的運營能力。
建設智能運維的算法挑戰
雖然這幾年人工智能在人臉識別、智能駕駛等領域得到了大量應用,但是 AI 仍然面臨著計算效能、安全、可解釋性等諸多挑戰。相比于其他 AI 落地場景,智能運維所亟需解決的問題具有一定的獨特性:
1、心態的轉變:智能運維是運維發展的方向,而且是一個長期的過程——從經驗主義到數據驅動,再回歸到業務驅動的過程。經驗是結合了數據、知識、業務等長時間學習的結果,而 AI 主要依靠歷史指標或者文本數據,對歷史數據進行預測,從而對未來趨勢做出判斷。對于想達到的目標,需要考慮現有的信息是否充足,還需要結合業務場景進行具體模型的不斷優化。
2、工程化算法的欠缺:由于缺乏標準的運維數據集,學術界針對運維的算法還比較少,工程化的算法尤其欠缺。同時算法在不同數據集上的泛化能力也決定了算法能否在真實場景應用的關鍵。
3、缺乏有效的標簽體系:以異常定義為例,由于不同業務部門對數據需求存在巨大區別,同時對異常的容忍程度也有不同定義,因此現有的泛化模型難以滿足用戶的實際需求。
4、數據的多樣化和變更頻繁:運維場景存在大量變更行為,因此需要考慮 Concept-shift(如:促銷中的變更)前后對算法結果的影響。
5、唯一性:很多異常和故障的特征是唯一的,很難通過歷史數據的學習得到,因此需要結合業務屬性和其它數據進行有效學習。
6、算法失效帶來的災難:AI 的應用需要明確目標和不確定性。工業化算法的準確性在 85% 以上可以用,但是需要考慮不準確情景的影響。算法很多時候需要考慮準確和召回的集合(F-score),而很多場景對算法的準確性有更高要求,因此對算法結果的評估將有助于進一步完善模型。
提升智能運維關鍵能力
面對上述算法落地挑戰,需要對運維場景進行剖析,將學術界的算法和業界的場景有效的融合統一,再通過業界的工程實現能力進行有效的組合。對于每個場景的實現,都不僅僅是一個或多個算法。在智能運維的落地的過程中,一般會構建四個智能分析能力集合:
●智能告警能力
及時有效的告警是運維的基礎。智能運維常常利用異常檢測來實現智能告警,但是異常檢測主要是找出數據的異常,而告警是業務驅動的,因此在設計告警條件時,需要集合異常檢測和業務的特性進行告警。
●智能診斷能力
當關鍵業務指標發生異常時,快速給出問題的根本原因的能力。在運維過程中,根因很可能是唯一的,不能通過歷史學習的方式構建,需要一個系統性設計,構建完善的運維分析庫,通過有效的學習對故障進行快速定位。
●智能預警能力
通過基于歷史數據的有效學習,對未來可能的故障進行有效預測是減少損失的重要手段。故障的類型很多,針對不同類型的預測需要不同的算法模型。當故障發生時,配合資源優化算法,自動化的對任務進行編排,從而有效、及時預測故障的發生。
●智能服務管理能力
智能服務管理能力將利用人工智能技術,與新一代 ITSM 進行融合。通過知識庫的構建,利用文本相似度,對歷史上發生的故障工單進行匹配,及時有效的提供故障的解決方案,大大提升了故障的處理效率,結合自動化的工具,快速給出請求回復,減少運維人員的時間浪費。
注重算法的魯棒性、自適應性、可解釋性、泛化能力等,通過構建專業運維數據庫以及智能分析方面的 4 個關鍵能力,將為企業智能運維體系化建設提供有力支撐,落地從運維的監控預警、告警、診斷分析、事件管理和知識推薦的全鏈路智能系統。
發展與展望
從算法到智能,智能運維的實踐之路
隨著 AIOps 應用不斷的深入,智能運維將會在縱向和橫向不斷延伸。橫向上,智能運維應用場景將會從 ITOM 向 ITOA、ITSM 和 ITBM 發展,覆蓋更多的運維領域。縱向上,隨著運維數據成熟度以及 AI 能力的提升,智能運維將從機器學習向深度學習、增強學習甚至向元學習能力延伸。這種縱橫能力的覆蓋,將實現 AI 對整個運維場景的可見、可控、可分析、可管理。(作者:王立新)
王俊林