IT自動化(huà)運維
發布時(shí)間:2018-9-11 浏覽次數:588
所謂IT運維管理(lǐ)的(de)自動化(huà)是指通(tōng)過将日常IT運維中大(dà)量的(de)重複性工作,小到簡單的(de)日常檢查、配置變更和(hé)軟件安裝,大(dà)到整個(gè)變更流程的(de)組織調度,由過去的(de)手工執行轉爲自動化(huà)操作,從而減少乃至消除運維中的(de)延遲,實現“零延時(shí)”的(de)IT運維。簡單的(de)說,IT運維自動化(huà)是指基于流程化(huà)的(de)框架,将事件與IT流程相關聯,一旦被監控系統發生性能超标或宕機,會觸發相關事件以及事先定義好的(de)流程,可(kě)自動啓動故障響應和(hé)恢複機制。自動化(huà)工作平台還(hái)可(kě)幫助IT運維人(rén)員(yuán)完成日常的(de)重複性工作(如備份,殺毒等),提高(gāo)IT運維效率。同時(shí),IT運維的(de)自動化(huà)還(hái)要求能夠預測故障、在故障發生前能夠報警,讓IT運維人(rén)員(yuán)把故障消除在發生前,将所産生損失減到最低。
運維應包括:
環境定義:開發環境、測試環境、類生産環境、生産環境等。
部署:能夠将部署包有效的(de)部署到不同的(de)環境。
監控:能夠監控部署後的(de)系統和(hé)應用(yòng)。
告警:出現問題時(shí)的(de)響應和(hé)處理(lǐ)機制。
性能優化(huà):系統各個(gè)服務如Nginx/Java/PHP/DB/網絡的(de)優化(huà)。
SLA保障:通(tōng)常要和(hé)業務相關部門討(tǎo)論确定。
運維與開發的(de)關系:
管理(lǐ)具體内容:
IT運維已經在風風雨(yǔ)雨(yǔ)中走過了(le)十幾個(gè)春秋,如今它正以一種全新的(de)姿态擺在我們面前--自動化(huà),這(zhè)是IT技術發展的(de)必然結果。現在IT系統的(de)複雜(zá)性已經客觀上要求IT運維必須能夠實現數字化(huà)、自動化(huà)維護。所謂IT運維管理(lǐ)的(de)自動化(huà)是指通(tōng)過将日常IT運維中大(dà)量的(de)重複性工作(小到簡單的(de)日常檢查、配置變更和(hé)軟件安裝,大(dà)到整個(gè)變更流程的(de)組織調度)由過去的(de)手工執行轉爲自動化(huà)操作,從而減少乃至消除運維中的(de)延遲,實現“零延時(shí)”的(de)IT運維。
簡單的(de)說,IT運維自動化(huà)是指基于流程化(huà)的(de)框架,将事件與IT流程相關聯,一旦被監控系統發生性能超标或宕機,會觸發相關事件以及事先定義好的(de)流程,可(kě)自動啓動故障響應和(hé)恢複機制。自動化(huà)工作平台還(hái)可(kě)幫助IT運維人(rén)員(yuán)完成日常的(de)重複性工作(如備份、殺毒等),提高(gāo)IT運維效率。同時(shí),IT運維的(de)自動化(huà)還(hái)要求能夠預測故障、在故障發生前能夠報警,讓IT運維人(rén)員(yuán)把故障消除在發生前,将所産生損失減到最低。
工具:
對(duì)于企業來(lái)說,要特别關注兩類自動化(huà)工具:一是IT運維監控和(hé)診斷優化(huà)工具;二是運維流程自動化(huà)工具。這(zhè)兩類工具主要應用(yòng)于:
監控自動化(huà),是指對(duì)重要的(de)IT設備實施主動式監控,如路由器、交換機、防火牆等;
配置變更檢測自動化(huà),是指IT設備配置參數一旦發生變化(huà),将觸發變更流程轉給相關技術人(rén)員(yuán)進行确認,通(tōng)過自動檢測協助IT運維人(rén)員(yuán)發現和(hé)維護配置。
維護事件提醒自動化(huà),是指通(tōng)過對(duì)IT設備和(hé)應用(yòng)活動的(de)時(shí)時(shí)監控,當發生異常事件時(shí)系統自動啓動報警和(hé)響應機制,第一時(shí)間通(tōng)知相關責任人(rén)。
系統健康檢測自動化(huà),是指定期自動地對(duì)IT設備硬件和(hé)應用(yòng)系統進行健康巡檢,配合IT運維團隊實施對(duì)系統的(de)健康檢查和(hé)監控。
維護報告生成自動化(huà),是指定期自動的(de)對(duì)系統做(zuò)日志的(de)收集分(fēn)析,記錄系統運行狀況,并通(tōng)過階段性的(de)監控、分(fēn)析和(hé)總結,定時(shí)提供IT運維的(de)可(kě)用(yòng)性、性能、系統資源利用(yòng)狀況分(fēn)析報告。
建立管理(lǐ)步驟:
(1)建立自動化(huà)運維管理(lǐ)平台
IT運維自動化(huà)管理(lǐ)建設的(de)第一步是要先建立IT運維的(de)自動化(huà)監控和(hé)管理(lǐ)平台。通(tōng)過監控工具實現對(duì)用(yòng)戶操作規範的(de)約束和(hé)對(duì)IT資源進行實時(shí)監控,包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房(fáng)、業務應用(yòng)和(hé)客戶端等内容,通(tōng)過自動監控管理(lǐ)平台實現故障或問題綜合處理(lǐ)和(hé)集中管理(lǐ)。例如,在自定義周期内進行自動觸發完成對(duì)IT運維的(de)例行巡檢,形成檢查報告。包括自動運行維護,以完成對(duì)系統補丁的(de)同步分(fēn)發與升級、數據備份、病毒查殺等工作。
(2)建立故障事件自動觸發流程,提高(gāo)故障處理(lǐ)效率
所有IT設備在遇到問題時(shí)要會自動報警,無論是系統自動報警還(hái)是使用(yòng)人(rén)員(yuán)報的(de)故障,應以紅色标識顯示在運維屏幕上。然後IT運維人(rén)員(yuán)隻需要按照(zhào)相關知識庫的(de)數據,一步一步操作就可(kě)以。因此,企業需要事先建立自動工單式流程管理(lǐ),當設備或軟件發生異常或超出預警指标時(shí)會觸發相關的(de)事件,同時(shí)觸發相關工單處理(lǐ)流程給相關IT運維人(rén)員(yuán)。IT運維人(rén)員(yuán)必須在指定時(shí)間内完成流程所規定的(de)環節與工作,以提高(gāo)IT運維響應問題的(de)效率。
(3)建立規範的(de)事件跟蹤流程,強化(huà)運維執行力度
IT運維自動化(huà)管理(lǐ)建設時(shí),首先需要建立故障和(hé)事件處理(lǐ)跟蹤流程,利用(yòng)表格工具等記錄故障及其處理(lǐ)情況,以建立運維日志,并定期回顧從中辨識和(hé)發現問題的(de)線索和(hé)根源。事實上許多(duō)實踐也(yě)證明(míng),建立每種事件的(de)規範化(huà)處理(lǐ)和(hé)跟蹤指南(nán),可(kě)以減少IT運維操作的(de)随意性和(hé)強化(huà)運維的(de)執行力度,在很大(dà)程度上可(kě)降低故障發生的(de)概率。同時(shí),用(yòng)戶還(hái)應可(kě)以通(tōng)過自助服務台、電話(huà)服務台等随時(shí)追蹤該故障請求的(de)處理(lǐ)狀态。
(4)設立IT運維關鍵流程,引入優先處理(lǐ)原則
設立IT運維關鍵流程,引入優先處理(lǐ)原則是指要求CIO定義出IT運維的(de)每個(gè)關鍵流程,不僅僅是定義流程是什(shén)麽,還(hái)包括要指出每個(gè)關鍵流程對(duì)企業有什(shén)麽影(yǐng)響和(hé)意義。同時(shí),在設置自動化(huà)流程時(shí)還(hái)需要引入優先處理(lǐ)原則,例行的(de)事按常規處理(lǐ),特别事件要按優先級次序處理(lǐ),也(yě)就是把事件細分(fēn)爲例行事件和(hé)例外關鍵事件。
總之,實現IT運維的(de)自動化(huà)管理(lǐ)是指通(tōng)過将IT運維中日常的(de)、大(dà)量的(de)重複性工作自動化(huà),把過去的(de)手工執行轉爲自動化(huà)操作。自動化(huà)是IT運維工作的(de)升華,IT運維自動化(huà)不單純是一個(gè)維護過程,更是一個(gè)管理(lǐ)的(de)提升過程,是IT運維的(de)最高(gāo)層次,也(yě)是未來(lái)的(de)發展趨勢。