了解最新公司動態(tài)及行業(yè)資訊
在很多IT組織中,大家工作的重點往往專注于解決事件,但長期專注于此,會出現(xiàn)疲于應對的現(xiàn)象,例如事件數(shù)量居高不下,工程師焦頭爛額疲于奔命。長此以往會使問題的數(shù)量持續(xù)增加,持續(xù)未解決的根本原因會導致更多事件。如果IT組織希望有效開展問題管理流程,同時兼顧事件管理,那在兩者之間需要找到平衡點。
問題管理的唯一目標是識別并消除重復發(fā)生事件的根本原因。在無法預防事件的情況下,問題管理力求將發(fā)生的事件對業(yè)務的影響降至最低。
如果只關(guān)注“如何快速找到問題并恢復服務”,那并沒有進行問題管理,而是進行了事件管理,事件管理的核心目標是快速恢復服務。而問題管理是一個完全不同的流程,主要分為被動式和主動式兩種類型。
被動式問題管理是從事件中被動觸發(fā)的,許多IT組織會對重大事件進行事后審查,當發(fā)現(xiàn)存在潛在問題時,就會開展被動式問題管理工作。
主動式問題管理是使用數(shù)據(jù)趨勢和歷史信息識別潛在的問題,可以是持續(xù)開展服務改進的活動,也可以是適當?shù)厥褂脭?shù)據(jù)進行分析,甚至簡單依靠積累的經(jīng)驗和直覺。
無論是哪種方式,問題管理都需要根據(jù)對業(yè)務的價值定義優(yōu)先級。例如使用“業(yè)務影響分析”等方法,可以識別出優(yōu)先解決哪些問題可以給業(yè)務帶來更高的價值。
IT組織構(gòu)建問題管理應根據(jù)IT組織的規(guī)模大小進行區(qū)別化設計,確定一個IT組織問題管理流程的模式應該考慮以下幾個因素:
運維人員的數(shù)量基礎設施的數(shù)量基礎設施的穩(wěn)定性重復事件的數(shù)量如果無法有效衡量,可以參考以下內(nèi)容:
小型組織的問題管理
小型組織的問題管理通常不單獨設置流程經(jīng)理,主要通過定期的例會討論問題管理相關(guān)的內(nèi)容。會前,建議各領(lǐng)域的負責人基于上一周期的工作記錄,歸納匯總各自領(lǐng)域內(nèi)最為關(guān)鍵的幾個問題,并將這些問題在會上討論并確定后,在下一個周期進行調(diào)查處理和解決。
中大型組織的問題管理
在中大型組織中,涉及的業(yè)務領(lǐng)域較多,通常采取統(tǒng)一的問題管理模式,在這種模式下,重點在于找出解決方案并實施。主動性問題管理通常會定義問題來源的多種方式,例如,在某個特定階段,頻繁觸發(fā)的監(jiān)控告警、用戶頻繁反饋的重復事件或重大事件、日常巡檢中發(fā)現(xiàn)的潛在問題,以及偶然間發(fā)現(xiàn)的業(yè)務流程或服務中的關(guān)鍵缺陷。這種模式下,通常會由問題經(jīng)理進行定期收集、匯總、協(xié)調(diào)解決和跟蹤。
除了以上提到的問題構(gòu)建方式以外,在日常運營中,還應該注意以下細節(jié):
主動健康檢查,通過周期性健康檢查,分析應用系統(tǒng)的運行情況,主動發(fā)現(xiàn)問題預防重大事件的發(fā)生和消除系統(tǒng)隱患;對發(fā)現(xiàn)的問題進行持續(xù)跟蹤處理,向相關(guān)人員定期匯報問題解決進展;由問題經(jīng)理或系統(tǒng)負責人持續(xù)優(yōu)化健康檢查的方法以及發(fā)現(xiàn)的問題和處理進展。區(qū)分事件和問題以及管理職責
在前邊的內(nèi)容中提到,事件和問題管理的目標并不相同,事件管理的重點是及時處理事件恢復服務;而問題管理則更側(cè)重于預防性的措施,旨在識別和消除可能導致事件或其他不利影響的潛在問題。通過清晰地區(qū)分這兩者,IT團隊可以轉(zhuǎn)變其工作模式,從被動地應對突發(fā)狀況,轉(zhuǎn)變?yōu)榉e極主動地尋找并消除潛在的風險隱患,從而提升整體的服務質(zhì)量和穩(wěn)定性。
同樣對于事件經(jīng)理來說,重點是快速解決事件,而問題經(jīng)理的目標是預防。通過結(jié)合這兩個角色的共同努力,可以從根本上提升應用系統(tǒng)的連續(xù)性和可用性。
充分分析問題
問題的分析方法有很多種,組織可以考慮在不同的場景下使用不同的方法,達到快速有效的問題分析。以下是在不同場景下的分析工具:
5WHY示例:
魚骨圖示例:
以結(jié)果為導向
許多IT組織在問題管理活動中往往過于關(guān)注問題的數(shù)量和解決時間,然而這些并非衡量問題管理成效的核心標準。真正有效的問題管理應當通過兩個關(guān)鍵維度來衡量:一是問題管理的關(guān)鍵績效指標,二是問題管理對業(yè)務運營的實際影響。可以參考以下示例:
發(fā)揮已知錯誤數(shù)據(jù)庫的作用
這一觀點也是知識管理的建議,為不同的團隊提供問題的已知錯誤數(shù)據(jù)庫的權(quán)限,以及相關(guān)的解決方案。這種方式可以讓團隊之間相互學習,節(jié)省事件和問題的處理時間,讓整個組織保持高效運行。
通過實施有效的問題管理,IT組織不僅可以從根本上解決反復出現(xiàn)的事件,還能顯著提升服務的穩(wěn)定性和客戶滿意度。區(qū)分事件管理和問題管理的職責,利用適當?shù)姆治龉ぞ?,如頭腦風暴、5WHY和魚骨圖,可以更快速地找到問題根源并采取有效的預防措施。定期審查和利用已知錯誤數(shù)據(jù)庫,進一步增強問題管理的效果。最終,問題管理的目標是通過持續(xù)改進,實現(xiàn)IT服務的高效、可靠和可持續(xù)性。