文章

RCA report

RCA report

什麼是 RCA Report?

RCA 全名是 Root Cause Analysis,中文翻譯為根本原因分析,是一種用來解決問題的方法。RCA Report 是一份報告,用來記錄問題發生的過程、原因、解決方法等,以便後續查看。

RCA Report 結構

RCA Report 通常包含以下幾個部分:

1. 事件概述

  • 事件名稱: (描述事件的簡短標題,例如 “服務中斷:API 無回應”)
  • 事件編號: (用於追蹤的唯一識別碼,方便建檔查詢用)
  • 發生日期與時間: (事件開始與結束的具體時間)
  • 影響範圍: (受影響的服務或模組,例如 Web API、資料庫、伺服器節點)
  • 撰寫人: (負責撰寫此報告的人員或團隊)

2. 事件背景

  • 服務概述: (簡要說明受影響的服務及其主要功能)
  • 系統架構: (簡單描述系統架構,例如微服務架構、伺服器分佈圖)
  • 事件摘要: (描述事件發生的情境與主要症狀,例如「客戶報告系統回應時間超過 10 秒」)

3. 影響分析

  • 受影響的系統: (列出具體的服務、模組、API、伺服器等)
  • 使用者影響: (受影響的使用者數量、區域、行為等)
  • 關鍵數據: (例如請求失敗率、延遲時間、錯誤代碼數據)
  • 業務影響: (例如收入損失、品牌信譽影響)
  • 故障時間: (事件持續時間,包含 MTTR 分析。註:MTTR 是 Mean Time To Repair,是指服務中斷到復原的平均時間,MTTR=解決期間總中斷時間解決期間事件總數

4. 問題分析

  • 問題描述: (直接描述問題現象,例如「資料庫無法連線」或「API 響應超時」)
  • 時間軸: (列出事件發生到解決的具體時間點)
    • 事件偵測:
    • 啟動緊急處置:
    • 臨時補救措施:
    • 恢復服務:
  • 根本原因: (詳細分析問題根本原因,例如伺服器資源不足、配置錯誤、程式碼錯誤等)
    • 使用分析工具:5 Why、魚骨圖或相關數據追蹤 魚骨圖
  • 輔助原因: (其他影響問題的間接因素,例如監控不足、過時的硬體)

5. 緊急處置

  • 臨時措施: (事件期間採取的應急處理方案)
  • 臨時措施效果: (如部分恢復服務,緩解用戶影響)

6. 改進計畫

  • 根本解決方案: (說明解決根本原因的具體計畫)
    • 例如:「優化 SQL 查詢性能」「增加伺服器資源」
  • 預防措施: (為避免問題重複發生所採取的措施)
    • 例如:「增強監控告警功能」「改進發布流程」
  • 行動負責人與時間表:
    • 行動項目 1:描述 & 負責人 & 預定完成時間
    • 行動項目 2:描述 & 負責人 & 預定完成時間

7. 教訓與改進

  • 學習成果: (從此次事件中吸取的經驗教訓,例如「需要加強異常告警的即時性」)
  • 流程改進: (優化運維流程或架構設計的建議)
  • 員工培訓: (是否需要加強相關人員的技能或知識)

8. 附錄

  • 事件數據: (相關數據圖表,如監控報告、日誌截圖)
  • 故障分析工具: (使用的分析工具及結果,例如 ping、kibana 日誌)
  • 系統拓撲圖: (有助於理解架構的圖片)
  • 其他文件: (例如配置文件、操作記錄)
本文章以 CC BY 4.0 授權