アドベントカレンダー31日目:SREを読んでみた「オンコール対応」編②

  • 2021.01.06
176
NO IMAGE

オンコール対応の2回目です。
今日は、オンコール対応は、エンジニアにストレスを与えやすいものですが、それを以下に取り除いていくか、生じさせないようにしていくかを見ていきます。

安心感

SREエンジニアがオンコール対応を行うということは、ユーザーの収益に直接関係するシステムのインフラに責任を持つということです。
人は困難に直面した時、直感的かつ反射的に即行動しようとするか、理性的かつ集中を保ち、慎重に行動しようとするかのどちらかの行動をとることが多いです。

複雑なサービス障害を扱う場合には、後者のマインドセットの方が良い結果をもたらしやすいです。
そのため、オンコール対応をするエンジニアが後者のマインドでいられるようにすることが重要です。

サービスの重要度や影響範囲、障害が発生した場合の結果はオンコールエンジニアに非常にストレスを与えます。強いストレスは、認知機能の低下をもたらし、軽率な行動を起こさせやすくします。
また、同じアラートが4回連続発行された時、人は経験則に頼り、それぞれのアラートの原因を自動的に以前の原因と同じものとみなしたくなります。
素早いリアクションは、週間に基づくものなので、考慮が足りずに問題を起こす可能性が増大します。

インシデント管理の理想的な方法は、妥当な判断を下せるだけのデータを揃えたうえで望ましいペースで手順が行われることと並行してその推定を批判的に分析することでバランスをとることです。

また、以下のようなオンコールリソースを確保することでオンコール対応の負担を軽くすることができます。

  • 明確なエスカレーションパス
  • しっかりと規定されたインシデント管理の手順
  • 非難を伴わないポストモーテム文化

まとめ

  • オンコール対応の際には、理性的で慎重なマインドセットであることが重要
  • オンコールリソースを確保する

参考文献

  1. Betsy Seyerほか SRE サイトリライアビリティエンジニアリング オライリー 134-136