アドベントカレンダー30日目:SREを読んでみた「オンコール対応」編①

  • 2021.01.04
178
NO IMAGE

今日からオンコール対応の章に入ります。

バランスのとれたオンコール

オンコール対応は、オンコールの量と質でバランスをとる必要がある。
オンコールの量は、エンジニアがオンコール担当に費やす時間の割合。
オンコールの質は、オンコールシフト中に生じたインシデント数。
この2軸でバランスを取り、持続可能な状態を保つことが必要。

量におけるバランス

GoogleのSREでは持ち時間の内50%がエンジニアリングに使われます。
そのため、残りの25%がオンコール対応に使われ、さらに残りの25%はそれ以外の運用作業に使えるように残されます。
25%がオンコール対応に使える時間とすると、オンコールローテーションを維持するのに必要な人数も見えてきます。
また、作業量的にもっとチームを大きくすべき場合、Googleではマルチサイトのチームを作ることを好みます。
ただし、マルチサイトのチームではコミュニケーションと調整にオーバーヘッドが生じるので、その時の状況を鑑みて、判断されるべきです。

質におけるバランス

エンジニアはインシデント対応の際にその対応とポストモーテムの執筆のようなフォローアップの為の十分な時間を持つべきです。
根本原因の分析、改善、ポストモーテムの執筆には平均で6時間かかるということが分かっています。
一日12時間のオンコールシフトにおいては、2件のインシデント対応を行えることになります。
もしもこの限度を超えた場合は、運用の負荷を持続可能な状況に戻すための是正対応を行うべきです。

まとめ

  • インシデント対応は質と量でバランスをとる必要がある
  • オンコールシフトルール(使える時間は25%)
  • インシデント対応ごとにポストモーテムの執筆などのフォローアップを行う

参考文献

  1. Betsy Seyerほか SRE サイトリライアビリティエンジニアリング オライリー 131-134