アドベントカレンダー33日目：SREを読んでみた「効果的なトラブルシューティング」編① │ Find out by JURABI

今日から新しい章に入ります。
内容は効果的なトラブルシューティングです。
トラブルシューティングは、初心者は2つの要素で躓くことがあります。それは一般的なトラブルシューティングの手法の理解とトラブルシューティングを行うシステムに関する理解、これらの不足によります。

まずは、一般的なトラブルシューティングの手法、その理論から見ていきます。

一般的なトラブルシューティングの理論

形式的にはトラブルシューティングの過程は、仮説演繹法の応用と考えられます。
システムに関する一連の観察結果と、システムの挙動を把握する理論的な基盤をもとに、障害の原因の仮説を立て、その仮説を検証するというプロセスを繰り返します。

トラブルシューティングは、問題のレポートから始まり、トリアージ、観察、診断、テスト/対処、回復or観察に戻る。もしくは、トリアージを再び行うというように進みます。

仮説を検証する方法は2種類あり、観察したシステムの状態と仮説を指示するあるいは支持しない証拠を見つける方法。
もしくは、システムに何かしらの変更（手当て）を行い、その結果を観察するという方法。

トラブルシューティングの効率が悪くなるのは、システムへの理解が不足していることが多いです。

例えば、

初めの二つは、システムへの理解が増せば、解消されます。
3つ目は、すべての障害が起きる確率は等しくないということを念頭に考えるべきです。
最後の例の場合は、相関関係は因果関係でないということを忘れないようにすべきです。