障害対応の時に一番大事にしていること

f:id:kikuchi_et_al:20210228191108p:plain

障害対応を行う時、復旧対応よりもまずは素早くお客様に連絡することが大事であると僕は考えています。

2021年2月20日(日本時間)0時過ぎにAWSで障害が発生しました。

7:09 AM PST 現在、東京リージョン AP-NORTHEAST-1 のひとつのアベイラビリティゾーン apne1-az1 において、インスタンスに影響を及ぼす接続性の問題が発生しており、対応を行っております。 | We are investigating connectivity issues affecting instances in a single Availability Zone (apne1-az1) in the AP-NORTHEAST-1 Region.

https://status.aws.amazon.com/

東京リージョンの一部のAZで障害が発生し、インスタンスがダウンもしくは起動しなくなるといったことが発生しました。

このレベルの障害が発生すると監視業務を行なっている現場ではアラートを100件以上検知し、障害対応に追われることになります。

少し誤解を生むような言い方にはなりますが、障害対応を行う際は復旧完了時間が少し遅くなったとしても、お客様への報告は優先的に行う方が良いです。

対応を優先し報告を後回しにすると、復旧作業がが行われているのかどうかがお客様からは見えず不安になるからです。

分かっていても意外と盲点で、復旧を優先させてお客様への連絡を怠るケースは新米エンジニアのあるあるかなと思います。

また、お客様に障害報告する時は調査内容等といったことは記載する必要はないです。

今起きてることを端的に伝え、詳細な内容は障害対応が一通り終わってから報告すれば良いです。

そして、復旧に時間がかかる時は1時間にに1回程度でも良いので経過報告するとお客様側でも状況を把握することが可能になるので安心感を与えることが出来ます。