ウェブサイト運営者が、障害発生時に行うべきことと、そのフローやプライオリティなどをまとめてみます。
なぜまとめるか? と問われると、理由は特にありません。なんとなく。
しいて言うなら、そこに障害があるから、かな。
サイトの規模としては、技術担当者と運営担当者が別々に存在し、なんらかの外部取引がある状態、障害レベルは中の上ぐらい(影響範囲は大きいが、当日中には暫定的にでも復旧できるレベル)のイメージで話を進めましょう。常に、あるいは断続的にサイトに接続できない、エラーが表示される、著しく表示時間が遅く正常な利用に耐えられないといった状態が継続しているようなシーンを想定します。サイトは、自社運営をベースとしますが、受託の場合の注意事項にも随時触れます。
フローとしては、ざっと以下の流れになりますね。
- 障害の検知
- 状況、及び、再現性の確認
- 一次対応実施
- 技術担当者へ連絡
- サイト上での告知(障害連絡)
- 関係各位へ連絡(障害連絡)
- モニタリング、技術担当者との連携
- 復旧後、動作確認
- サイト上での告知(復旧連絡)
- 関係各位へ連絡(復旧連絡)
- 恒久対応に関する技術担当者との協議
- 関係者各位へ連絡(障害報告)