インシデント対応体制

[更新: 2025年11月13日]

対応体制の確立

インシデント対応の効率化のため、明確な役割分担と責任体制を確立します。

体制の構成は以下のとおりです（表2）。定期的な状況報告とステークホルダーとの調整により、透明性を確保します。

表2: インシデント対応体制と役割分担

標準化されたインシデント対応手順により、迅速かつ確実な問題解決を実現します。

手順要素は以下のとおりです。

初期対応：障害検知から初動までの標準化された手順。アラート受信から短時間で初期対応を開始し、システム状況の把握、影響範囲の特定、関係者への第一報を実施する
影響範囲評価：被害状況の迅速な把握と優先度判定。障害の影響を受けるユーザ数、機能、売上への影響を定量的に評価し、復旧優先度を決定する
復旧作業：確立された手順に基づく段階的復旧。問題の根本原因を特定する前に、まず一時的な回避策により影響を最小化する

初期対応チェックリストに従い、対応漏れを防止します。

システムコンポーネントの障害に対して迅速で効果的な対応手順を整備します。対応手法は以下のとおりです。

サーバ障害：冗長系への自動切り替えまたは手動切り替え。ハードウェア障害やOS障害によるサーバダウン時は、ロードバランサによる自動切り替えまたは管理者による手動切り替えを実行する
データベース障害：スレーブDBへの切り替えとデータ整合性確認。マスターデータベースの障害時は、事前に準備されたスレーブデータベースへの切り替えを実行する
ストレージ障害：バックアップからの迅速な復旧。ストレージデバイスの障害によるデータアクセス不能時は、最新のバックアップからの復旧を実行する

根本原因の特定と再発防止策により、システムの安定性を向上させます。

ネットワーク関連の障害に対して包括的な対応戦略を実装します。対応戦略は以下のとおりです。

接続性確認：複数経路での接続状況確認。複数の監視ポイントから接続テストを実行し、障害の影響範囲と原因を特定する
迂回ルート：代替ネットワーク経路の活用。事前に設定された代替ルートを活用し、主要ネットワーク経路の障害時もサービス継続を可能にする
キャッシュ活用：ローカルキャッシュによる一時的な機能維持。さくらのクラウドではさくらのウェブアクセラレータを利用することで分散化されたキャッシュ配信が可能になる

可能な限りサービス停止を回避し、基本的なサービス継続を実現します。

外部サービスの障害に対して適応的な対応戦略を実装します。対応手法は以下のとおりです。

サーキットブレーカー：外部サービス障害時の自動遮断。外部APIやサービスの応答異常を検知した場合、自動的に該当サービスへのリクエストを遮断し、システム全体への影響を防止する
代替手段：バックアップサービスまたは手動処理への切り替え。主要な外部サービスが利用できない場合、事前に準備されたバックアップサービスや手動処理フローに切り替える
機能縮退：影響を最小化した縮小機能での継続。すべてのサービス機能を維持できない場合、コア機能のみに限定してサービスを継続する

優先度の低い機能を一時的に停止することで、重要な機能の安定性を確保します。

大規模災害や地域的な障害に対して事業継続計画を実行します。実行戦略は以下のとおりです。

複数チャンネルでの継続的な情報提供により、利用者の不安を軽減します。

事後分析により、障害から学習し、システムの信頼性向上につなげるための体系的な分析を実施します。

分析要素は以下のとおりです。

包括的な改善策により、再発防止を図ります。

プロセス改善により、障害対応の経験を組織の財産として蓄積し、継続的な改善を推進します。

改善要素は以下のとおりです。

組織全体の障害対応能力の底上げを図ります。