アーキテクチャ設計ベストプラクティス

[更新：2025年9月30日]

障害点分析と対策

システム設計時に起こりうる障害を体系的に分析します。FMEA（故障モード影響解析）やFTA（故障の木解析）などの手法を活用し、包括的なリスク評価を実施します。

分析項目は以下のとおりです。

単一障害点（SPOF）の特定：システム内でそれが停止すると全体に影響する箇所
障害影響範囲：各コンポーネントの障害が他に与える影響の評価
障害シナリオ：単体障害から複合障害までさまざまなケースを想定

定期的な見直しにより、新たなリスクの早期発見を図ります。

FMEA（故障モード影響解析）

FMEA（Failure Mode and Effects Analysis）は、ボトムアップ型の解析手法です。個々のパーツやプロセスに着目し、そこから起こりうる潜在的な故障モード（故障の仕方）を網羅的に洗い出し、それがシステム全体にどのような影響を及ぼすかを評価します。

目的：設計段階や工程計画の初期段階で、未知の不具合を事前に予測し、予防策を講じること

FMEAの特徴は以下のとおりです。

ボトムアップ：パーツ・要素レベルからシステム全体への影響を分析する
リスク評価：故障モードの「発生頻度」「影響度（深刻度）」「検出難易度」を数値化し、「リスク優先度（RPN）」を算出することで、対策の優先順位をつける
適用例：新製品の開発時、製造プロセスの設計時など

FTA（故障の木解析）

FTA（Fault Tree Analysis）は、トップダウン型の解析手法です。まず、発生してはならない「トップ事象」（システムの重大な故障や事故）を定義し、その事象がなぜ発生するのかを論理的に掘り下げて原因を特定します。この関係をツリー状の図（故障の木）で表現します。

目的：既に発生した、または想定される特定の重大な故障の原因を究明し、再発防止策を策定すること

FTAの特徴は以下のとおりです。

トップダウン：特定のトップ事象から、その原因となる事象を論理ゲート（AND/OR）でつなぎながら分析する
視覚的：複雑な原因の連鎖をツリー図で分かりやすく表現できる
確率計算：各事象の発生確率が分かれば、トップ事象の発生確率を定量的に計算することも可能
適用例：事故やトラブルが起きた後の原因究明、安全性が特に重視されるシステム（航空機、原子力発電所など）の設計段階におけるリスク分析

冗長性設計の実装

ビジネス要件に応じた適切なレベルの冗長性を実装します。コストと可用性のバランスを考慮し、最適な構成を選択することが重要です。

アクティブ/スタンバイ構成：コストを抑えつつ基本的な冗長性を確保する構成。平常時はアクティブ系のみが稼働し、障害時にスタンバイ系に切り替わる
アクティブ/アクティブ構成：両系が常時稼働し、負荷を分散して処理する構成。より高い可用性を実現できるが、コストと設計複雑度が増大する
マルチゾーン配置：さくらのクラウドでは、複数のゾーンにシステムを分散配置し、ゾーン単位の障害に対する耐性を確保する

スケーラビリティの実装

負荷変動に柔軟に対応できる設計を行います。利用できるスケーリング手法は以下のとおりです。

垂直スケール：サーバスペックを変更して処理能力を調整（スケールアップ・スケールダウン）
水平スケール：サーバ台数を増減して処理能力を調整（スケールダウン・スケールイン）

この適切な組み合わせにより、コスト効率と性能の最適化を図ります。さくらのクラウドではロードバランサ機能とオートスケール機能を組み合わせることで、効率的な負荷分散と自動拡張が実現できます。

負荷分散戦略

ロードバランサ機能の活用により、複数のサーバにトラフィックを分散します。以下の機能を適切に設定することで、高い可用性と性能を確保します。

ヘルスチェック：障害サーバを自動的に切り離す
セッション維持：クライアントと通信する実サーバを固定化できる
SSLオフロード：SSL処理をロードバランサで行い、バックエンドの負荷を軽減

さくらのクラウドでは、プロキシ方式によるエンハンスドロードバランサにセッション維持やSSLオフロードの機能があります。

データレイヤーの信頼性確保

データベース設計

データベース設計においてデータベースの高可用性を確保するため、複数の冗長化技術を組み合わせて堅牢なアーキテクチャを構築します。

実装すべき技術は以下のとおりです。

レプリケーション：マスター/スレーブ構成によるデータ冗長化。マスターデータベースで発生したすべての変更を複数のスレーブデータベースにリアルタイムで複製し、データの冗長性を確保する
クラスタリング：複数ノードでの分散処理と可用性向上。複数のデータベースノードを一つの論理的なシステムとして動作させ、負荷分散と障害時の自動切り替えを実現する
自動バックアップ：定期的なデータバックアップの自動実行。データ損失のリスクを最小化するため、毎日決まった時間に自動的にフルバックアップを実行し、さらに継続的な増分バックアップも併用する

これらを段階的に導入し、要件に応じたレベルの冗長化を実現します。

ストレージ戦略

ストレージ戦略では、データの永続性と可用性を保証するため、多層的なストレージ戦略を採用し、物理的な障害やデータ損失から保護します。

戦略要素は以下のとおりです。

分散ストレージ：複数の物理ストレージへのデータ分散。単一のストレージデバイスの障害によるデータ損失を防ぐ
スナップショット：高速なデータ復旧のための差分バックアップ。定期的にストレージの状態をスナップショットとして保存し、問題発生時に特定の時点の状態に迅速に復旧できる
地理的分散：異なる拠点へのデータレプリケーション。さくらのクラウドでは複数リージョンを活用し、災害復旧時間の短縮と事業継続性の確保を実現する

地理的分散により、大規模災害に対する耐性を確保します。

災害復旧の実装

バックアップ戦略

バックアップ戦略において、完全レプリケーション環境があっても定期的なバックアップは必須です。データの完全性を保証し、様々な災害シナリオに対応できる包括的なバックアップ戦略を実装します。

戦略要素は以下のとおりです。

自動バックアップ：自動バックアップ機能を活用することで仮想サーバ（ディスク）全体のイメージバックアップを定期的に作成し、スケジュール設定により業務への影響を最小化する
バックアップ検証：復旧可能性の定期的な確認。作成したバックアップが実際に復旧に使用できることを確認するため、定期的にテスト環境での復旧テストを実施する
権限分離：本番データとバックアップへのアクセス権限の分離。セキュリティ強化のため、本番システムとバックアップシステムの権限を分離する

定期的な検証により、実用性を確保します。

レプリケーション設計

レプリケーション設計において、アプリケーションデータの特性に応じた適切なレプリケーション手法を選択し、パフォーマンスとデータ整合性のバランスを最適化します。

設計手法は以下のとおりです。

同期レプリケーション：データ整合性を重視する場合。金融データや顧客情報など、完全なデータ整合性が要求される重要なデータに対して適用する
非同期レプリケーション：性能を重視する場合。高いスループットが要求されるログデータやメトリクス情報などに対して適用する
地域間レプリケーション：災害復旧のための遠隔地へのデータ複製。事業継続性を確保するため、主要データを地理的に離れた複数のリージョンに複製する

業務要件に応じて適切な手法を選択します。

フェイルオーバー計画

フェイルオーバー計画において、システム障害時の復旧手順を明確に定義し、サービス停止時間を最小化するための自動化された仕組みを構築します。

計画要素は以下のとおりです。

自動フェイルオーバー：障害検知からの自動切り替え。ヘルスチェック機能による継続的な監視により、障害を即座に検知し、あらかじめ設定されたルールに基づいて自動的にスタンバイシステムに切り替える
手動フェイルオーバー：管理者判断による計画的切り替え。メンテナンスや計画的な作業のため、管理者の判断により意図的にシステムを切り替える手順を整備する
フェイルバック手順：復旧後の元システムへの切り戻し。障害が解決した後、安全に元のシステムに戻すための詳細な手順を定義する

段階的な切り戻し手順により、二次障害を防止します。

参考リンク

リージョン・ゾーン：「マルチゾーン配置」や「地理的分散」の基本となる、データセンターの物理的な所在地（リージョン）と、その中での独立した区画（ゾーン）について解説
ロードバランサ：負荷分散戦略の要となるサービス。「ヘルスチェック」機能や「セッション維持」機能についても解説
オートスケール：負荷に応じてサーバ台数を自動で増減させる機能。効率的なリソース管理を実現
データベース（アプライアンス）：「レプリケーション」や「自動バックアップ」が組み込まれたマネージドサービス。データレイヤーの信頼性を容易に確保できる
自動バックアップ：サーバ（ディスク）を丸ごと定期的にバックアップする機能。RPO/RTOの改善に直結する
アーカイブ：ディスクのコピーを安価に保管できる機能