システム監視と運用管理

[更新日：2025年10月31日]

運用指標の収集と分析

システムの安定稼働のためには、平常時の状態を把握し、異常の兆候を早期に検知する体制が不可欠です。さくらのクラウドでは監視機能として「シンプル監視」「モニタリングスイート」を提供しています。リソース監視、アクティビティログ、外部の監視サービスを組み合わせることで、システムの状態を適切に把握できます。

外部に公開しているサービスでは、可用性とパフォーマンスを継続的に確認することが極めて重要です。Webサイト、APIエンドポイント、ロードバランサなどが対象となります。さくらのクラウドの「シンプル監視」機能を活用することで、利用者へ影響が及ぶ問題を早期に察知できます。

サーバやデータベースなどのコンピューティングリソースについて、継続的な監視が必要です。対応すべき点は次のとおりです。

様々なネットワークコンポーネントで指標を収集・監視する仕組みが重要です。「スイッチ」で構成したプライベートネットワーク、「ハイブリッド接続」、「VPNルータ」のVPN接続、「ロードバランサ」など、通信経路全体を対象とします。

ネットワークに関して、対応すべき点は次のとおりです。

データの格納先であるストレージサービスの利用状況を監視します。指標、アラート、通知の仕組みを使って、以下の点を把握します。

関連するサービスの指標ごとに、システムの状況に応じたアラートを作成します。アラートの重要度レベルを適切に設定することが重要です（表2）。

表2. アラート重要度レベルの定義

アラート設定は定期的に見直し、常に最適な状態を保ちます。閾値が厳しすぎると「アラート疲れ」を引き起こし、緩すぎると対処時間がなくなります。リソースの重要度、正常な振る舞いの理解、通知量のバランスを考慮して調整します。

さくらのクラウドの「イベントログ」は、コントロールパネルやAPI操作の履歴を記録します。誰がいつどのような操作を行ったかを追跡できます。詳細な診断情報が必要な場合は、各サーバやアプライアンスのログを収集する仕組みを構築します。

収集したログは、CSV形式でダウンロードできます。それを外部のログ管理サービスに取り込み、パターンや傾向を分析することを推奨します。コンプライアンス要件に基づいて、ログの保管ポリシーを策定し適切に運用することが重要です。