システム監視と運用管理

[更新日:2025年09月30日]

運用指標の収集と分析

システムの安定稼働のためには、平常時の状態を把握し、異常の兆候を早期に検知する体制が不可欠です。さくらのクラウドでは監視機能として「シンプル監視」「モニタリングスイート」を提供しています。リソース監視、アクティビティログ、外部の監視サービスを組み合わせることで、システムの状態を適切に把握できます。

外部からの死活監視

外部に公開しているサービスでは、可用性とパフォーマンスを継続的に確認することが極めて重要です。ウェブサイト、APIエンドポイント、ロードバランサなどが対象となります。さくらのクラウドの「シンプル監視」機能を活用することで、利用者へ影響が及ぶ問題を早期に察知できます。

コンピューティングリソースの監視

サーバやデータベースなどのコンピューティングリソースについて、継続的な監視が必要です。対応すべき点は次のとおりです。

  • サーバ:CPU使用率、メモリ使用量、ディスクI/O、ネットワークトラフィック

  • 物理ホスト:さくらのクラウドから通知されるメンテナンス情報への対応

  • コンテナ環境:Dockerなどのリソース使用状況と健全性

  • データベース:CPU、メモリ、ストレージ容量、クエリパフォーマンス

ネットワーク監視

様々なネットワークコンポーネントで指標を収集・監視する仕組みが重要です。「スイッチ」で構成したプライベートネットワーク、「ハイブリッド接続」、「VPNルータ」のVPN接続、「ロードバランサ」など、通信経路全体を対象とします。

ネットワークに関して、対応すべき点は次のとおりです。

  • インターフェーストラフィック:送受信データ量とエラーレートの把握

  • VPN接続:オンプレミス環境との接続状態(疎通、スループット、遅延)

  • ロードバランサ:処理能力、応答時間、アクティブなコネクション数

  • 境界機器:自社ネットワークのルータやファイアウォールの状態

ストレージ監視

データの格納先であるストレージサービスの利用状況を監視します。指標、アラート、通知の仕組みを使って、以下の点を把握します。

  • ディスク:読み書きスループット、IOPS、空き容量

  • オブジェクトストレージ:データ総量とオブジェクト数

  • ファイルサーバ:NFSアプライアンスや自構築サーバの容量と性能

アラート設定と管理

関連するサービスの指標ごとに、システムの状況に応じたアラートを作成します。アラートの重要度レベルを適切に設定することが重要です(表2)。

表2. アラート重要度レベルの定義

レベル

状態の説明

対応の緊急度

注意(Warning)

問題が発生する可能性がある状態

監視継続

異常(Critical)

最適ではないレベルで動作中

対応が必要

障害(Down)

リソースにアクセス不可

即座に対応

アラート設定は定期的に見直し、常に最適な状態を保ちます。閾値が厳しすぎると「アラート疲れ」を引き起こし、緩すぎると対処時間がなくなります。リソースの重要度、正常な振る舞いの理解、通知量のバランスを考慮して調整します。

ログ収集と活用

さくらのクラウドの「イベントログ」は、コントロールパネルやAPI操作の履歴を記録します。誰がいつどのような操作を行ったかを追跡できます。詳細な診断情報が必要な場合は、各サーバやアプライアンスのログを収集する仕組みを構築します。

収集したログは、CSV形式でダウンロードできます。それを外部のログ管理サービスに取り込み、パターンや傾向を分析することを推奨します。コンプライアンス要件に基づいて、ログの保管ポリシーを策定し適切に運用することが重要です。