システム監視と運用管理
[更新日:2025年09月30日]
運用指標の収集と分析
システムの安定稼働のためには、平常時の状態を把握し、異常の兆候を早期に検知する体制が不可欠です。さくらのクラウドでは監視機能として「シンプル監視」「モニタリングスイート」を提供しています。リソース監視、アクティビティログ、外部の監視サービスを組み合わせることで、システムの状態を適切に把握できます。
外部からの死活監視
外部に公開しているサービスでは、可用性とパフォーマンスを継続的に確認することが極めて重要です。ウェブサイト、APIエンドポイント、ロードバランサなどが対象となります。さくらのクラウドの「シンプル監視」機能を活用することで、利用者へ影響が及ぶ問題を早期に察知できます。
コンピューティングリソースの監視
サーバやデータベースなどのコンピューティングリソースについて、継続的な監視が必要です。対応すべき点は次のとおりです。
サーバ:CPU使用率、メモリ使用量、ディスクI/O、ネットワークトラフィック
物理ホスト:さくらのクラウドから通知されるメンテナンス情報への対応
コンテナ環境:Dockerなどのリソース使用状況と健全性
データベース:CPU、メモリ、ストレージ容量、クエリパフォーマンス
ネットワーク監視
様々なネットワークコンポーネントで指標を収集・監視する仕組みが重要です。「スイッチ」で構成したプライベートネットワーク、「ハイブリッド接続」、「VPNルータ」のVPN接続、「ロードバランサ」など、通信経路全体を対象とします。
ネットワークに関して、対応すべき点は次のとおりです。
インターフェーストラフィック:送受信データ量とエラーレートの把握
VPN接続:オンプレミス環境との接続状態(疎通、スループット、遅延)
ロードバランサ:処理能力、応答時間、アクティブなコネクション数
境界機器:自社ネットワークのルータやファイアウォールの状態
ストレージ監視
データの格納先であるストレージサービスの利用状況を監視します。指標、アラート、通知の仕組みを使って、以下の点を把握します。
ディスク:読み書きスループット、IOPS、空き容量
オブジェクトストレージ:データ総量とオブジェクト数
ファイルサーバ:NFSアプライアンスや自構築サーバの容量と性能
アラート設定と管理
関連するサービスの指標ごとに、システムの状況に応じたアラートを作成します。アラートの重要度レベルを適切に設定することが重要です(表2)。
表2. アラート重要度レベルの定義
レベル |
状態の説明 |
対応の緊急度 |
---|---|---|
注意(Warning) |
問題が発生する可能性がある状態 |
監視継続 |
異常(Critical) |
最適ではないレベルで動作中 |
対応が必要 |
障害(Down) |
リソースにアクセス不可 |
即座に対応 |
アラート設定は定期的に見直し、常に最適な状態を保ちます。閾値が厳しすぎると「アラート疲れ」を引き起こし、緩すぎると対処時間がなくなります。リソースの重要度、正常な振る舞いの理解、通知量のバランスを考慮して調整します。
ログ収集と活用
さくらのクラウドの「イベントログ」は、コントロールパネルやAPI操作の履歴を記録します。誰がいつどのような操作を行ったかを追跡できます。詳細な診断情報が必要な場合は、各サーバやアプライアンスのログを収集する仕組みを構築します。
収集したログは、CSV形式でダウンロードできます。それを外部のログ管理サービスに取り込み、パターンや傾向を分析することを推奨します。コンプライアンス要件に基づいて、ログの保管ポリシーを策定し適切に運用することが重要です。