SYS-821GE-TNHR H100 8GPU Sec.B/C

最初に

  • このページは 「高火力 PHY」 の 「SYS-821GE-TNHR H100 8GPU Sec.B/C」 の出荷時の基本情報や提供状態、知っておくと便利な情報をまとめたサーバー運用経験者向けの資料マニュアルです。
  • このページを読む前に、必ず「 最初にお読みください 」をお読みください。
  • このページで表現している「出荷」とは、以下の状態を指します。

    • 契約したサーバー(またはサービス)をユーザーの手にお届けしたときの状態・設定

    • OSまたは該当のアプリケーションをインストール(再インストールを含む)したときの状態・設定

  • 提供するサーバーやOS、機材やオプションの「販売終了・提供終了」以降は、対象のマニュアルの改定・更新は停止します。
    更新が停止してから一定の期間経過した時点で、インターネットでの公開を終了します。 詳しくは マニュアルの情報凍結とライフサイクル をご覧ください。
  • インターネットでの閲覧が終了したマニュアルが必要になったときは、カスタマーセンターへお問い合わせください。
  • 弊社の都合により、予告なく閲覧の取り下げ、または公開を終了する場合があります。
  • 「高火力 PHY」 で提供しております広帯域のインターコネクトネットワークでは、サーバー間で相互に通信可能な範囲をセクションと定義しております。
    モデル毎にセクションが決まっており、異なるセクション間でのインターコネクト接続はご利用いただけません。

モデル

セクション

SYS-821GE-TNHR H100 8GPU
A
SYS-821GE-TNHR H100 8GPU Sec.B
B
SYS-821GE-TNHR H100 8GPU Sec.C
C

サービス概要

このマニュアルが対象とするサービスは以下の通りです。

サービス名称

高火力 PHY

モデル名称

SYS-821GE-TNHR H100 8GPU Sec.B/C

提供開始

2024年6月

提供終了

--

基本情報

ハードウェア・筐体

「SYS-821GE-TNHR H100 8GPU Sec.B/C」 モデルのハードウェア構成は以下の通りです。 ハードウェアアップグレードオプションを契約していない場合は「標準構成」のハードウェアが提供されます。

筐体販売元

Supermicro

筐体名称

SuperServer SYS-821GE-TNHR

CPU

Intel Xeon Platinum 8480+ 2.0GHz (56コア) x 2CPU

メモリー

・2TB

GPU

NVIDIA H100 80GB x 8

NVMeストレージ
*1
RAIDコントローラー搭載
・SSD 400GB x 2
RAIDコントローラー非搭載
・SSD 7.68TGB x 4
RAIDコントローラー
Broadcom SAS-3808
・FBU *2 : ×
NICとポート
6port
----
・25G x 2 port
・400G x 4 port *3

電源供給

・冗長化:○
  • *1 ストレージの増設はできません。

  • *2 「フラッシュ・バックアップ・ユニット」。サーバーの不意な電源遮断が発生したとき、キャッシュ内のデータを退避する電力を供給することでデータ損失のリスクを軽減する装置です。

  • *3 詳細は 「インターコネクト」 をご確認ください。

OS

「SYS-821GE-TNHR H100 8GPU Sec.B/C」 モデルで選択できるOSは以下の通りです。
OSの出荷(インストール)状態や設定に関してはリンク先の「OSセットアップ仕様書」を参照ください。

OS

ネットワーク

NICと推奨構成

「SYS-821GE-TNHR H100 8GPU Sec.B/C」 では、2つの物理NICが搭載されています。
それぞれの物理NICで通信するほか、2つの回線を束ね、冗長化して通信する「ボンディング」の利用が可能です。

NIC

2 Port
25G x 2 Port

使用できる構成

  • ボンディングあり (推奨)
    [LACP または Static]
  • ボンディングなし *1

重要

*1 高火力 PHY では「ボンディングなし」の運用は以下の理由により推奨していません。
  • ネットワークの冗長性が失われるため、ネットワークの可用性が低下する

  • ネットワークの帯域幅がボンディングの半分になる

  • 品質保証(SLA) 適用対象外になる

必要がない限りは、ボンディングを用いて利用するようにしてください。

Note

400G x 4 Port に関しては本項記載のネットワークとは異なります。詳細は 「インターコネクト」 をご確認ください。

接続回線

高火力 PHY では、外部のインターネットにつながる「グローバルネットワーク」と、閉じられた空間で通信する「ローカルネットワーク」の2種類のネットワークが用意されています。

回線の接続や切り替え、取り外しは、コントロールパネルから自由に操作することができます。
グローバルネットワーク
外部インターネットに接続するグローバルネットワークは、「共用グローバルネットワーク」と「専用グローバルネットワーク(オプション)」の2種類です。
../../_images/phy_gn02.png

グローバルネットワークの接続例

重要

「共用グローバルネットワーク」と「専用グローバルネットワーク(オプション)」を同時に接続する ことはできません。

共用グローバルネットワーク
専用グローバルネットワーク *1

提供方式

共用セグメント
・共用のアドレスブロックからIPアドレスを1つ付与
専用セグメント
・専用のアドレスブロックを付与
(アドレスブロックから自由に利用可)

制御方式

帯域制御

帯域制御

接続回線帯域

100Mbps (標準構成)
250Mbps *2
500Mbps *2
100Mbps
250Mbps
500Mbps
  • *1 独立したグローバルネットワークに接続し、アドレスブロックを付与するオプションです。

  • *2 「回線オプション」サービス。 ネットワークの帯域をアップグレードするプランです。

Note

共用グローバルネットワークのIPアドレスについて

  • 共用グローバルネットワークに接続すると、空きIPアドレスプールからIPアドレスを1つ割り当てます。 任意のアドレスを選ぶことはできません。

  • 長い期間 共用グローバルネットワークがサーバーから取り外された状態が続くと、共用グローバルネットワークのIPアドレスが次の利用のために 空きIPアドレスプールへ解放されてしまいます。
    以前使用していたIPアドレスが利用出来なくなりますので、取り外しを行うときは注意してください。
ローカルネットワーク
「ローカルネットワーク」は閉られたネットワーク空間で通信することができるネットワークです。

ローカルネットワーク

制御方式

帯域制御

接続回線帯域

4Gbps (標準構成)
10Gbps *1
20Gbps *1
  • *1 「回線オプション」サービス。 ネットワークの帯域をアップグレードするプランです。


出荷状態では、ローカルネットワークは用意されていません。
ネットワークを作成したあと、サーバーの設定をおこなってください。

ネットワークの接続数について

高火力 PHY では1つのサーバーが接続できるネットワークの数に上限があります。
ネットワークの
上限数

グローバルネットワーク

1

ローカルネットワーク

10

  • ネットワークの接続数は増やすことはできません。

サービス出荷時の状態

サービス出荷直後のサーバーの状態は以下の通りです。
サーバーを起動し、セットアップをおこなってください。

電源

OFF

OS

インストールなし

RAID構成

構成済み
・ストレージの組み合わせに応じて「RAID1」または「RAID10」で提供 *1

ネットワーク

<インターフェース>
・接続中のネットワーク: なし
・ボンディング設定: LACP
・接続ステータス:有効

補足事項

・OSインストールをおこなうと「共用グローバルネットワーク」の設定がサーバーに自動投入され、すぐに通信できます。

  • *1 RAID構成について

    • 基本的にストレージ同種2本を「RAID1」で構成して提供します。
      標準構成のストレージを含めて、同種4本以上の場合は「RAID10」で提供します。
    • RAID構成は コントロールパネルのRAID構成用コンソールなどを用い、自由に変更してください。
      参考資料 :RAIDとストレージ

オプションサービス

高火力 PHY は、サービスのご利用中であればいつでも利用できる「基本サービス」と、追加のお申し込みでご利用いただける「オプションサービス」があります。

高火力 PHYはさくらの専用サーバ PHYのオプションサービスをご利用いただけます。

基本サービス

高火力 PHY のユーザーであれば、いつでも無料でご利用できるサービスです。

サーバーに関する各種操作をブラウザー上で行うことができます。
グラフィカルなユーザーインターフェースで抜群のセルフサービス性を実現します。
../../_images/cpanel_visual400.png

コントロールパネル

閉じられた空間で通信するローカルネットワークを、1サーバー最大10個まで接続することができます。
コントロールパネルの操作でサーバーのリブートが行えない場合は、リブート作業を代行いたします。
(ウェブアプリケーションファイアウォール)
サーバーの通信を解析・検査することで、ウェブアプリケーションの脆弱性を悪用した攻撃から
サーバーを保護し、インジェクションや不正ログインなどの脅威からサーバーを守ります。

保守と運用サポート

サポートが必要になったとき、弊社に作業を依頼するスポットのオプションサービスです。
サポートのご相談・お見積り・対応内容については カスタマーセンター へお問い合わせください。
ご依頼に基づいて利用中の機器にコンソール操作を行い、トラブルの原因を調査し報告します。
コントロールパネルの操作でサーバーのリブートが行えない場合は、リブート作業を代行いたします。

ネットワークとアプライアンス

高火力 PHY で大規模な構成で運用するときに必要となる機能を提供します。 構成のご相談やラインアップ・お見積りについては カスタマーセンター へお問い合わせください。

独立したグローバルセグメントを割り当て、ほかのユーザーの不要なトラフィックを
排除したお客様だけのネットワークを構築できます。
さらに、オプションの「ロードバランサー」「ファイアウォール」をあわせてご利用
いただくことで可用性の向上や強固なセキュリティを確保したネットワークを実現します。
../../_images/phy_gn012.png

構成イメージ

閉じられた空間で通信するローカルネットワークを、1サーバー最大10個まで接続することができます。
アクセス集中によるサービス品質低下、サーバートラブルなどといった、もしもの場合に備えた
可用性の向上を実現し遅延のない快適な環境を確保します。
外部からの不正な通信を遮断し、改ざんや乗っ取りからサーバーを守ります。
独自ドメインやIPアドレスのネームサーバーを提供するサービスです。
複数拠点に分散配置されたさくらインターネットのネームサーバーを追加しお使いの
サーバーのネットワークに対する可用性を強化します。

セキュリティ

充実したセキュリティサービスで、サーバーの信頼性を向上させるサービスです。 ご相談・お見積りについては カスタマーセンター へお問い合わせください。

高い検知精度であなたのウェブサイトの改ざんを毎日チェックします。
(ウェブアプリケーション
ファイアウォール)
サーバーの通信を解析・検査することで、ウェブアプリケーションの脆弱性を
悪用した攻撃からサーバーを保護し、インジェクションや不正ログインなどの脅威
からサーバーを守ります。
「高火力 PHY」 ご契約のお客様はどなたでも利用することができます
あなたのサイトの正当性を証明し、ウェブブラウザーとサーバー間の通信内容を
第三者によって盗聴・改ざんされるのを防ぎます。低価格で最短即日発行の証明書
から信頼性の高いEV SSL証明書まで、豊富なラインアップをご用意しています。

サービス・拠点間接続

様々な方式の接続を行い、利便性やセキュリティを向上させるサービスです。

回線事業者の提供する広域イーサネットやインターネットのVPN装置を利用して、
お客様の拠点と弊社サービスをプライベートネットワークとして接続するサービスです。
異なるサービスやゾーン間をレイヤ2ネットワークで接続するサービスです。

インターコネクト

複数のノードをご契約いただいた場合、高速なネットワークでサーバー同士を接続可能なインターコネクトが利用可能です。

ネットワーク

IPアドレス設定

インターコネクトを利用するにあたっては、インターコネクトに接続されているインターフェースにIPアドレスを設定する必要があります。インターコネクトに接続されているインターフェースは4つあり、これらのポートはそれぞれ異なるIPサブネットに所属しています。
インターフェースに設定可能なIPアドレスについては、以下の表を参照してください。

重要

各ノードでIPアドレスに重複が無いように設定してください。

インターフェース名

利用可能なネットワーク

ゲートウェイ

p1p0

192.168.1.0/24
192.168.1.254

p3p0

192.168.2.0/24
192.168.2.254

p5p0

192.168.3.0/24
192.168.3.254

p7p0

192.168.4.0/24
192.168.4.254

RoCEv2

インターコネクトではRoCEv2によるDSCPベースのRDMA通信がご利用いただけます。
なお、LLDP DCBXによる自動設定はサポートしておりませんのでご了承ください。
DSCP値

RDMAトラフィック

26

CNP

48

詳しい内容については、ベンダーのドキュメント をご覧ください。

ジャンボフレーム

インターコネクトは9100オクテットまでのジャンボフレームをサポートしています。
RDMAインターフェースでジャンボフレームが有効であるか確認する ※デバイス名は適宜変更してください。
 ibv_devinfo -d mlx5_0

netplanの設定

netplanによってインターフェースの管理を行う場合は以下のコンフィグを参考にしてください。
※IPアドレスの第4オクテットは適宜変更してください。
/etc/netplan/02-interconnect.yaml
 network:
   version: 2
   ethernets:
     p1p0:
       dhcp4: false
       dhcp6: false
       mtu: 4200
       addresses:
         - 192.168.1.*/24
     p3p0:
       dhcp4: false
       dhcp6: false
       mtu: 4200
       addresses:
         - 192.168.2.*/24
     p5p0:
       dhcp4: false
       dhcp6: false
       mtu: 4200
       addresses:
         - 192.168.3.*/24
     p7p0:
       dhcp4: false
       dhcp6: false
       mtu: 4200
       addresses:
         - 192.168.4.*/24

Tips

重要

本項に記載の項目はサーバーをご利用いただく上での参考情報となりますのでご注意ください。 内容については予告なく変更する可能性があります。

nvidia-fabricmanagerのインストール

「SYS-821GE-TNHR H100 8GPU Sec.B/C」 には NVSwitch™ が搭載されているため、ご利用にあたってはnvidia-fabricmanager のインストールが必要となります。
詳しい内容については、ベンダーのユーザーガイド をご覧ください。

ACS(Access Control Services)の無効化

ACSによる制御によって、GPRDMA等が利用できないケースがあります。
ACSが有効であるかどうか確認する
 $ sudo lspci -vvv | grep 'Access Control Services' -A2
     Capabilities: [1c8 v1] Access Control Services
             ACSCap: SrcValid- TransBlk- ReqRedir+ CmpltRedir+ UpstreamFwd- EgressCtrl- DirectTrans+
             ACSCtl: SrcValid- TransBlk- ReqRedir- CmpltRedir- UpstreamFwd- EgressCtrl- DirectTrans-
 --
     Capabilities: [154 v1] Access Control Services
             ACSCap: SrcValid- TransBlk- ReqRedir+ CmpltRedir+ UpstreamFwd- EgressCtrl- DirectTrans+
             ACSCtl: SrcValid- TransBlk- ReqRedir- CmpltRedir- UpstreamFwd- EgressCtrl- DirectTrans-
 --
     Capabilities: [1cc v1] Access Control Services
             ACSCap: SrcValid+ TransBlk+ ReqRedir+ CmpltRedir+ UpstreamFwd+ EgressCtrl+ DirectTrans+
             ACSCtl: SrcValid+ TransBlk- ReqRedir+ CmpltRedir+ UpstreamFwd+ EgressCtrl- DirectTrans- <-- 有効になっている
 --
 (以下略)
変更する場合は、以下のコマンドによって無効化することが可能です。※PCIアドレスは適宜変更してください。
ACSを無効にする
 $ sudo lspci -vv -s 17:00.0 | grep 'Access Control Services' -A2
     Capabilities: [170 v1] Access Control Services
             ACSCap: SrcValid+ TransBlk+ ReqRedir+ CmpltRedir+ UpstreamFwd+ EgressCtrl- DirectTrans+
             ACSCtl: SrcValid+ TransBlk- ReqRedir+ CmpltRedir+ UpstreamFwd+ EgressCtrl- DirectTrans-
 $ sudo setpci -v -s 17:00.0 ECAP_ACS+6.w=0000
 0000:17:00.0 (ecap 000d @170) @176 0000
 $ sudo lspci -vv -s 17:00.0 | grep 'Access Control Services' -A2
     Capabilities: [170 v1] Access Control Services
             ACSCap: SrcValid+ TransBlk+ ReqRedir+ CmpltRedir+ UpstreamFwd+ EgressCtrl- DirectTrans+
             ACSCtl: SrcValid- TransBlk- ReqRedir- CmpltRedir- UpstreamFwd- EgressCtrl- DirectTrans-