データを中心としたAIの進化：MAASとNVIDIAスマートNICの組み合わせ

by Canonical on 27 September 2024

Canonicalは数年前から、製品へのNVIDIAスマートNICのサポートの実装に取り組んでいます。その一環であるCanonicalのMetal-as-a-Service（MAAS）は、ベアメタルサーバー上でスマートNICの管理と制御を可能にするものです。NVIDIAのBlueFieldスマートNICは、データ速度が非常に高く、高度なソフトウェア定義のデータ中心型インフラストラクチャサービスを提供するネットワークインターフェイスカードです。BlueFieldスマートNICは、専用の高性能ネットワークASIC（特定アプリケーション向け集積回路）と強力な汎用CPU、RAMを搭載しています。そしてネットワーク機能の高速化、ハードウェアの負荷軽減、隔離により、革新的なネットワーク、セキュリティ、ストレージを実現します。

カーネルドライバーの統合から、カード自体で実行されるソフトウェアの導入とライフサイクル管理まで、Canonicalの製品はDPUを非常に重視しています。CanonicalのOSとインフラストラクチャソフトウェアは、NICの機能とメリットを最大限に活用します。Canonicalのデータセンターネットワーキング戦略の重要なサービスを実現するのは、このようなプログラマブルアクセラレータです。

したがってCanonicalがNVIDIAのBlueField-3を歓迎するのは当然です。BlueFieldシリーズの最新DPU（データプロセッシングユニット）とSuper NICは、NVIDIAのAIクラウドリファレンスアーキテクチャであるSpectrum-Xの必須要素でもあります。

このブログでは、現代のAIワークロードが一般的なデータセンターネットワークテクノロジーにもたらす問題を検討します。Canonicalが導入するNVIDIAのSpectrum-Xは、BlueField-3 DPUとSuper NICをSpectrum-4シリーズのイーサネットスイッチと組み合わせ、それらの問題を解決します。この記事では、このハードウェアに対するCanonicalのソフトウェアサポートの範囲を詳説します。

AIトレーニングがイーサネットに与える負担

ディープラーニング演算処理手順の分散

データセンターオペレーター、企業、クラウドプロバイダーは、ワークロードを管理し、それらを結びつける一貫したアプローチで未来に備える必要があります。AIとLLM（大規模言語モデル）が過去のアプローチを変革するに伴い、Canonicalはこの分野でグリーンフィールド型の取り組みを支持しています。

分散型ディープラーニングには3つの主な処理手順があります。

分散型システムの各ノードで実行される各GPUについて損失関数の勾配を計算する。
ネットワーク上のGPU間通信により勾配の中間値を計算する。
モデルを更新する。

2番目の手順は「Allreduce」分散型アルゴリズムと呼ばれ、ネットワークに最も大きな負担をかけます。

RDMA over Converged Ethernet（RoCE）輻輳の課題

RDMA（リモートダイレクトメモリアクセス）とは、ネットワークで接続したソフトウェアプロセス間で、あたかもそれらが1台のコンピューターで実行されているかのようにメモリの共有を可能にする技術です。RDMAはネットワークを介したCPU間における高帯域幅で低レイテンシの直接転送に使用され、Allreduce並列アルゴリズムのテールレイテンシを削減する重要な要件です。

イーサネットは最も一般的な相互接続テクノロジーです。しかし、Canonicalのホワイトペーパーで述べたように、ベストエフォートのネットワークとして設計されており、ネットワークやデバイスがビジー状態になるとパケット損失が生じる可能性があります。高性能コンピューティング（HPC）やディープラーニングなどの用途では高度に分散した並列処理が求められます。輻輳は、そのような状況で、ノード間における大規模な同時データ転送の結果としてよく生じます。この輻輳がパケット損失につながり、RDMA over converged Ethernet（RoCE）のパフォーマンスを大きく低下させます。複数のイーサネット拡張が対処を試みているものの、イーサネットファブリック、サーバー、スイッチ、ルーターのすべてのコンポーネントの処理が増加します。

イーサネットのベストエフォートの欠点は、複数のAIトレーニングワークロードを同時に実行するマルチテナントのハイパースケールAIクラウドに特に影響を与えます。唯一の代替策であるInfiniBandは、ワークロードの高度な並列処理、特にRDMAに対応する実証済みのネットワーキングテクノロジーですが、イーサネットのスケールメリットが投資効果にマイナスとなる場合があります。

重いワークロードをサポートするため、Canonicalは定期的にOSとインフラストラクチャツールを更新し、性能向上と最新の機能導入に努めています。これによりスタックのすべての層で、ハードウェアパートナーの革新的な技術を速やかにサポートします。BlueField-3のMAASサポートも同様です。BlueField-3は、マルチテナントAIワークロードに関するイーサネットの欠点に対してNVIDIAが提案するソリューションの主要要素です。

NVIDIAのAIクラウドコンポーネント

NVIDIAのSpectrum-Xは、複数のAIジョブを同時に実行するマルチテナント環境を想定したエンドツーエンドの最新イーサネットソリューションです。Spectrum-Xは、最近発表されたSpectrum-4イーサネットスイッチ、BlueField-3ベースのDPU、Super NICのハードウェアに依存する複数の革新的なソフトウェアで構成されます。

NVIDIA Spectrum-X

NVIDIA Spectrum-4イーサネットスイッチ

Spectrum-Xネットワークプラットフォームアーキテクチャの一部であるSpectrum SN5600は、NVIDIAイーサネットスイッチの最新シリーズであるSpectrum-4を実装しています。Spectrum SN5600はイーサネット拡張によってトップスイッチング容量を補い、BlueField-3 DPUおよびSuper NICとの併用で比類のないRoCE性能を発揮します。

スイッチング容量	51.2 Tb/s（テラビット毎秒）、33.3 Bpps（10億パケット毎秒）
400GbE（ギガビットイーサネット）ポート	128
800GbE（ギガビットイーサネット）ポート	64
高度な輻輳制御によるアダプティブルーティング	ファブリック全体にわたるパケット単位のロードバランシング。スイッチからホストへナノ秒レベルのタイミング精度を持つエンドツーエンドのテレメトリ。パケットパスの動的再配置とキュー動作。
ユニバーサル共有バッファの設計	サイズの異なるフロー間の帯域幅の公正共有により、ワークロードを「うるさい隣人」から保護

NVIDIA Spectrum-4 SN5600イーサネットスイッチの機能

NVIDIA BlueField-3 DPUとSuper NICs

BlueFieldシリーズの大きな進歩を示すNVIDIA BlueField-3ネットワーキングプラットフォームは、最大400 Gb/s（ギガビット毎秒）の速度を誇り、ネットワークを多用する大量の並列処理およびハイパースケールAIワークロードを想定して設計されています。BlueField-3 DPUは、AIクラウドにおける信頼性の高い管理隔離ポイントとして機能します。さらにBlueField-3 Super NICは、サーバーGPUおよびSpectrum-Xイーサネットスイッチと緊密に結合しています。この連携がLLMやディープラーニングトレーニングのネットワークパフォーマンスを大きく引き上げます。同時に、電力効率を改善し、マルチテナント環境でのパフォーマンスを予測可能にします。

機能	利点
輻輳回避メカニズムのオフロード	GPUサーバーの負荷が減ってAI学習に集中
NVIDIA Direct Data Placement	アダプティブルーティングによってロードバランシングの対象となったアウトオブオーダーのパケットをホスト/GPUメモリで正しい順序に修正
送信者データインジェクションレートの管理と制御	Spectrum SN5600スイッチが送信したテレメトリ情報を処理し、ネットワーク共有効率を最大化

NVIDIA Spectrum-X BlueField-3 SuperNICの機能と利点

NVIDIAは、重いAIアプリケーション専用のネットワーキングプラットフォームとして、従来のイーサネットより多くの利点を備えたSpectrum-Xを提供します。

NVIDIAのスマートNICとMAASの組み合わせがデータセンターAIの進化を実証

CanonicalのMetal-as-a-Service（MAAS）ソフトウェアは大規模なデータセンターネットワークとサーバーインフラストラクチャの自動化を可能にします。クラウドに似た環境でベアメタルリソースを管理するのです。NVIDIA Spectrum-XソリューションでイーサネットAIの問題を解消するには、BlueField-3カードのOSとネットワーク機能ソフトウェアのプロビジョニングと設定を適切に行う必要があります。MAASがBlueField-3のプロビジョニングとライフサイクル管理をサポートするよう更新されたのも当然です。

革新的なSpectrum-Xを活用するようデータセンターのインフラストラクチャを設計することが、AIワークロードへの対応という目標に向けた第一歩です。MAASとJujuは、Canonicalのオープンソース自動化/インフラストラクチャソフトウェアです。この組み合わせによってネットワーク機器、サーバー、アプリケーションの一貫した導入が可能となり、各要素の細かい管理が不要となります。さらにCanonicalの専門スタッフがバグやセキュリティの脆弱性を修正します。最後にUbuntu Proが必要な証明書を取得し、データセンターが厳しいセキュリティ基準を満たすことを裏付けます。

さまざまな環境におけるスマートNICとDPUの導入に経験を持つCanonicalは、オペレーティングシステムの設定、更新、データセンターへの統合自動化に十分な専門知識を蓄積しています。

MAASとPXEを使用したBlueFieldスマートNICのプロビジョニング

CanonicalのMAASは、3.3のリリース以来、BlueField公式オペレーティングシステム（Ubuntuの参照ディストリビューション）をリモートでDPUにインストールし、UEFI Preboot eXecution Environment（PXE、通称「ピクシー」）を通じて他のサーバーと同様にアップグレードを管理できます。ホストとDPUの関係管理は親子モデルで行います。BlueField OSはUbuntuのデリバティブのため、MAASはJujuのホストとしてBlueField OSを提示し、通常のUbuntuサーバーとまったく同様に追加アプリケーションのインストールを管理できます。

このようなホストとしてのDPU管理は、ホスト上で実行されるアプリケーションと、CPU上で実行されるネットワーク、ストレージ、セキュリティ機能の緊密な統合を促進します。そして汎用オフロードおよび高速化機能に伴うすべての利点を提供します。それでも複数のAIトレーニングワークロードの同時実行という具体的な問題解決に最適とは言えません。

スマートNICのBMCを介したMAASプロビジョニング

もう1つの方法では、DPU自体の物理的な管理インターフェイスを利用してセキュリティを強化し、データセンターのインフラストラクチャとワークロードを切り離します。サーバー内に組み込まれてたサーバーであるDPUは、インフラストラクチャスタックをサーバーから独立して運用し、信頼できないテナントアプリケーションから事実上切り離す環境を作ります。このアプローチなら、ホストCPUで実行されるソフトウェアがDPUへの直接アクセスを持ちません。DPU内の環境分離は、クラウドサービスプロバイダーがクラウドインフラストラクチャスタック内でネットワーキングとストレージの両方を管理するシナリオを促進します。テナントは干渉することなくクラウドのインフラストラクチャスタックを利用できます。

ベースボード管理コントローラ（BMC）を備えたBlueField-2、BlueField-3 DPUとSuper NICはすでに提供中であり、この2番目の方法で利用できます。BMCはRedfishおよびIPMIのネットワーク規格とAPI（アプリケーションプログラミングインターフェイス）をサポートしています。DPUは、いくつかの点で通常のサーバーと異なるため、一般的なMAASワークフローに変更を加える必要があります。たとえばサーバー内で実行中のDPUをオフにすることはできません。したがって一部の手順で「コールド」リセットが必要な場合は、ホスト全体の電源を切ってすぐ入れ直すしかありません。これは回避すべきです。このようなMAASへの変更は現在実装中であり、次のリリースの新機能として期待されています。

MAASとSpectrum-Xの統合は、スマートNICの一括管理/制御機能によって次世代データセンターを実現し、シングルテナントとマルチテナントにおける現代のAIトレーニングおよび推論ワークロードに対応します。

結び

Canonicalは、データセンターインフラストラクチャ市場の最先端にあるパートナー各社と協力し、各社最先端の機能と性能向上に対して最善のサポートを約束しています。関連インフラストラクチャソフトウェアとオペレーティングシステムの今後のリリースにご期待ください。

詳細を問い合わせる

詳細はこちら：https://jp.ubuntu.com/ai-ml

Canonicalとルネサスが提携し、企業向けAIのイノベーションを加速

Ubuntuの発行元であるCanonicalは、半導体ソリューションの世界的リーダーであるルネサスエレクトロニクス株式会社が、エッジコンピューティングとAIアプリケーションの需要増大に対応する最先端のソリューションを提供するため、Canonicalのシリコンパートナープログラムに参加したと発表しました。AIを利用したソリューションが業界に普及するにつれ、効率、拡張性、セキュリティに優れたエッジコンピューティングプラットフォームが強く求められています。このパートナーシップは、組み込み処理におけるルネサスの専門知識とCanonicalの包括的なIoT（モノのインターネット）ソフトウェアスタックを統合するものです。拡張性の高い実運用グレードのソリューション Canonica […]

コネクテッドカー向けのソフトウェア開発：Anbox Cloudで着実に前進

大手自動車メーカーの間で、車載インフォテイメント用のオペレーティングシステムとしてAndroid Automotive OS（AAOS）が人気です。AAOSは、車内でもAndroidスマホと同様にさまざまなアプリケーション、機能、サービスを使用するための総合的なインフォテイメントプラットフォームです。 AAOSを使えば運転を楽しく快適にする新しいアプリケーションや機能の開発が容易になるため、対応アプリやサービスのエコシステムが急速に成長しています。しかし、安定したインフォテイメントシステムの開発は、困難に満ちた長い道のりです。ハードウェアの提供状況、ロジスティクス、システム設定にも多くの課題があります。たとえばハードウェアの依存関係が問題を引き起こし、テストを遅らせるこ […]

アプリケーションセキュリティ(AppSec)とは？

サイバーセキュリティの世界は変わりました。サイバー攻撃、マルウェア、ランサムウェアのリスク増大に加え、新しいサイバーセキュリティ規制の圧力、情報漏洩や違反にかかる高額の罰金により、もはやアプリケーションセキュリティ（AppSec）は必須です。このブログ記事では、このような課題に対処し、基本的なセキュリティ対策を中心として業務やシステムを守る方法を紹介します。AppSecの概要と利点、AppSecの設計と実装に取り組む方法を説明した後、セキュリティに関するCanonicalチームのアドバイスとAppSecのベストプラクティスを検討しましょう。 AppSecとはアプリケーションセキュリティ（略してAppSec）とは、アプリケーションのライフサイクルを通じて脆弱性の悪用を防 […]