AI対応のCephストレージ
by Canonical on 7 May 2024
オープンソースのCephストレージでAIビジョンを強化
今やあらゆる企業がAIの活用に関心を持っています。既存のデータから業務の分析情報や利益を引き出し、コストを削減できることから、AI技術は変化に消極的な企業にさえ驚くほどの速度で広がっています。
しかしこのような情報、節約、利益をもたらすAIシステムは大量のデータへのアクセスに依存します。性能と信頼性の高いストレージシステムがなければ、たとえ最先端のAIソリューションでも速やかに結果は出せません。しかも新しいAI関連のワークロードが既存のビジネスアプリケーションに影響を与えてはなりません。どちらも協調して動作する必要があります。
このブログ記事では、AIソリューションが必要とするストレージシステムおよび使用するデータの種類について検討します。また、AI関連のデータと標準的なビジネスデータの両方を保存する選択肢の1つとしてCephをご紹介します。
AIが必要とするストレージ
新しいAIアプリケーションは、ストレージシステムにさまざまな負担をかけ、要件を課します。ここでは新しいAIワークロードに対応するためにストレージシステムに何が必要かを説明します。
高いスループット
AIワークロードは多くのデータに高速でアクセスする必要があります。まず未処理のデータを読み、次に処理した出力を書き込みます。 数百GBps、果ては1TBps以上が求められることも少なくありません。
Cephなどのストレージソリューションは、キャッシュ機能の追加によって大量の書き込み処理に対応し、スケールアウトによってシステムスループット全体を引き上げます。
拡張性
未来のAIインフラストラクチャが現在のAIインフラストラクチャと同じとは限りません。ストレージシステムは、容量やスループットの拡張ニーズだけでなく、ハードウェアを組織のインフラストラクチャの他の場所で再利用する場合にはスケールダウンにも対応する必要があります。
柔軟性
拡張性に続き、ストレージシステムにはさまざまなAIワークロードに対応する柔軟性も必要です。すべてのデータが同等ではありません。他より重要なデータもありますし、時が経って価値が変化する場合もあります。たとえば銀行の取引データについて言えば、利用者は最初の30~60日に残高の確認や月末の明細表示を利用することが多く、3年後はそれほどでもありません。それでもデータを保管し、必要なときにアクセスできるようにすることは重要です。
したがってストレージシステムは複数のストレージ層を提供してこのニーズに対応する必要があります。Cephのようなストレージシステムではユーザーが異種のハードウェアを組み合わせ、システムニーズに応じて混用することができます。
信頼性
ストレージシステムの最も重要な役割はデータの保存です。性能が高くてもデータ保存の信頼性が低いストレージシステムは役立たずです。データを生成あるいは処理しても後で取得できないなら意味がありません。Cephのようなソリューションではユーザーが保護方針に応じて複製やイレイジャーコーディングを選択できます。ビジネス価値と保存コストのバランスを取るシステム構成が必要だからです。
AIデータの種類
質の高いストレージシステムに必要な特性を理解したところで、AIアプリケーションの一般的なデータの種類を考えてみましょう。AIデータは1種類ではありません。AIモデルの開発、トレーニング、デプロイのさまざまな段階で複数の種類のデータが使用されます。
未処理および前処理済みのデータ
これは、チャットツール、メールアーカイブ、CCTVの録画、サポートコールの録音、自動運転車のテレメトリなど、あらゆるアプリケーションやシステムから抽出/取得されたソースデータです。データには、データベースのテーブル、テキスト、画像、音声、動画などあらゆる形態があります。
システムから抽出されたこのようなデータは一般に、トレーニングに利用しやすいよう前処理されます。前処理によって後で重複する処理を省くこともでき、時間とコンピューティングリソースが節約されます。規制コンプライアンスの目的でデータを匿名化するデータセット前処理もあります。
トレーニング用のデータセット
トレーニング用のデータセットとは一般に、AIモデルのトレーニングに使用される前処理済みのデータです。このデータセットの優れた点は、期待されるモデル出力がすでに定義されていることです。これらのデータセットを保存すれば、モデルの改良やパフォーマンスの評価に使用できます。
モデル
AIモデルの構造(階層やノード)は、モデルを将来的に再デプロイできるよう確実に保存する必要があります。また、AIモデルにはモデルのトレーニング中に調整可能なパラメータや重みが含まれます。将来的にこれらの変数を調整すれば、モデルの微調整や推論ロールでのデプロイが可能となります。
結果
これは、インポート、前処理、トレーニング、デプロイの全段階で最も重要です。出力、つまり推論データは一般に最もビジネスに有用なデータであり、いつでも使えるよう保存する必要があります。監査や将来の改良のために長く保持する場合もあります。
AIストレージのオープンソースオプション
求めるものすべて(コスト、速度、柔軟性、拡張性、多種多様なデータセットや種類のサポート)を備えたストレージソリューションはなかなかありません。プロプライエタリのストレージは柔軟性に欠け、パブリッククラウドサービスは事業の成長とともにコストがかさみます。この2つの分野ではインハウスのオープンソースソリューションが最適解となるでしょう。
CanonicalのCephは、エッジから大規模なAIモデリングまであらゆる規模とワークロード、そしてあらゆるストレージプロトコルに対応するストレージソリューションです。パフォーマンス、容量、アクセスニーズの異なる混合ワークロードもすべて1つのクラスターで対応できます。Cephのスケールアウト性を生かし、ハードウェアを段階的に追加してパフォーマンスや容量のニーズを満たすことも可能です。
ブロック
ブロックストレージが必要な場合は、拡張性の高いマルチパスネイティブのブロックトランスポートであるRADOS Block Device(RBD)プロトコルを使用できます。レガシー環境をサポートするため、ゲートウェイ経由でiSCSIにも対応します。将来のリリースではNVMeoFもサポートされる予定です。
ファイル
共有ファイルのストレージには、CephFS(CephのネイティブPOSIX互換プロトコル)またはNFSプロトコル(ゲートウェイ経由)のいずれかを使用します。
オブジェクト
Cephクラスターでは、S3 APIとSwift APIの両方と互換性のあるオブジェクトストレージAPIも完全にサポートされています。
その他のリソース
- Cephとは
- ホワイトペーパー – 企業向けのソフトウェア定義ストレージに関するガイド
- ブログ – Cephのセキュリティ機能でデータを保護
- ブログ – CentOSのサポート終了(EOL)– Cephストレージへの影響は?
- ブログ – MicroCephを使用したエッジストレージ
その他の情報
Canonicalのオープンソースインフラストラクチャソリューションについてお読みください。
ニュースレターのサインアップ
関連記事
公共セクターにおけるクラウドストレージのコスト
他の多くの業界と同様、公共セクターでもクラウドコンピューティングの柔軟性が注目されています。最近の問題は予測不能なコストの上昇ですが、この大部分は慎重な計画とオンプレミスのインフラストラクチャによって軽減できます。 政府の指針では、全アプリケーションをクラウドに移行するという一律的な方法ではなく、それぞれの問題に最も適切な解決策を選ぶという戦略への切り替えが推奨されています。 このブログ記事では、公共セクターの組織が直面するいくつかの課題、そしてコスト効果、拡張性、コンプライアンスを確保する方法を検討します。 クラウドストレージ クラウドコンピューティングは、ここ20年間で世界を席巻しました。拡張性、柔軟性、オンデマンドというパブリッククラウドの特性は無敵です。しかしその […]
データを中心としたAIの進化:MAASとNVIDIAスマートNICの組み合わせ
Canonicalは数年前から、製品へのNVIDIAスマートNICのサポートの実装に取り組んでいます。その一環であるCanonicalのMetal-as-a-Service(MAAS)は、ベアメタルサーバー上でスマートNICの管理と制御を可能にするものです。NVIDIAのBlueFieldスマートNICは、データ速度が非常に高く、高度なソフトウェア定義のデータ中心型インフラストラクチャサービスを提供するネットワークインターフェイスカードです。BlueFieldスマートNICは、専用の高性能ネットワークASIC(特定アプリケーション向け集積回路)と強力な汎用CPU、RAMを搭載しています。そしてネットワーク機能の高速化、ハードウェアの負荷軽減、隔離により、革新的なネットワー […]
マネージドAIインフラストラクチャに関するガイド
AIの導入を促進し、セキュリティを高めるマネージドAIインフラストラクチャについて、最新のエグゼクティブガイドでご紹介します。 企業にとってビジネスプロセスにAIを組み込むことはもはや不可欠です。しかし予測不能なコスト、業界における人材不足、製品の膨大な選択肢によって導入の意味が薄れ、最悪の場合は損失にもなりかねません。 どんなプロジェクトでもAIの導入における最大の困難は、モデルやアプリケーションを支える基礎的なスタック、つまりAIインフラストラクチャの運用です。機械学習ツールは、通常のクラウドインフラストラクチャと似ていますが、専門的な運用によって信頼性と拡張性を維持する必要があります。そしてそのスキルを持つ人材は少なく、人件費も高価です。適切な作業を怠れば、企業、モ […]