PostgreSQLをAIに活用

by Canonical on 23 April 2024

AIを扱うことはデータを扱うこと。数値データから動画や画像まで、業界や用途を問わず、AIプロジェクトは何らかの形でデータに依存します。問題は、そのデータをどうやって効率的に保管し、モデルを構築する際に使用するかです。解決策の1つは、実績があり、愛好者の多いデータベースであるPostgreSQLです。近年の開発により、AIをサポートする有力な選択肢になっています。

PostgreSQLを選ぶべき理由

PostgreSQLはオープンソースで高機能のデータベースシステムです。外部キー、サブクエリ、トリガーのほか、さまざまなユーザー定義型や関数をサポートしています。近年はデータベース分野で人気を高め、2023年には年間最優秀データベース管理システム(DBMS)に選出されました。

PostgreSQLは、FinOpsやeコマースなど、あらゆる業界に採用されています。オンライントランザクション処理、分析、地理空間データなど、さまざまなワークロードにも適合します。ソリューションの幅広い採用は、数多くの具体的なユースケースのための新しい拡張機能やライブラリの開発につながっています。機械学習もその1つです。

PostgreSQLをAIに活用

PostgreSQLには1,000種類を超える拡張機能があります。それらの拡張機能は、Postgresコアシステム内の機能上に追加機能を提供するアドオンモジュールです。地理空間データの処理から、ベクトルデータベースへのPostgreSQLの変換まで、さまざまな拡張機能を利用できます。拡張機能は分析や検索などの幅広い機能に対応します。

これらの拡張機能の柔軟性と幅広い機能は、AIプロジェクトの強化に大きな可能性をもたらします。

AIに関連性の高い拡張機能として、以下のようなものがあります。

  • Pgvectorは、PostgreSQL用のオープンソースのベクトル類似検索機能です。埋め込みの保存にも使用できます。この機能によって、OpenSearchと同様にデータベースをベクトルデータベースとして使用できます。
  • Hydraは、オープンソースのカラム型データベースです。Hydraではコードを修正しなくても数十億行単位で効率的なクエリを即座に実行できます。この機能は、MLプロジェクトで大量のデータ処理が必要な場合に役立ちます。
  • PostgresMLは、PostgreSQLの拡張機能で動作する、あらゆる機能を備えたMLOpsプラットフォームです。この機能によって、組織はデータベース内にモデルを構築できます。

MLOpsにおけるPostgreSQLの役割

MLOpsは機械学習向けのDevOpsです。KubeflowなどのMLOpsプラットフォームは、PostgreSQLをはじめとするさまざまなタイプのデータベースからデータを取り込みます。さらに、データベースを使用して、実験、ジョブ、パイプライン実行、単一スカラーメトリックにわたるメタデータなど、アーティファクトの一部を保管します。Kubeflowとデータベースは、信頼性が高い、シームレスに統合されたものである必要があります。これは、Kubeflowとデータベースの可用性が実運用環境でMLプロジェクトを実行する能力に影響を及ぼすためです。

PostgreSQLはKubeflowとの併用に最適したデータベースですが、すべてのシナリオで最良の選択であるとは限りません。実際には、MySQLなどの選択肢も有力です。使用するデータベースを選択する際は、組織にとって最適なソリューションを優先してください。

  • 既存のデータベース MLOpsプラットフォームでMySQLなどの特定のデータベースをすでに使用している場合は、PostgreSQLに変更することによって不要なオーバーヘッドが発生する可能性があります。
  • スキルセット チームのスキルや経験に合わせてデータベースを選択します。PostgreSQLの使用経験がある場合、このユースケースにはPostgreSQLを選択することが理想的です。

MySQLとPostgreSQLに関するその他の考慮事項については、こちらのホワイトペーパーをご覧ください。

Charmed PostgreSQLをAIに活用

Charmed PostgreSQL Operatorは、PostgreSQLデータベース管理システムで設計から運用までの自動化された運用管理を提供します。Charmed PostgreSQL OperatorはJuju上で動作する、オープンソースのエンドツーエンドの実運用環境に対応したデータプラットフォームです。PostgreSQLを物理マシン/仮想マシンとKubernetes上にデプロイして運用するために2つのフレーバーがあります。どちらも、レプリケーション、TLS、パスワードのローテーション、アプリケーションとの使いやすい統合などの機能を提供します。

Charmed PostgreSQL Operatorは、体系化された一貫性のある方法でPostgreSQLをデプロイするニーズに応えます。また、構成の柔軟性をユーザーに提供します。その結果、実運用環境でのPostgreSQLのデプロイ、スケーリング、構成、管理を信頼性の高い方法で大規模に簡素化できます。PostgreSQLはそれ自体がAIプロジェクトに適しています。Charmed OperatorはAIプロジェクトのレベルを引き上げ、データの保管とMLモデルの構築をさらに容易にします。

参考資料

MLOpsツールキットについて

オンプレミスAI:知っておくべきこと

企業データ管理:ビッグデータ

ニュースレターのサインアップ

Ubuntuニュースレターの配信登録

お客様が購読登録を行われる場合、以下の条件に同意されたことになります。Canonicalのプライバシーに関するお知らせ個人情報保護ポリシー

関連記事

AI対応のCephストレージ

オープンソースのCephストレージでAIビジョンを強化 今やあらゆる企業がAIの活用に関心を持っています。既存のデータから業務の分析情報や利益を引き出し、コストを削減できることから、AI技術は変化に消極的な企業にさえ驚くほどの速度で広がっています。 しかしこのような情報、節約、利益をもたらすAIシステムは大量のデータへのアクセスに依存します。性能と信頼性の高いストレージシステムがなければ、たとえ最先端のAIソリューションでも速やかに結果は出せません。しかも新しいAI関連のワークロードが既存のビジネスアプリケーションに影響を与えてはなりません。どちらも協調して動作する必要があります。 このブログ記事では、AIソリューションが必要とするストレージシステムおよび使用するデータの […]

UbuntuとNVIDIA AI WorkbenchでAI開発を加速

CanonicalはNVIDIA AI Workbenchを通じてNVIDIAとのコラボレーションを拡大します。NVIDIA AI Workbenchはワークステーション、データセンター、クラウドデプロイメントすべてでサポートされます。 NVIDIA AI Workbenchという使いやすいツールキットにより、開発者は各自のPCまたはワークステーションでAIや機械学習のモデルを作成、テスト、カスタマイズした後、データセンターやパブリッククラウドに展開できます。インタラクティブな開発ワークフローが簡素化され、初心者にも専門家にも厄介な技術的作業が自動化されます。AIとMLの共同開発が、あらゆるプラットフォームでスキルレベルを問わず可能になりました。 データサイエンス、人工知 […]

エッジAI

オープンソースで何を、なぜ、どのように実現するか エッジAIがデバイスとデータセンターの関係を大きく変える中、組織には常に最新のイノベーションの導入が求められます。AI搭載のヘルスケア機器から自動運転車まで、エッジデバイス上のAI(人工知能)はさまざまな分野で活躍します。これを踏まえて今回のブログ記事では、エッジAIプロジェクトを開始する際の検討事項、利点、課題、オープンソースの役割について考察します。 エッジAIとは エッジにおけるAI、またはエッジAIとは、人工知能とエッジコンピューティングの組み合わせを指します。エッジAIの目的は、接続されたエッジデバイス上で機械学習モデルを実行することです。これにより、デバイスは常にクラウドに接続してデータを処理しなくても、スマー […]


© 2024 Canonical Ltd. Ubuntu および Canonical は、Canonical Ltd の登録商標です。