AI Runtime

備考

パブリックプレビュー

単一ノードタスク用のAI Runtimeはパブリックプレビュー段階にあります。マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。

AI Runtimeの概要

AI Runtimeは、ディープラーニングワークロードを目的としたDatabricksコンピュートオファリングであり、 Databricksサーバレスに GPU サポートをもたらします。 AI Runtimeを使用すると、お気に入りのフレームワークを使用してカスタムモデルをトレーニングしたり微調整したりすることができ、最先端の効率、パフォーマンス、品質を得ることができます。サーバレスコンピュートがDatabricksアーキテクチャにどのように適合するかの概要については、「サーバレスワークスペースアーキテクチャ」を参照してください。

主な機能

フルマネージド GPU インフラストラクチャ — サーバーレス、GPU への柔軟なアクセス、管理のためのクラスター構成、ドライバーの選択、またはオートスケールポリシーは不要です。
ディープラーニング専用のランタイム - 依存関係に対する柔軟性を最大限に高めるための最小限のベース環境か、一般的なMLフレームワークがプリロードされたフル機能のAI環境のいずれかを選択します。
ノートブック、ジョブ、 Unity Catalog 、 MLflowが ネイティブに統合されて おり、シームレスな開発、データアクセス、エクスペリメントの追跡が可能です。

ハードウェアオプション

アクセラレータ	どのようなタスクにベストなのか	マルチGPU
A10	小規模から中規模のMLおよびディープラーニングタスク (従来のMLモデルや小規模な言語モデルの微調整など)	No
H100	大規模なモデルのトレーニングや微調整、高度なディープラーニングタスクの実行などの大規模なAIワークロード	はい（GPU 8個）

推奨される使用例

Databricksは、ディープラーニング、大規模な従来型ワークロード、またはGPUを使用するカスタムモデルトレーニングのユースケースには、AI Runtimeを推奨しています。

例えば：

LLMファインチューニング（LoRA、QLoRA、フルファインチューニング）
コンピュータビジョン（物体検出、画像分類）
ディープラーニングベースのレコメンダーシステム
強化学習
ディープラーニングベースの時系列予測

要件

以下のいずれかのAWSサポート対象リージョンにあるワークスペース：
- us-west-2
- us-west-1
- us-east-1
- us-east-2
- ca-central-1
- sa-east-1
AI Runtimeプレビューは、ワークスペースの管理設定で有効にする必要があります。「Databricks プレビューの管理」を参照してください。

制限事項

AI RuntimeはA10およびH100アクセラレータのみをサポートしています。
AI Runtimeは コンプライアンスセキュリティプロファイルワークスペース (HIPPA や PCI など) ではサポートされていません 。
AI Runtimeのスケジュール済みジョブでは、環境パネルを使用して依存関係を追加することはサポートされていません。代わりにノートブック内で%pip installを使用して、プログラムで依存関係をインストールしてください。
AI Runtime のスケジュール済みジョブの場合、ノートブックに関連付けられている互換性のないパッケージバージョンに対する自動復旧動作はサポートされていません。
ワークロードの最大ランタイムは 7 日間です。この制限を超えるモデルトレーニングジョブの場合は、チェックポイントを実装し、最大ランタイムに達したらジョブを再起動します。
AI Runtimeは、GPU リソースへのオンデマンドアクセスを提供します。これによりGPUへの容易かつ柔軟なアクセスが可能になりますが、お住まいの地域では容量が制限されたり、利用できなくなる期間が生じる可能性があります。
AI Runtimeは需要が高い状況において、特定のケースでリージョンをまたいだGPUを活用します。このような利用には、エグレスコストが発生する場合があります。

AI Runtimeに接続する

ノートブックからAI Runtimeに対話的に接続したり、ノートブックを定期的なジョブとしてスケジュールしたり、Jobs APIとDatabricks Asset Bundlesを使用してプログラムでジョブを作成したりできます。詳しい手順については、 AI Runtimeへの接続を参照してください。

環境設定

AI Runtimeは、2つのマネージドPython環境を提供します。最小限のベース環境と、 PyTorchやTransformersなどの人気のあるMLフレームワークがプリロードされたフル機能のDatabricks AI環境です。環境の選択、キャッシュの動作、カスタムモジュールのインポート、既知の制限事項の詳細については、「環境の設定」を参照してください。

データを読み込む

AI Runtimeにおけるデータアクセスの仕組みを理解することは、スムーズな操作性を実現するために不可欠です。詳細については、 AI Runtimeへのデータの読み込みを参照してください。

分散型トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

AI Runtimeノートブックが接続されている単一ノード上の複数の GPU にわたる分散トレーニングをサポートします。 serverless_gpu Python API (ベータ版) の@distributedデコレータを使用すると、最小限の設定で PyTorch DDP、FSDP、または DeepSpeed を使用したマルチ GPU ワークロードを起動できます。詳細については、「マルチGPUワークロード」を参照してください。

実験の追跡と観察可能性

MLflow統合、ログの表示、モデルチェックポイントの管理については、拡張機能の追跡と可観測性を参照してください。

ディープラーニングのためのGenie Code

Genie Code は、 AI Runtime上のディープラーニングワークロードをサポートします。これは、トレーニングコードの生成、ライブラリのインストールエラーの解決、最適化の提案、および一般的な問題のデバッグに役立ちます。データサイエンスにおけるGenie Codeの使用方法については、「Genie Codeの使用」を参照してください。

ガイド

従来のワークロードからの移行、サンプルノートブック、およびトラブルシューティングについては、 AI Runtime のユーザーガイドを参照してください。

AI Runtimeの概要​

主な機能​

ハードウェアオプション​

推奨される使用例​

要件​

制限事項​

AI Runtimeに接続する​

環境設定​

データを読み込む​

分散型トレーニング​

実験の追跡と観察可能性​

ディープラーニングのためのGenie Code​

ガイド​