AI Runtime
パブリックプレビュー
単一ノードタスク用のAI Runtimeはパブリック プレビュー段階にあります。 マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。
AI Runtimeの概要
AI Runtimeは、ディープラーニングワークロードを目的としたDatabricksコンピュート オファリングであり、 Databricksサーバレスに GPU サポートをもたらします。 AI Runtime使用すると、お気に入りのフレームワークを使用してカスタム モデルをトレーニングしたり微調整したりすることができ、最先端の効率、パフォーマンス、品質を得ることができます。
主な機能
- フルマネージド GPU インフラストラクチャ — サーバーレス、GPU への柔軟なアクセス、管理のためのクラスター構成、ドライバーの選択、またはオートスケール ポリシーは不要です。
- ディープラーニング専用のランタイム - 依存関係に対する柔軟性を最大限に高めるための最小限のベース環境か、一般的なMLフレームワークがプリロードされたフル機能のAI環境のいずれかを選択します。
- ノートブック、ジョブ、 Unity Catalog 、 MLflowが ネイティブに統合されて おり、シームレスな開発、データ アクセス、エクスペリメントの追跡が可能です。
ハードウェアオプション
アクセラレータ | どのようなタスクにベストなのか | マルチGPU |
|---|---|---|
A10 | 小規模から中規模のMLおよびディープラーニング タスク (従来のMLモデルや小規模な言語モデルの微調整など) | No |
H100 | 大規模なモデルのトレーニングや微調整、高度なディープラーニング タスクの実行などの大規模なAIワークロード | はい(GPU 8個) |
推奨される使用例
Databricksは、ディープラーニング、大規模な従来型ワークロード、またはGPUを使用するカスタムモデルトレーニングのユースケースには、AI Runtimeを推奨しています。
例えば:
- LLMファインチューニング(LoRA、QLoRA、フルファインチューニング)
- コンピュータビジョン(物体検出、画像分類)
- ディープラーニングベースのレコメンダー システム
- 強化学習
- ディープラーニングベースの時系列予測
要件
-
以下のいずれかのAWSサポート対象リージョンにあるワークスペース:
us-west-2us-west-1us-east-1us-east-2ca-central-1sa-east-1
-
AI Runtimeプレビューは、ワークスペースの管理設定で有効にする必要があります。 「Databricks プレビューの管理」を参照してください。
制限事項
- AI RuntimeはA10およびH100アクセラレータのみをサポートしています。
- AI Runtime 、コンプライアンス セキュリティ プロファイルワークスペース (HIPPA や PCI など) ではサポートされていません 。
- AI Runtimeのスケジュール済みジョブでは、 環境 パネルを使用して依存関係を追加することはサポートされていません。代わりにノートブック内で
%pip installを使用して、プログラムで依存関係をインストールしてください。 - AI Runtime のスケジュール済みジョブの場合、ノートブックに関連付けられている互換性のないパッケージバージョンに対する自動復旧動作はサポートされていません。
- ワークロードの最大ランタイムは 7 日間です。 この制限を超えるモデル トレーニング ジョブの場合は、チェックポイントを実装し、最大ランタイムに達したらジョブを再起動します。
- AI Runtime 、GPU リソースへのオンデマンド アクセスを提供します。 これによりGPUへの容易かつ柔軟なアクセスが可能になる一方で、容量が制限される期間が生じる可能性もある。
- AI Runtime需要が高い状況において、特定のケースでリージョンをまたいだGPUを活用します。 このような利用には、退出コストが発生する場合があります。
AI Runtimeへの接続
ノートブックからAI Runtimeに対話的に接続したり、ノートブックを定期的なジョブとしてスケジュールしたり、Jobs APIとDatabricks Asset Bundlesを使用してプログラムでジョブを作成したりできます。詳しい手順については、 AI Runtimeへの接続」を参照してください。
環境設定
AI Runtime 、2つのマネージドPython環境を提供します。最小限の ベース環境と、 PyTorchやTransformersなどの人気のあるMLフレームワークがプリロードされたフル機能のDatabricks AI環境です。 環境の選択、キャッシュの動作、カスタムモジュールのインポート、既知の制限事項の詳細については、 「環境の設定方法」を参照してください。
私のデータを読み込んでいます
AI Runtimeにおけるデータアクセスの仕組みを理解することは、スムーズな操作性を実現するために不可欠です。 詳細については、 AI Runtimeへのデータの読み込み」を参照してください。
分散型トレーニング
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。
AI Runtimeノートブックが接続されている単一ノード上の複数の GPU にわたる分散トレーニングをサポートします。 serverless_gpu Python API (ベータ版) の@distributedデコレータを使用すると、最小限の設定で PyTorch DDP、FSDP、または DeepSpeed を使用したマルチ GPU ワークロードを起動できます。詳細については、 「マルチGPUワークロード」を参照してください。
経験の追跡と観察可能性
MLflow統合、ログの表示、モデルチェックポイントの管理については、拡張機能の追跡と可観測性を参照してください。
ディープラーニングのためのGenieコード
Genie Code は、 AI Runtime上のディープラーニング ワークロードをサポートします。 これは、トレーニングコードの生成、ライブラリのインストールエラーの解決、最適化の提案、および一般的な問題のデバッグに役立ちます。データサイエンスにおけるGenieコードの使用方法については、「Genieコードの使用」を参照してください。
ガイド
従来のワークロードからの移行、サンプルノートブック、およびトラブルシューティングについては、 AI Runtime のユーザーガイドを参照してください。