メインコンテンツまでスキップ

AI Runtime

備考

パブリックプレビュー

単一ノードタスク用のAI Runtimeはパブリック プレビュー段階にあります。 マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。

AI Runtimeの概要

AI Runtimeは、ディープラーニングワークロードを目的としたDatabricksコンピュート オファリングであり、 Databricksサーバレスに GPU サポートをもたらします。 AI Runtime使用すると、お気に入りのフレームワークを使用してカスタム モデルをトレーニングしたり微調整したりすることができ、最先端の効率、パフォーマンス、品質を得ることができます。

主な機能

  • フルマネージド GPU インフラストラクチャ — サーバーレス、GPU への柔軟なアクセス、管理のためのクラスター構成、ドライバーの選択、またはオートスケール ポリシーは不要です。
  • ディープラーニング専用のランタイム - 依存関係に対する柔軟性を最大限に高めるための最小限のベース環境か、一般的なMLフレームワークがプリロードされたフル機能のAI環境のいずれかを選択します。
  • ノートブック、ジョブ、 Unity Catalog 、 MLflowが ネイティブに統合されて おり、シームレスな開発、データ アクセス、エクスペリメントの追跡が可能です。

ハードウェアオプション

アクセラレータ

どのようなタスクにベストなのか

マルチGPU

A10

小規模から中規模のMLおよびディープラーニング タスク (従来のMLモデルや小規模な言語モデルの微調整など)

No

H100

大規模なモデルのトレーニングや微調整、高度なディープラーニング タスクの実行などの大規模なAIワークロード

はい(GPU 8個)

推奨される使用例

Databricksは、ディープラーニング、大規模な従来型ワークロード、またはGPUを使用するカスタムモデルトレーニングのユースケースには、AI Runtimeを推奨しています。

例えば:

  • LLMファインチューニング(LoRA、QLoRA、フルファインチューニング)
  • コンピュータビジョン(物体検出、画像分類)
  • ディープラーニングベースのレコメンダー システム
  • 強化学習
  • ディープラーニングベースの時系列予測

要件

  • 以下のいずれかのAWSサポート対象リージョンにあるワークスペース:

    • us-west-2
    • us-west-1
    • us-east-1
    • us-east-2
    • ca-central-1
    • sa-east-1
  • AI Runtimeプレビューは、ワークスペースの管理設定で有効にする必要があります。 「Databricks プレビューの管理」を参照してください。

制限事項

  • AI RuntimeはA10およびH100アクセラレータのみをサポートしています。
  • AI Runtime 、コンプライアンス セキュリティ プロファイルワークスペース (HIPPA や PCI など) ではサポートされていません
  • AI Runtimeのスケジュール済みジョブでは、 環境 パネルを使用して依存関係を追加することはサポートされていません。代わりにノートブック内で%pip installを使用して、プログラムで依存関係をインストールしてください。
  • AI Runtime のスケジュール済みジョブの場合、ノートブックに関連付けられている互換性のないパッケージバージョンに対する自動復旧動作はサポートされていません。
  • ワークロードの最大ランタイムは 7 日間です。 この制限を超えるモデル トレーニング ジョブの場合は、チェックポイントを実装し、最大ランタイムに達したらジョブを再起動します。
  • AI Runtime 、GPU リソースへのオンデマンド アクセスを提供します。 これによりGPUへの容易かつ柔軟なアクセスが可能になる一方で、容量が制限される期間が生じる可能性もある。
  • AI Runtime需要が高い状況において、特定のケースでリージョンをまたいだGPUを活用します。 このような利用には、退出コストが発生する場合があります。

AI Runtimeへの接続

ノートブックからAI Runtimeに対話的に接続したり、ノートブックを定期的なジョブとしてスケジュールしたり、Jobs APIとDatabricks Asset Bundlesを使用してプログラムでジョブを作成したりできます。詳しい手順については、 AI Runtimeへの接続」を参照してください。

環境設定

AI Runtime 、2つのマネージドPython環境を提供します。最小限の ベース環境と、 PyTorchやTransformersなどの人気のあるMLフレームワークがプリロードされたフル機能のDatabricks AI環境です。 環境の選択、キャッシュの動作、カスタムモジュールのインポート、既知の制限事項の詳細については、 「環境の設定方法」を参照してください。

私のデータを読み込んでいます

AI Runtimeにおけるデータアクセスの仕組みを理解することは、スムーズな操作性を実現するために不可欠です。 詳細については、 AI Runtimeへのデータの読み込み」を参照してください。

分散型トレーニング

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

AI Runtimeノートブックが接続されている単一ノード上の複数の GPU にわたる分散トレーニングをサポートします。 serverless_gpu Python API (ベータ版) の@distributedデコレータを使用すると、最小限の設定で PyTorch DDP、FSDP、または DeepSpeed を使用したマルチ GPU ワークロードを起動できます。詳細については、 「マルチGPUワークロード」を参照してください。

経験の追跡と観察可能性

MLflow統合、ログの表示、モデルチェックポイントの管理については、拡張機能の追跡と可観測性を参照してください。

ディープラーニングのためのGenieコード

Genie Code は、 AI Runtime上のディープラーニング ワークロードをサポートします。 これは、トレーニングコードの生成、ライブラリのインストールエラーの解決、最適化の提案、および一般的な問題のデバッグに役立ちます。データサイエンスにおけるGenieコードの使用方法については、「Genieコードの使用」を参照してください。

ガイド

従来のワークロードからの移行、サンプルノートブック、およびトラブルシューティングについては、 AI Runtime のユーザーガイドを参照してください。