AI Runtimeのユーザーガイド

備考

パブリックプレビュー

単一ノードタスク用のAI Runtimeはパブリックプレビュー段階にあります。マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。

このページには、移行に関する情報、サンプルノートブックへのリンク、およびトラブルシューティング情報が含まれています。

従来のGPUワークロードを移行するレス

既存のディープラーニングワークロードをクラシックDatabricksクラスター ( Databricks Runtime MLを使用) からサーバーレス ( AI Runtimeを使用) に移行する場合は、次のステップに従います。

クラスターに依存するコードを置き換えます。 Spark ベースの分散トレーニングへの参照 (例えば、 TorchDistributor ) をすべて削除し、 serverless_gpuの@distributedデコレータに置き換えます。
データ読み込みを更新中。 DBFS直接パスをUnity Catalogボリュームパス ( /Volumes/... ) に置き換えます。ローカルの Spark DataFrame 操作を Spark Connect に置き換えてください。
依存関係を再インストールしてください。 Databricks Runtime MLにプリインストールされているライブラリに依存しないでください。必要なすべてのパッケージに対して、明示的な%pip installコマンドを追加します。
チェックポイントのパスを更新します。 チェックポイントをDBFSまたはローカルストレージからUnity Catalogボリューム ( /Volumes/<catalog>/<schema>/<volume>/... ) に移動します。
MLflowの設定を更新します。 エクスペリメント名には絶対パスが使用されていることを確認し、簡単に再開できるように実行名を構成してください。
まずは対話形式でテストしてみましょう。 作業負荷をジョブとしてスケジュールする前に、インタラクティブノートブックでその内容を検証してください。

使用状況とコストを追跡する

AI Runtime GPU の使用量を監視するには、課金利用システムテーブル ( system.billing.usage ) をクエリします。以下のクエリは、GPUワークロードの合計使用量を返します。

SQL
SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

課金利用テーブルスキーマの詳細については、課金利用システムテーブルリファレンスを参照してください。

AI Runtime料金は、モデルトレーニングSKUの GPU 時間あたり、次の価格になります。

H100オンデマンド：1GPU時間あたり7.00ドル（米国東部時間）
A10オンデマンド：1GPU時間あたり2.50ドル（米国東部時間）

ノートブックの例

学習を始めるのに役立つサンプルノートブックのカテゴリは以下のとおりです。

カテゴリー	説明
大規模言語モデル（LLM）	効率的な手法（LoRA、QLoRA）を含むファインチューニング大規模言語モデル
コンピュータビジョン	物体検出、画像分類、その他のコンピュータビジョンタスク
ディープラーニング推薦システム	2 タワーモデルのような最新のディープラーニングアプローチを使用したレコメンデーションシステムの構築
クラシックML	XGBoostモデルのトレーニングや時系列予測を含む従来のMLタスク
マルチGPU分散トレーニング	サーバレス GPU APIを使用した複数の GPU にわたるトレーニングのスケーリング

完全なリストについては、 AI Runtimeノートブックを参照してください。

トラブルシューティング

Genie Code は、ライブラリのインストールエラーの診断と修正方法の提案に役立ちます。Genie Codeを使用してコンピュート環境エラーをデバッグする」を参照してください。

ValueError: numpy.dtype のサイズが変更されました。バイナリの互換性の問題を示している可能性があります。Cヘッダーから96を期待していたが、PyObjectから88が返された。

このエラーは通常、依存パッケージのコンパイル時に使用されたNumPyバージョンと、環境に現在インストールされているNumPyバージョンが一致しない場合に発生します。環境。この非互換性は、NumPyのC APIの変更によって発生することが多く、特にNumPy 1.xから2.xへの移行で顕著に現れます。このエラーは、ノートブックにインストールされているPythonパッケージによってNumPyのバージョンが変更された可能性があることを示しています。

推奨ソリューション:

ランタイムでNumPyバージョンを確認し、パッケージと互換性があることを確認します。プリインストールされたPythonライブラリの情報については、環境 4および環境 3 のサーバレス GPU コンピュートリリースノートを参照してください。別のバージョンのNumPyに依存関係がある場合は、その依存関係をコンピュート環境に追加します。

PyTorch のインストール時に libcudnn が見つかりません

torchの別のバージョンをインストールすると、エラーImportError: libcudnn.so.9: cannot open shared object file: No such file or directoryが表示される場合があります。これは、torch がローカルパス内の cuDNN ライブラリのみを検索するためです。

推奨ソリューション:

torchをインストールする際に--force-reinstallを追加して依存関係を再インストールしてください。

Python
%pip install torch --force-reinstall

従来のGPUワークロードを移行する レス​

使用状況とコストを追跡する​

ノートブックの例​

トラブルシューティング​

ValueError: numpy.dtype のサイズが変更されました。バイナリの互換性の問題を示している可能性があります。Cヘッダーから96を期待していたが、PyObjectから88が返された。​

PyTorch のインストール時に libcudnn が見つかりません​