サーバレスGPUコンピュートガイド
従来のワークロードをサーバレスに移行する
既存のディープラーニング ワークロードをクラシックDatabricksクラスター ( Databricks Runtime MLを使用) からサーバーレス GPU コンピュートに移行する場合は、次のステップに従います。
- クラスターに依存するコードを置き換えます。 Spark ベースの分散トレーニングへの参照 (例えば、
TorchDistributor) をすべて削除し、serverless_gpuの@distributedデコレータに置き換えます。 - データ読み込みを更新中。 DBFS直接パスをUnity Catalogボリュームパス (
/Volumes/...) に置き換えます。 ローカルの Spark DataFrame 操作を Spark Connect に置き換えてください。 - 依存関係を再インストールしてください。 Databricks Runtime MLにプリインストールされているライブラリに依存しないでください。必要なすべてのパッケージに対して、明示的な
%pip installコマンドを追加します。 - チェックポイントのパスを更新します。 チェックポイントをDBFSまたはローカルストレージからUnity Catalogボリューム (
/Volumes/<catalog>/<schema>/<volume>/...) に移動します。 - MLflowの設定を更新します。 エクスペリメント名には絶対パスが使用されていることを確認し、再現性を確保するために実行名を構成してください。
- まずは対話形式でテストしてみましょう。 作業負荷をジョブとしてスケジュールする前に、インタラクティブノートブックでその内容を検証してください。
ノートブックの例
学習を始めるのに役立つサンプルノートブックのカテゴリは以下のとおりです。
カテゴリー | 説明 |
|---|---|
効率的な手法(LoRA、QLoRA)を含むファインチューニング大規模言語モデル | |
物体検出、画像分類、その他のコンピュータビジョンタスク | |
2 タワー モデルのような最新のディープラーニング アプローチを使用したレコメンデーション システムの構築 | |
XGBoostモデルのトレーニングや時系列予測を含む従来のMLタスク | |
サーバレス GPU APIを使用した複数の GPU にわたるトレーニングのスケーリング |
完全なリストについては、 「サーバレス GPU コンピュートのサンプル ノートブック」を参照してください。
トラブルシューティング
Genie Code は、ライブラリのインストール エラーの診断と修正方法の提案に役立ちます。Genie Codeを使用してコンピュート環境エラーをデバッグする」を参照してください。
ValueError: numpy.dtype のサイズが変更されました。バイナリの互換性の問題を示している可能性があります。Cヘッダーから96を期待していたが、PyObjectから88が返された。
このエラーは通常、依存パッケージのコンパイル時に使用されたNumPyバージョンと、環境に現在インストールされているNumPyバージョンが一致しない場合に発生します。 環境。 この非互換性は、NumPyのC APIの変更によって発生することが多く、特にNumPy 1.xから2.xへの移行で顕著に現れます。このエラーは、ノートブックにインストールされているPythonパッケージによってNumPyのバージョンが変更された可能性があることを示しています。
推奨ソリューション:
ランタイムでNumPyバージョンを確認し、パッケージと互換性があることを確認します。 プリインストールされたPythonライブラリの情報については、環境 4および環境 3 のサーバレス GPU コンピュート リリース ノートを参照してください。 別のバージョンのNumPyに依存関係がある場合は、その依存関係をコンピュート環境に追加します。
PyTorch のインストール時に libcudnn が見つかりません
torchの別のバージョンをインストールすると、エラーImportError: libcudnn.so.9: cannot open shared object file: No such file or directoryが表示される場合があります。これは、torch がローカル パス内の cuDNN ライブラリのみを検索するためです。
推奨ソリューション:
torchをインストールする際に--force-reinstallを追加して依存関係を再インストールしてください。
%pip install torch --force-reinstall