メインコンテンツまでスキップ

サーバレスGPUコンピュートガイド

従来のワークロードをサーバレスに移行する

既存のディープラーニング ワークロードをクラシックDatabricksクラスター ( Databricks Runtime MLを使用) からサーバーレス GPU コンピュートに移行する場合は、次のステップに従います。

  1. クラスターに依存するコードを置き換えます。 Spark ベースの分散トレーニングへの参照 (例えば、 TorchDistributor ) をすべて削除し、 serverless_gpu@distributedデコレータに置き換えます。
  2. データ読み込みを更新中。 DBFS直接パスをUnity Catalogボリュームパス ( /Volumes/... ) に置き換えます。 ローカルの Spark DataFrame 操作を Spark Connect に置き換えてください。
  3. 依存関係を再インストールしてください。 Databricks Runtime MLにプリインストールされているライブラリに依存しないでください。必要なすべてのパッケージに対して、明示的な%pip installコマンドを追加します。
  4. チェックポイントのパスを更新します。 チェックポイントをDBFSまたはローカルストレージからUnity Catalogボリューム ( /Volumes/<catalog>/<schema>/<volume>/... ) に移動します。
  5. MLflowの設定を更新します。 エクスペリメント名には絶対パスが使用されていることを確認し、再現性を確保するために実行名を構成してください。
  6. まずは対話形式でテストしてみましょう。 作業負荷をジョブとしてスケジュールする前に、インタラクティブノートブックでその内容を検証してください。

ノートブックの例

学習を始めるのに役立つサンプルノートブックのカテゴリは以下のとおりです。

カテゴリー

説明

大規模言語モデル(LLM)

効率的な手法(LoRA、QLoRA)を含むファインチューニング大規模言語モデル

コンピュータビジョン

物体検出、画像分類、その他のコンピュータビジョンタスク

ディープラーニング推薦システム

2 タワー モデルのような最新のディープラーニング アプローチを使用したレコメンデーション システムの構築

クラシックML

XGBoostモデルのトレーニングや時系列予測を含む従来のMLタスク

マルチGPU分散トレーニング

サーバレス GPU APIを使用した複数の GPU にわたるトレーニングのスケーリング

完全なリストについては、 「サーバレス GPU コンピュートのサンプル ノートブック」を参照してください。

トラブルシューティング

Genie Code は、ライブラリのインストール エラーの診断と修正方法の提案に役立ちます。Genie Codeを使用してコンピュート環境エラーをデバッグする」を参照してください。

ValueError: numpy.dtype のサイズが変更されました。バイナリの互換性の問題を示している可能性があります。Cヘッダーから96を期待していたが、PyObjectから88が返された。

このエラーは通常、依存パッケージのコンパイル時に使用されたNumPyバージョンと、環境に現在インストールされているNumPyバージョンが一致しない場合に発生します。 環境。 この非互換性は、NumPyのC APIの変更によって発生することが多く、特にNumPy 1.xから2.xへの移行で顕著に現れます。このエラーは、ノートブックにインストールされているPythonパッケージによってNumPyのバージョンが変更された可能性があることを示しています。

推奨ソリューション:

ランタイムでNumPyバージョンを確認し、パッケージと互換性があることを確認します。 プリインストールされたPythonライブラリの情報については、環境 4および環境 3 のサーバレス GPU コンピュート リリース ノートを参照してください。 別のバージョンのNumPyに依存関係がある場合は、その依存関係をコンピュート環境に追加します。

PyTorch のインストール時に libcudnn が見つかりません

torchの別のバージョンをインストールすると、エラーImportError: libcudnn.so.9: cannot open shared object file: No such file or directoryが表示される場合があります。これは、torch がローカル パス内の cuDNN ライブラリのみを検索するためです。

推奨ソリューション:

torchをインストールする際に--force-reinstallを追加して依存関係を再インストールしてください。

Python
%pip install torch --force-reinstall