環境設定
この記事では、環境キャッシュの動作、カスタム モジュールのインポート、既知の制限など、サーバレス GPU コンピュート用のPython環境を選択して構成する方法について説明します。
どの環境を使用するか
サーバーレス GPU コンピュートは、2 つのマネージドPython環境を提供します。
ワークスペースベース環境はサーバレスGPUコンピュートには対応しておりません。 代わりに、デフォルトまたは AI 環境を使用し、追加の依存関係を環境サイド パネルで直接指定するか、 pip installしてください。
デフォルトの基本環境(最低限の構成)
サーバレス GPU コンピュートの動作に必要なパッケージのみを含む最小限の安定した環境。 環境には、互換性を最適化するために、 torch 、 cuda 、およびtorchvisionが含まれます。これにより、Databricksはサーバーを独立してアップグレードすることができ、ワークロードのコード変更を必要とせずに、パフォーマンスの向上、セキュリティの強化、バグ修正を提供できます。
最適なユーザー:依存関係スタックを完全に制御したいユーザー、必要なものだけをインストールしたいユーザー。
サーバレスGPUコンピュートに接続する場合の安心環境です。
各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。
Databricks AI環境
利用可能な環境: レス GPU環境4以降。 AI環境は、一般的なランタイムパッケージとGPU上での機械学習に特化したパッケージを備えた、デフォルトの基本環境の上に構築されています。プリインストールパッケージには以下が含まれます。
- PyTorch(CUDA対応)
- トランスフォーマー( Hugging Face )
- LangChain
- XGBoost
- さらに、ML/DL関連の依存関係も追加されます。
こんな方に最適: 手動による依存関係管理を必要とせずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とするML実践者。
選択するには: 環境 サイドパネルで、基本環境として AI v4 を選択します。
各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。
ワークスペースの基本環境
ワークスペースベース環境はサーバレスGPUコンピュートには対応しておりません。 カスタムのワークスペースレベルの環境設定は使用できません。
プロジェクト用にディープラーニング環境を構成するには、提供されている 2 つの基本環境 (デフォルトまたは Databricks AI) のいずれかを使用し、ノートブック内またはトレーニングスクリプトの先頭で%pip installを使用して追加パッケージをプログラムでインストールします。
%pip install datasets accelerate peft bitsandbytes
サーバレスGPUコンピュート環境に追加ライブラリをインストールできます。 ノートブックに依存関係を追加する方法については、こちらをご覧ください。
行動
環境情報はいつキャッシュされますか?
起動時間を短縮するために、環境設定はセッション間でキャッシュされます。同じ環境構成でサーバレス GPU コンピュートに再接続すると、以前にインストールしたパッケージがキャッシュから利用できる場合があり、セットアップ時間が短縮されます。
ただし、キャッシュの動作は保証されません。再現性を確保するために、ノートブックには必ず必要な%pip installコマンドが含まれていることを確認してください。
カスタムモジュールをインポートするにはどうすればよいですか?
カスタムモジュールをインポートするには、それらを/Workspace/Sharedに配置し、パスをsys.pathに追加します。
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function
モジュールファイルをワークスペースファイルとしてアップロードし、直接インポートすることもできます。複数ユーザーによる共同作業の場合、共有コードはユーザー固有のフォルダではなく、 /Workspace/Sharedに保存してください。アクティブな開発の場合は、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモートGitリポジトリにプッシュします。
制限事項
次の機能は、サーバレス GPU コンピュートでは使用できません。
- Spark関数 — PySpark関数を直接インポートしたり使用したりすることはできません。サーバレス GPU コンピュートはPythonのみの環境です。 Sparkはローカル ランタイムとしては利用できません。 ただし、データロードにはSpark Connectが利用可能です。「サーバレス GPU コンピュートでのデータのロード」を参照してください。
- Databricks Runtime MLライブラリ - プレインストールされたパッケージはDatabricks Runtime MLの代わりにはなりません。 Databricks Runtime MLで利用可能な一部のMLライブラリは、サーバレス GPU コンピュートにプリインストールされていない場合があります。
- ワークスペースベース環境 — カスタムのワークスペースレベルの環境構成はサポートされていません。
- PrivateLinkに依存するパッケージ( PrivateLinkの背後にあるリポジトリからの
pip install)は失敗します。