メインコンテンツまでスキップ

環境設定

この記事では、環境キャッシュの動作、カスタム モジュールのインポート、既知の制限など、サーバレス GPU コンピュート用のPython環境を選択して構成する方法について説明します。

どの環境を使用するか

サーバーレス GPU コンピュートは、2 つのマネージドPython環境を提供します。

注記

ワークスペースベース環境はサーバレスGPUコンピュートには対応しておりません。 代わりに、デフォルトまたは AI 環境を使用し、追加の依存関係を環境サイド パネルで直接指定するか、 pip installしてください。

デフォルトの基本環境(最低限の構成)

サーバレス GPU コンピュートの動作に必要なパッケージのみを含む最小限の安定した環境。 環境には、互換性を最適化するために、 torchcuda 、およびtorchvisionが含まれます。これにより、Databricksはサーバーを独立してアップグレードすることができ、ワークロードのコード変更を必要とせずに、パフォーマンスの向上、セキュリティの強化、バグ修正を提供できます。

最適なユーザー:依存関係スタックを完全に制御したいユーザー、必要なものだけをインストールしたいユーザー。

サーバレスGPUコンピュートに接続する場合の安心環境です。

各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。

Databricks AI環境

利用可能な環境: レス GPU環境4以降。 AI環境は、一般的なランタイムパッケージとGPU上での機械学習に特化したパッケージを備えた、デフォルトの基本環境の上に構築されています。プリインストールパッケージには以下が含まれます。

  • PyTorch(CUDA対応)
  • トランスフォーマー( Hugging Face )
  • LangChain
  • XGBoost
  • さらに、ML/DL関連の依存関係も追加されます。

こんな方に最適: 手動による依存関係管理を必要とせずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とするML実践者。

選択するには: 環境 サイドパネルで、基本環境として AI v4 を選択します。

各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。

ワークスペースの基本環境

ワークスペースベース環境はサーバレスGPUコンピュートには対応しておりません。 カスタムのワークスペースレベルの環境設定は使用できません。

プロジェクト用にディープラーニング環境を構成するには、提供されている 2 つの基本環境 (デフォルトまたは Databricks AI) のいずれかを使用し、ノートブック内またはトレーニングスクリプトの先頭で%pip installを使用して追加パッケージをプログラムでインストールします。

Python
%pip install datasets accelerate peft bitsandbytes

サーバレスGPUコンピュート環境に追加ライブラリをインストールできます。 ノートブックに依存関係を追加する方法については、こちらをご覧ください。

行動

環境情報はいつキャッシュされますか?

起動時間を短縮するために、環境設定はセッション間でキャッシュされます。同じ環境構成でサーバレス GPU コンピュートに再接続すると、以前にインストールしたパッケージがキャッシュから利用できる場合があり、セットアップ時間が短縮されます。

ただし、キャッシュの動作は保証されません。再現性を確保するために、ノートブックには必ず必要な%pip installコマンドが含まれていることを確認してください。

カスタムモジュールをインポートするにはどうすればよいですか?

カスタムモジュールをインポートするには、それらを/Workspace/Sharedに配置し、パスをsys.pathに追加します。

Python
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

モジュールファイルをワークスペースファイルとしてアップロードし、直接インポートすることもできます。複数ユーザーによる共同作業の場合、共有コードはユーザー固有のフォルダではなく、 /Workspace/Sharedに保存してください。アクティブな開発の場合は、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモートGitリポジトリにプッシュします。

制限事項

次の機能は、サーバレス GPU コンピュートでは使用できません。

  • Spark関数 — PySpark関数を直接インポートしたり使用したりすることはできません。サーバレス GPU コンピュートはPythonのみの環境です。 Sparkはローカル ランタイムとしては利用できません。 ただし、データロードにはSpark Connectが利用可能です。「サーバレス GPU コンピュートでのデータのロード」を参照してください。
  • Databricks Runtime MLライブラリ - プレインストールされたパッケージはDatabricks Runtime MLの代わりにはなりません。 Databricks Runtime MLで利用可能な一部のMLライブラリは、サーバレス GPU コンピュートにプリインストールされていない場合があります。
  • ワークスペースベース環境 — カスタムのワークスペースレベルの環境構成はサポートされていません。
  • PrivateLinkに依存するパッケージ( PrivateLinkの背後にあるリポジトリからのpip install )は失敗します。