環境をセットアップする
パブリックプレビュー
単一ノードタスク用のAI Runtimeはパブリック プレビュー段階にあります。 マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。
このページでは、AI Runtime 用の Python 環境の選択と設定方法について説明します。環境キャッシュの動作、カスタムモジュールのインポート、既知の制限事項なども含まれます。
どの環境を使用するか
AI Runtimeは、デフォルトの基本環境とDatabricks AI環境という2つのマネージドPython環境を提供します。
環境 | 主な特徴 | いつ使うか |
|---|---|---|
デフォルトの基本環境 | 最小限で、 | 依存関係スタックを完全に制御したい、必要なものだけをインストールしたい |
Databricks AI環境 | 人気のMLフレームワーク( PyTorch 、Transformersなど)がプリロードされています。 | 手動による依存関係管理を必要とせずに、トレーニング、微調整、実験のための完全な環境が必要な場合 |
ワークスペース管理者がサーバレスGPUコンピュート用に構築したワークスペースのベース環境も使用できます。サーバレス GPU コンピュート向けビルド(AI Runtime)をご覧ください。
デフォルトの基本環境(最小環境)
AI Runtime動作に必要なパッケージのみを含む、最小限かつ安定した環境。 環境には、互換性を最適化するために、 torch 、 cuda 、およびtorchvisionが含まれます。特定のパッケージ バージョンについては、必要に応じてpip installまたはピン留めの必要なバージョンを使用します。
最適なユーザー:依存関係スタックを完全に制御したいユーザー、必要なものだけをインストールしたいユーザー。
AI Runtime経由でサーバレスGPUに接続する場合の安心環境です。
各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。
Databricks AI環境
環境4以降で利用可能です。AI環境は、一般的なランタイムパッケージとGPU上での機械学習に特化したパッケージを備えた、デフォルトの基本環境の上に構築されています。プリインストールパッケージには以下が含まれます。
- PyTorch(CUDA対応)
- トランスフォーマー( Hugging Face )
- さらに、ML/DL関連の依存関係も追加されます。
こんな方に最適: 手動による依存関係管理を必要とせずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とするML実践者。
選択するには: 環境 サイドパネルで、基本環境として AI v5 または AI v4 を選択します。
各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。
ワークスペースの基本環境
ワークスペース管理者は、サーバーレスGPUコンピュート用のワークスペースの基本環境を構築できます。これにより、ワークスペース内のすべてのユーザーが**基本環境**ドロップダウンメニューから利用できるようになります。詳細については、「サーバレス GPU コンピュート用ビルド(AI Runtime)」を参照してください。
また、提供されているベース環境(デフォルトまたはDatabricks AI)のいずれかをベースにして、ノートブック内またはトレーニングスクリプトの先頭で%pip installを使用して追加のパッケージをプログラムでインストールすることで、プロジェクトごとにディープラーニング環境を設定することもできます。
%pip install datasets accelerate peft bitsandbytes
詳細については、ノートブックへの依存関係の追加を参照してください。
行動
環境情報はいつキャッシュされますか?
起動時間を短縮するために、環境設定はセッション間でキャッシュされます。同じ環境構成でAI Runtimeに再接続すると、以前にインストールされたパッケージがキャッシュから利用可能になり、セットアップ時間を短縮できます。
ただし、キャッシュの動作は保証されないため、再現性を確保するには、ノートブックに必ず必要な %pip install コマンドを含めるようにしてください。
カスタムモジュールをインポートするにはどうすればよいですか?
カスタムモジュールをインポートするには、それらを/Workspace/Sharedに配置し、パスをsys.pathに追加します。
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function
モジュールファイルをワークスペースファイルとしてアップロードし、直接インポートすることもできます。複数ユーザーによる共同作業の場合、共有コードはユーザー固有のフォルダではなく、 /Workspace/Sharedに保存してください。アクティブな開発の場合は、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモートGitリポジトリにプッシュします。
制限事項
AI Runtimeでは、以下の機能は利用できません。
- Spark 関数 : PySpark 関数は直接インポートまたは使用できません。AIランタイムはPythonのみの環境です;Sparkはローカルランタイムとしては利用できません。ただし、Spark Connect はデータ読み込みに利用可能です。「AI Runtimeへのデータの読み込み」を参照してください。
- Databricks Runtime 機械学習 ライブラリ :プリインストールされたパッケージは Databricks Runtime 機械学習 の代替ではありません。Databricks Runtime ML で利用可能な一部の機械学習ライブラリは、AI Runtime にはプリインストールされていない場合があります。
- **プライベートなアーティファクト**:AI Runtime は特定の状況でサポートしています。詳細については、アカウントチームにお問い合わせください。