環境設定方法
パブリックプレビュー
単一ノードタスク用のAI Runtimeはパブリック プレビュー段階にあります。 マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。
このページでは、AI Runtime 用の Python 環境の選択と設定方法について説明します。環境キャッシュの動作、カスタムモジュールのインポート、既知の制限事項なども含まれます。
どの環境を使用するか
AI Runtimeは、デフォルトの基本環境とDatabricks AI環境という2つのマネージドPython環境を提供します。
環境 | 主な特徴 | いつ使うか |
|---|---|---|
デフォルトの基本環境 | 最小限で、 | 依存関係スタックを完全に制御したい、必要なものだけをインストールしたい |
Databricks AI環境 | 人気のMLフレームワーク( PyTorch 、Transformersなど)がプリロードされています。 | 手動による依存関係管理を必要とせずに、トレーニング、微調整、実験のための完全な環境が必要な場合 |
AI Runtimeでは、ワークスペースの基本環境はサポートされていません。代わりに、デフォルトまたは AI 環境を使用し、追加の依存関係を環境サイド パネルで直接指定するか、 pip installしてください。
デフォルトの基本環境(最小環境)
AI Runtime動作に必要なパッケージのみを含む、最小限かつ安定した環境。 環境には、互換性を最適化するために、 torch 、 cuda 、およびtorchvisionが含まれます。特定のパッケージ バージョンについては、必要に応じてpip installまたはピン留めの必要なバージョンを使用します。
最適なユーザー:依存関係スタックを完全に制御したいユーザー、必要なものだけをインストールしたいユーザー。
AI Runtime経由でサーバレスGPUに接続する場合の安心環境です。
各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。
Databricks AI環境
環境4以降で利用可能です。AI環境は、一般的なランタイムパッケージとGPU上での機械学習に特化したパッケージを備えた、デフォルトの基本環境の上に構築されています。プリインストールパッケージには以下が含まれます。
- PyTorch(CUDA対応)
- トランスフォーマー( Hugging Face )
- さらに、ML/DL関連の依存関係も追加されます。
こんな方に最適: 手動による依存関係管理を必要とせずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とするML実践者。
選択するには: 環境 サイドパネルで、基本環境として AI v4 を選択します。
各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。
ワークスペースの基本環境
AI Runtimeでは、ワークスペースの基本環境はサポートされていません。カスタムのワークスペースレベルの環境設定は使用できません。
プロジェクト用にディープラーニング環境を構成するには、提供されている 2 つの基本環境 (デフォルトまたは Databricks AI) のいずれかを使用し、ノートブック内またはトレーニングスクリプトの先頭で%pip installを使用して追加パッケージをプログラムでインストールします。
%pip install datasets accelerate peft bitsandbytes
AI Runtime環境に追加のライブラリをインストールできます。 ノートブックに依存関係を追加する方法については、こちらをご覧ください。
行動
環境情報はいつキャッシュされますか?
起動時間を短縮するために、環境設定はセッション間でキャッシュされます。同じ環境構成でAI Runtimeに再接続すると、以前にインストールされたパッケージがキャッシュから利用可能になり、セットアップ時間を短縮できます。
ただし、キャッシュの動作は保証されません。再現性を確保するために、ノートブックには必ず必要な%pip installコマンドが含まれていることを確認してください。
カスタムモジュールをインポートするにはどうすればよいですか?
カスタムモジュールをインポートするには、それらを/Workspace/Sharedに配置し、パスをsys.pathに追加します。
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function
モジュールファイルをワークスペースファイルとしてアップロードし、直接インポートすることもできます。複数ユーザーによる共同作業の場合、共有コードはユーザー固有のフォルダではなく、 /Workspace/Sharedに保存してください。アクティブな開発の場合は、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモートGitリポジトリにプッシュします。
制限事項
AI Runtimeでは、以下の機能は利用できません。
- Spark関数 — PySpark関数を直接インポートしたり使用したりすることはできません。AI RuntimeはPython専用の環境であり、Sparkはローカルランタイムとしては利用できません。ただし、データロードにはSpark Connectが利用可能です。AI Runtimeへのデータの読み込みを参照してください。
- Databricks Runtime MLライブラリ - プレインストールされたパッケージはDatabricks Runtime MLの代わりにはなりません。 Databricks Runtime MLで利用可能な一部のMLライブラリは、 AI Runtimeにプリインストールされていない場合があります。
- ワークスペースベース環境 — カスタムのワークスペースレベルの環境構成はサポートされていません。
- プライベートアーティファクト — AI Runtime は、特定のケースにおいてプライベートアーティファクトをサポートします。詳細については、担当のアカウントチームにお問い合わせください。