メインコンテンツまでスキップ

環境をセットアップする

備考

パブリックプレビュー

単一ノードタスク用のAI Runtimeはパブリック プレビュー段階にあります。 マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。

このページでは、AI Runtime 用の Python 環境の選択と設定方法について説明します。環境キャッシュの動作、カスタムモジュールのインポート、既知の制限事項なども含まれます。

どの環境を使用するか

AI Runtimeは、デフォルトの基本環境とDatabricks AI環境という2つのマネージドPython環境を提供します。

環境

主な特徴

いつ使うか

デフォルトの基本環境

最小限で、 torchcudatorchvision

依存関係スタックを完全に制御したい、必要なものだけをインストールしたい

Databricks AI環境

人気のMLフレームワーク( PyTorch 、Transformersなど)がプリロードされています。

手動による依存関係管理を必要とせずに、トレーニング、微調整、実験のための完全な環境が必要な場合

ワークスペース管理者がサーバレスGPUコンピュート用に構築したワークスペースのベース環境も使用できます。サーバレス GPU コンピュート向けビルド(AI Runtime)をご覧ください。

デフォルトの基本環境(最小環境)

AI Runtime動作に必要なパッケージのみを含む、最小限かつ安定した環境。 環境には、互換性を最適化するために、 torchcuda 、およびtorchvisionが含まれます。特定のパッケージ バージョンについては、必要に応じてpip installまたはピン留めの必要なバージョンを使用します。

最適なユーザー:依存関係スタックを完全に制御したいユーザー、必要なものだけをインストールしたいユーザー。

AI Runtime経由でサーバレスGPUに接続する場合の安心環境です。

各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。

Databricks AI環境

環境4以降で利用可能です。AI環境は、一般的なランタイムパッケージとGPU上での機械学習に特化したパッケージを備えた、デフォルトの基本環境の上に構築されています。プリインストールパッケージには以下が含まれます。

  • PyTorch(CUDA対応)
  • トランスフォーマー( Hugging Face )
  • さらに、ML/DL関連の依存関係も追加されます。

こんな方に最適: 手動による依存関係管理を必要とせずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とするML実践者。

選択するには: 環境 サイドパネルで、基本環境として AI v5 または AI v4 を選択します。

各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。

ワークスペースの基本環境

ワークスペース管理者は、サーバーレスGPUコンピュート用のワークスペースの基本環境を構築できます。これにより、ワークスペース内のすべてのユーザーが**基本環境**ドロップダウンメニューから利用できるようになります。詳細については、「サーバレス GPU コンピュート用ビルド(AI Runtime)」を参照してください。

また、提供されているベース環境(デフォルトまたはDatabricks AI)のいずれかをベースにして、ノートブック内またはトレーニングスクリプトの先頭で%pip installを使用して追加のパッケージをプログラムでインストールすることで、プロジェクトごとにディープラーニング環境を設定することもできます。

Python
%pip install datasets accelerate peft bitsandbytes

詳細については、ノートブックへの依存関係の追加を参照してください。

行動

環境情報はいつキャッシュされますか?

起動時間を短縮するために、環境設定はセッション間でキャッシュされます。同じ環境構成でAI Runtimeに再接続すると、以前にインストールされたパッケージがキャッシュから利用可能になり、セットアップ時間を短縮できます。

ただし、キャッシュの動作は保証されないため、再現性を確保するには、ノートブックに必ず必要な %pip install コマンドを含めるようにしてください。

カスタムモジュールをインポートするにはどうすればよいですか?

カスタムモジュールをインポートするには、それらを/Workspace/Sharedに配置し、パスをsys.pathに追加します。

Python
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

モジュールファイルをワークスペースファイルとしてアップロードし、直接インポートすることもできます。複数ユーザーによる共同作業の場合、共有コードはユーザー固有のフォルダではなく、 /Workspace/Sharedに保存してください。アクティブな開発の場合は、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモートGitリポジトリにプッシュします。

制限事項

AI Runtimeでは、以下の機能は利用できません。

  • Spark 関数 : PySpark 関数は直接インポートまたは使用できません。AIランタイムはPythonのみの環境です;Sparkはローカルランタイムとしては利用できません。ただし、Spark Connect はデータ読み込みに利用可能です。「AI Runtimeへのデータの読み込み」を参照してください。
  • Databricks Runtime 機械学習 ライブラリ :プリインストールされたパッケージは Databricks Runtime 機械学習 の代替ではありません。Databricks Runtime ML で利用可能な一部の機械学習ライブラリは、AI Runtime にはプリインストールされていない場合があります。
  • **プライベートなアーティファクト**:AI Runtime は特定の状況でサポートしています。詳細については、アカウントチームにお問い合わせください。