メインコンテンツまでスキップ

環境設定方法

備考

パブリックプレビュー

単一ノードタスク用のAI Runtimeはパブリック プレビュー段階にあります。 マルチ GPU ワークロード用の分散トレーニングAPIベータ版のままです。

このページでは、AI Runtime 用の Python 環境の選択と設定方法について説明します。環境キャッシュの動作、カスタムモジュールのインポート、既知の制限事項なども含まれます。

どの環境を使用するか

AI Runtimeは、デフォルトの基本環境とDatabricks AI環境という2つのマネージドPython環境を提供します。

環境

主な特徴

いつ使うか

デフォルトの基本環境

最小限で、 torchcudatorchvision

依存関係スタックを完全に制御したい、必要なものだけをインストールしたい

Databricks AI環境

人気のMLフレームワーク( PyTorch 、Transformersなど)がプリロードされています。

手動による依存関係管理を必要とせずに、トレーニング、微調整、実験のための完全な環境が必要な場合

注記

AI Runtimeでは、ワークスペースの基本環境はサポートされていません。代わりに、デフォルトまたは AI 環境を使用し、追加の依存関係を環境サイド パネルで直接指定するか、 pip installしてください。

デフォルトの基本環境(最小環境)

AI Runtime動作に必要なパッケージのみを含む、最小限かつ安定した環境。 環境には、互換性を最適化するために、 torchcuda 、およびtorchvisionが含まれます。特定のパッケージ バージョンについては、必要に応じてpip installまたはピン留めの必要なバージョンを使用します。

最適なユーザー:依存関係スタックを完全に制御したいユーザー、必要なものだけをインストールしたいユーザー。

AI Runtime経由でサーバレスGPUに接続する場合の安心環境です。

各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。

Databricks AI環境

環境4以降で利用可能です。AI環境は、一般的なランタイムパッケージとGPU上での機械学習に特化したパッケージを備えた、デフォルトの基本環境の上に構築されています。プリインストールパッケージには以下が含まれます。

  • PyTorch(CUDA対応)
  • トランスフォーマー( Hugging Face )
  • さらに、ML/DL関連の依存関係も追加されます。

こんな方に最適: 手動による依存関係管理を必要とせずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とするML実践者。

選択するには: 環境 サイドパネルで、基本環境として AI v4 を選択します。

各バージョンにインストールされているパッケージバージョンの詳細については、リリースノートを参照してください。

ワークスペースの基本環境

AI Runtimeでは、ワークスペースの基本環境はサポートされていません。カスタムのワークスペースレベルの環境設定は使用できません。

プロジェクト用にディープラーニング環境を構成するには、提供されている 2 つの基本環境 (デフォルトまたは Databricks AI) のいずれかを使用し、ノートブック内またはトレーニングスクリプトの先頭で%pip installを使用して追加パッケージをプログラムでインストールします。

Python
%pip install datasets accelerate peft bitsandbytes

AI Runtime環境に追加のライブラリをインストールできます。 ノートブックに依存関係を追加する方法については、こちらをご覧ください。

行動

環境情報はいつキャッシュされますか?

起動時間を短縮するために、環境設定はセッション間でキャッシュされます。同じ環境構成でAI Runtimeに再接続すると、以前にインストールされたパッケージがキャッシュから利用可能になり、セットアップ時間を短縮できます。

ただし、キャッシュの動作は保証されません。再現性を確保するために、ノートブックには必ず必要な%pip installコマンドが含まれていることを確認してください。

カスタムモジュールをインポートするにはどうすればよいですか?

カスタムモジュールをインポートするには、それらを/Workspace/Sharedに配置し、パスをsys.pathに追加します。

Python
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

モジュールファイルをワークスペースファイルとしてアップロードし、直接インポートすることもできます。複数ユーザーによる共同作業の場合、共有コードはユーザー固有のフォルダではなく、 /Workspace/Sharedに保存してください。アクティブな開発の場合は、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモートGitリポジトリにプッシュします。

制限事項

AI Runtimeでは、以下の機能は利用できません。

  • Spark関数 — PySpark関数を直接インポートしたり使用したりすることはできません。AI RuntimeはPython専用の環境であり、Sparkはローカルランタイムとしては利用できません。ただし、データロードにはSpark Connectが利用可能です。AI Runtimeへのデータの読み込みを参照してください。
  • Databricks Runtime MLライブラリ - プレインストールされたパッケージはDatabricks Runtime MLの代わりにはなりません。 Databricks Runtime MLで利用可能な一部のMLライブラリは、 AI Runtimeにプリインストールされていない場合があります。
  • ワークスペースベース環境 — カスタムのワークスペースレベルの環境構成はサポートされていません。
  • プライベートアーティファクト — AI Runtime は、特定のケースにおいてプライベートアーティファクトをサポートします。詳細については、担当のアカウントチームにお問い合わせください。