Databricks Runtime for Machine Learning
Databricks Runtime for Machine Learning (Databricks Runtime ML) は、最も一般的な ML および DL ライブラリを含む、事前に構築された機械学習とディープラーニング インフラストラクチャを使用してクラスターの作成を自動化します。 Databricks Runtime MLの各バージョンのライブラリの完全なリストについては、リリースノートを参照してください。
注:
機械学習ワークフローの Unity Catalog のデータにアクセスするには、クラスターのアクセス モードがシングル ユーザー (割り当て済み) である必要があります。 共有クラスターは、機械学習の Databricks Runtime と互換性がありません。 また、 Databricks Runtime 機械学習は、 Table ACLクラスター または spark.databricks.pyspark.enableProcessIsolation config
が true
に設定されているクラスターではサポートされていません。
Databricks Runtime MLを使用したクラスターの作成
クラスターを作成するときは、 [Databricks ランタイム バージョン ] ドロップダウン メニューから Databricks Runtime ML バージョンを選択します。 CPU と GPU 対応の両方の ML ランタイムが利用可能です。
ノートブックの ドロップダウン メニューからクラスターを選択すると、クラスター名の右側に Databricks Runtime バージョンが表示されます。
GPU 対応 ML ランタイムを選択した場合は、互換性のある [ドライバー タイプ ] と [ワーカー タイプ] を選択するように求められます。 互換性のないインスタンスタイプは、ドロップダウンメニューでグレー表示されます。 GPU 対応インスタンスタイプは、 GPU アクセラレーション ラベルの下に一覧表示されます。 GPU クラスターの作成に関する情報 Databricks 、「 GPU 対応コンピュート」を参照してください。 Databricks Runtime ML には、GPU ハードウェア ドライバーと CUDA などの NVIDIA ライブラリが含まれています。
Photon と Databricks Runtime ML
Databricks Runtime 15.2 ML 以降を実行する CPU クラスターを作成する場合は、 Photon を有効にすることを選択できます。 Photon 、 Spark SQL、 Spark DataFrames、Feature エンジニアリング、 GraphFrames、および xgboost4j を使用するアプリケーションのパフォーマンスが向上します。 Spark RDD、Pandas UDF、および Python などの非 JVM 言語を使用するアプリケーションのパフォーマンスが向上することは期待されていません。 したがって、XGBoost、PyTorch、TensorFlowなどのPythonパッケージでは、Photonによる改善は見られません。
Spark RDD APIs と Spark MLlib は Photonとの互換性が限られています。Spark RDD または Spark MLlib を使用して大規模なデータセットを処理すると、Spark メモリの問題が発生する可能性があります。 Spark メモリの問題を参照してください。
AWS Graviton インスタンス上の Databricks Runtime ML
Databricks Runtime 15.4 LTS ML 以降では、 Graviton インスタンスの種類がサポートされています。 Graviton インスタンスタイプを使用すると、Spark、Photon、特徴エンジニアリング、XGBoost や LightGBM などの機械学習ライブラリ、勾配ブースティングの Spark MLlib アルゴリズムのパフォーマンスを向上させることができます。 Gravitonインスタンスは、他のAWS EC2インスタンスタイプよりも優れた価格対パフォーマンスの値を提供する場合もあります。
Databricks Runtime MLに含まれるライブラリ
Databricks Runtime ML には、さまざまな一般的な ML ライブラリが含まれています。 ライブラリはリリースごとに更新され、新機能と修正が含まれています。
Databricks では、サポートされているライブラリのサブセットを最上位ライブラリとして指定しています。 これらのライブラリの場合、Databricks は更新頻度を高速化し、ランタイム リリースごとに最新のパッケージ リリースに更新します (依存関係の競合を除く)。 Databricks は、最上位のライブラリに対する高度なサポート、テスト、および組み込み最適化も提供します。
最上位のライブラリとその他の提供されているライブラリの完全なリストについては、 の リリースノート Databricks RuntimeMLを参照してください。
追加のライブラリをインストールすることで、ノートブックやクラスター用のカスタム環境を構築できます。
クラスターで実行されているすべてのノートブックでライブラリを使用できるようにするには、 クラスター ライブラリを作成します。 また、initスクリプトを使用して、作成時にクラスターにライブラリをインストールすることもできます。
特定のノートブックセッションでのみ使用できるライブラリをインストールするには、ノートブックスコープのPythonライブラリを使用します。