メインコンテンツまでスキップ

Databricks機械学習ランタイム

この記事では、Databricks機械学習ランタイムについて説明し、それを使用するクラスターを作成する方法のガイダンスを提供します。

Databricks機械学習ランタイム とは

Databricks機械学習ランタイム (Databricks Runtime ML) は、最も一般的な ML および DL ライブラリを含む、事前に構築された機械学習とディープラーニング インフラストラクチャを使用してクラスターの作成を自動化します。

Databricks Runtime ML に含まれるライブラリ

Databricks Runtime ML には、さまざまな一般的な ML ライブラリが含まれています。 ライブラリはリリースごとに更新され、新機能と修正が含まれています。

Databricks では、サポートされているライブラリのサブセットを最上位ライブラリとして指定しています。 これらのライブラリの場合、Databricks は更新頻度を高速化し、ランタイム リリースごとに最新のパッケージ リリースに更新します (依存関係の競合を除く)。 Databricks は、最上位のライブラリに対する高度なサポート、テスト、および組み込み最適化も提供します。 最上位ライブラリは、メジャーリリースでのみ追加または削除されます。

  • 最上位のライブラリとその他の提供されているライブラリの完全なリストについては、Databricks Runtime ML のリリースノート を参照してください。
  • ライブラリが更新される頻度と、ライブラリが非推奨になるタイミングについては、Databricks Runtime ML メンテナンス ポリシーを参照してください。

追加のライブラリをインストールすることで、ノートブックやクラスター用のカスタム環境を構築できます。

Databricks Runtime MLのコンピュート リソースの設定

Databricks Runtime MLに基づいてコンピュートを作成するプロセスは、ワークスペースがでグループ 専用クラスター パブリック プレビューが有効になっているかどうかによって異なります。プレビューが有効になっているワークスペースには、新しい 簡略化されたコンピュート UI があります。

Databricks Runtime ML を使用してクラスターを作成する

クラスターを作成するときは、 Databricksランタイム バージョン ドロップダウン メニューから Databricks Runtime MLのバージョンを選択します。CPU と GPU 対応の両方の ML ランタイムが利用可能です。

Databricks Runtime ML を選択します

ノートブックの ドロップダウンメニューからクラスターを選択すると、クラスター名の右側に Databricks ランタイムの バージョンが表示されます。

Databricks Runtime ML バージョンを表示する

GPU 対応 ML ランタイムを選択した場合は、互換性のある ドライバー タイプワーカー タイプ を選択するように求められます。 互換性のないインスタンスタイプは、ドロップダウンメニューでグレー表示されます。 GPU 対応インスタンスタイプは、 GPU アクセラレーション ラベルの下に一覧表示されます。 Databricks GPU クラスターの作成に関する情報 については、GPU 対応コンピュートを参照してください。 Databricks Runtime ML には、GPU ハードウェア ドライバーと CUDA などの NVIDIA ライブラリが含まれています。

新しいシンプルなコンピュートUIで新しいクラスターを作成

このセクションの手順は、ワークスペースでグループ専用 クラスター プレビューが有効になっている 場合にのみ 使用してください。

Databricks Runtime の機械学習バージョンを使用するには、 [ 機械学習 ] チェック ボックスをオンにします。

コンピュートUIでのMLRの選択

GPU ベースのコンピュートの場合は、GPU 対応のインスタンスタイプを選択します。 サポートされている GPU タイプの完全なリストについては、「 サポートされているインスタンスタイプ」を参照してください。

Photon と Databricks Runtime ML

Databricks Runtime 15.2 ML 以降のCPU クラスターを作成する場合は、Photon を有効にすることを選択できます。Photon 、 Spark SQL、 Spark データフレーム、Feature エンジニアリング、 GraphFrames、および xgboost4j を使用するアプリケーションのパフォーマンスが向上します。 Spark RDD、Pandas UDF、および Python などの非 JVM 言語を使用するアプリケーションのパフォーマンスが向上することは期待されていません。 したがって、XGBoost、PyTorch、TensorFlowなどのPythonパッケージでは、Photonによる改善は見られません。

Spark RDD API と Spark MLlib は、Photonとの互換性が制限されています。Spark RDD または Spark MLlib を使用して大規模なデータセットを処理すると、Spark メモリの問題が発生する可能性があります。 Spark メモリの問題を参照してください。

Databricks Runtime MLクラスターのアクセスモード

Databricks Runtime MLを実行しているクラスターでUnity Catalog のデータにアクセスするには、アクセス モードを[専用](以前のシングル ユーザー アクセス モード)に設定する必要があります。

コンピュート リソースに 専用 アクセス権がある場合、リソースは 1 人のユーザーまたは 1 つのグループに割り当てることができます。 グループ (グループ クラスター) に割り当てると、ユーザーのアクセス許可は自動的にグループのアクセス許可にスコープが縮小され、ユーザーはグループの他のメンバーとリソースを安全に共有できます。