Databricks機械学習ランタイム
このページでは、機械学習用のDatabricks Runtimeについて説明し、それを使用するクラシック コンピュート リソースを作成する方法のガイダンスを提供します。
Databricks機械学習ランタイム とは
Databricks Runtime for Machine Learning ( Databricks Runtime ML ) は、最も一般的なMLおよび DL ライブラリを含む、事前に構築された機械学習およびディープラーニング インフラストラクチャを使用してコンピュート リソースの作成を自動化します。
Databricks Runtime ML に含まれるライブラリ
Databricks Runtime ML には、さまざまな一般的な ML ライブラリが含まれています。 ライブラリはリリースごとに更新され、新機能と修正が含まれています。
Databricks では、サポートされているライブラリのサブセットを最上位ライブラリとして指定しています。 これらのライブラリの場合、Databricks は更新頻度を高速化し、ランタイム リリースごとに最新のパッケージ リリースに更新します (依存関係の競合を除く)。 Databricks は、最上位のライブラリに対する高度なサポート、テスト、および組み込み最適化も提供します。 最上位ライブラリは、メジャーリリースでのみ追加または削除されます。
- 最上位のライブラリとその他の提供されているライブラリの完全なリストについては、Databricks Runtime ML のリリースノート を参照してください。
- ライブラリが更新される頻度と、ライブラリが非推奨になるタイミングについては、Databricks Runtime ML メンテナンス ポリシーを参照してください。
追加のライブラリをインストールして、ノートブックまたはコンピュート リソース用のカスタム環境を作成できます。
- コンピュート リソースで実行されているすべてのノートブックでライブラリを利用できるようにするには、コンピュート スコープのライブラリを作成します。 コンピュートの作成中にinit スクリプトを使用してライブラリをインストールすることもできます。
- 特定のノートブック セッションでのみ使用できるライブラリをインストールするには、 ノートブック スコープの Python ライブラリを使用します。
Databricks Runtime for MLを使用してコンピュート リソースを作成する
Databricks Runtime for MLを使用するコンピュート リソースを作成するには、コンピュートの作成 UI で [機械学習] チェックボックスをオンにします。 これにより、アカウントが専用ユーザーとなり、アクセス モードが自動的に 専用 に設定されます。 コンピュート 作成 UI の「詳細」セクションで、コンピュート リソースを別のユーザーまたはグループに手動で割り当てることができます。
GPU ベースのコンピュートの場合は、 ワーカー タイプ ドロップダウン メニューで GPU 対応のインスタンス タイプを選択します。 サポートされている GPU タイプの完全なリストについては、 「サポートされているインスタンス タイプ」を参照してください。
Photon と Databricks Runtime ML
Databricks Runtime 15.2 ML以降を実行するコンピュート リソースを作成する場合、 Photon有効にすることを選択できます。 Photon は、Spark SQL、Spark DataFrames、機能エンジニアリング、GraphFrames、xgboost4j を使用するアプリケーションのパフォーマンスを向上させます。Spark RDD、Pandas UDF、Python などの非 JVM 言語を使用するアプリケーションのパフォーマンスは向上しないと考えられます。したがって、XGBoost、PyTorch、TensorFlow などの Python パッケージでは、Photon による改善は見られません。
Spark RDD API と Spark MLlib は、Photonとの互換性が制限されています。Spark RDD または Spark MLlib を使用して大規模なデータセットを処理すると、Spark メモリの問題が発生する可能性があります。 Spark メモリの問題を参照してください。
AWS Graviton インスタンス上の Databricks Runtime ML
Databricks Runtime 15.4 LTS ML 以降では、 Graviton インスタンスの種類がサポートされています。 Graviton インスタンスタイプを使用すると、Spark、Photon、特徴エンジニアリング、XGBoost や LightGBM などの機械学習ライブラリ、勾配ブースティングの Spark MLlib アルゴリズムのパフォーマンスを向上させることができます。 Gravitonインスタンスは、他のAWS EC2インスタンスタイプよりも優れた価格対パフォーマンスの値を提供する場合もあります。
Databricks Runtime MLのコンピュート アクセス モード
Databricks Runtime MLを実行しているコンピュート リソース上のUnity Catalog内のデータにアクセスするには、アクセス モードを[専用]に設定する必要があります。 [機械学習] チェックボックスを選択すると、コンピュート作成 UI でアクセス モードが自動的に設定されます。
コンピュート リソースに 専用 アクセス モードがある場合、リソースを単一のユーザーまたはグループに割り当てることができます。 グループに割り当てられると、ユーザーの権限は自動的にグループの権限にダウンスコープされ、ユーザーはグループの他のメンバーとリソースを安全に共有できるようになります。
専用アクセス モードを使用する場合、次の機能は Databricks Runtime 15.4 LTS ML 以降でのみ使用できます。