MLおよびDL用のデータと環境を準備する
このセクションでは、機械学習とディープラーニングのためにデータとDatabricks環境を準備する方法について説明します。
環境を準備する
Databricks Runtime for Machine Learning (Databricks Runtime ML) は、機械学習とデータサイエンス用に最適化されたすぐに使用できる環境です。 Databricks Runtime ML には、TensorFlow、PyTorch、Horovod、 Scikit-Learn 、XGBoost などの多くの外部ライブラリが含まれており、 XGBoost での GPU アクセラレーション、 HorovodRunner を使用した分散ディープラーニング、 Databricks File System (DBFS) FUSE マウントを使用したモデル チェックポイント処理など、パフォーマンスを向上させる拡張機能が用意されています。
Databricks Runtime MLを使用するには、クラスターを作成する際にMLバージョンのラインタイムを選択します。
注
機械学習ワークフローのために Unity Catalog のデータにアクセスするには、クラスターの アクセス モード がシングル ユーザー (割り当て済み) である必要があります。 共有クラスターは、Databricks Runtime for Machine Learning と互換性がありません。
ライブラリをインストールする
追加のライブラリをインストールすることで、ノートブックやクラスター用のカスタム環境を構築できます。
クラスターで実行されているすべてのノートブックでライブラリを使用できるようにするには、 クラスター ライブラリを作成します。 また、initスクリプトを使用して、作成時にクラスタにライブラリをインストールすることもできます。
特定のノートブックセッションでのみ使用できるライブラリをインストールするには、ノートブックスコープのPythonライブラリを使用します。
GPUクラスターを使用する
GPU クラスターを作成して、ディープラーニング タスクを高速化できます。 Databricks GPU クラスターの作成については、 「GPU 対応のコンピュート」を参照してください。 Databricks Runtime 機械学習には、GPU ハードウェア ドライバーと CUDA などの NVIDIA ライブラリが含まれています。