GPU対応コンピュート

注記

一部の GPU 対応インスタンスタイプはベータ版であり、コンピュートの作成時にドライバータイプとワーカータイプを選択すると、ドロップダウンリストでそのようにマークされます。

概要

Databricks は、グラフィックスプロセッシングユニット (GPU) で高速化されたコンピュートをサポートしています。この記事では、GPU 対応インスタンスを使用してコンピュートを作成する方法について説明し、その内容について説明しますそれらのインスタンスにインストールされている GPU ドライバーとライブラリ。

GPU 対応コンピュートのディープラーニングの詳細については、「ディープラーニング」を参照してください。

GPU コンピュートを作成する

GPU コンピュートの作成は、コンピュートの作成と似ています。次の点に留意してください。

[機械学習 ] チェックボックスをオンにする必要があります。GPU ML バージョンは、ワーカータイプに基づいて自動的に選択されます。
Photon acceleration チェックボックスはオフにする必要があります。Photon は GPU インスタンスタイプではサポートされていません。
ワーカータイプ は GPU インスタンスタイプである必要があります。
[ Single node] チェックボックスをオンにすると、単一の GPU インスタンスを取得できます。

クラスターAPIを使用してGPUインスタンスを構成するプロセスは、kindフィールドが設定されているかどうかによって異なります。kind 、要求が単純なフォーム仕様を使用するかどうかを判断します。

kind = CLASSIC_PREVIEWの場合は、 "use_ml_runtime": trueを設定します。
kind フィールドを設定しない場合は、 spark_version を 15.4.x-gpu-ml-scala2.12 などの GPU 対応バージョンに設定します。

サポートされているインスタンスタイプ

警告

Databricks は非推奨であり、 Amazon EC2 P3 インスタンスを使用したコンピュートのスピンアップはサポートされなくなります。これらのインスタンスは非推奨 AWS ためです。

Databricks は、次の GPU アクセラレーションインスタンスタイプをサポートしています。

GPUタイプ:NVIDIA H100 Tensor Core GPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
p5.48xラージ	8	80GB×8	192	2TBの

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
p4d.24xlarge	8	40GB×8	96	1152ギガバイト
p4de.24xlarge	8	80GB×8	96	1152ギガバイト

GPUタイプ:NVIDIA L40S Tensor Core GPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
g6e.xlarge	1	48ギガバイト	4	32ギガバイト
g6e.2xlarge	1	48ギガバイト	8	64ギガバイト
g6e.4xlarge	1	48ギガバイト	16 時間	128ギガバイト
G6E.8xラージ	1	48ギガバイト	32	256ギガバイト
G6E.16xラージ	1	48ギガバイト	64	512ギガバイト
G6E.12xラージ	4	48GB×4	48	384ギガバイト
G6E.24xラージ	4	48GB×4	96	768ギガバイト
G6E.48xラージ	8	48GB×8	192	1536ギガバイト

GPUタイプ:NVIDIA L4 TensorコアGPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
g6.xlarge	1	24ギガバイト	4	16ギガバイト
g6.2xlarge	1	24ギガバイト	8	32ギガバイト
g6.4xlarge	1	24ギガバイト	16 時間	64ギガバイト
g6.8xlarge	1	24ギガバイト	32	128ギガバイト
G6.16xラージ	1	24ギガバイト	64	256ギガバイト
G6.12xラージ	4	24GB×4	48	192ギガバイト
g6.24xlarge	4	24GB×4	96	384ギガバイト
g6.48xlarge	8	24GB×8	192	768ギガバイト

GPUタイプ:NVIDIA A10G Tensor Core GPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
g5.xlarge	1	24ギガバイト	4	16ギガバイト
G5.2xラージ	1	24ギガバイト	8	32ギガバイト
G5.4倍大	1	24ギガバイト	16 時間	64ギガバイト
g5.8xlarge	1	24ギガバイト	32	128ギガバイト
G5.16xラージ	1	24ギガバイト	64	256ギガバイト
g5.12xlarge	4	24GB×4	48	192ギガバイト
G5.24xラージ	4	24GB×4	96	384ギガバイト
G5.48xラージ	8	24GB×8	192	768ギガバイト

GPUタイプ:NVIDIA T4 TensorコアGPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
g4dn.xlarge	1	16ギガバイト	4	16ギガバイト
g4dn.2xlarge	1	16ギガバイト	8	32ギガバイト
g4dn.4xlarge	1	16ギガバイト	16 時間	64ギガバイト
g4dn.8xlarge	1	16ギガバイト	32	128ギガバイト
g4dn.16xlarge	1	16ギガバイト	64	256ギガバイト
g4dn.12xlarge	4	24GB×4	48	192ギガバイト

GPUタイプ:NVIDIA V100 TensorコアGPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
p3.2xlarge	1	16ギガバイト	8	61ギガバイト
p3.8xlarge	4	16GB×4	32	244ギガバイト
p3.16xlarge	8	16GB×8	64	488ギガバイト

考慮事項

すべての GPU アクセラレーションインスタンスタイプで、次の点に注意してください。

Amazon スポットインスタンスの価格高騰により、GPU スポットインスタンスの保持が困難になっています。必要に応じてオンデマンドで使用してください。
作成するために、制限の引き上げをリクエストする必要がある場合があります GPU 対応コンピュート.

サポートされている GPU インスタンスタイプとその属性のリストについては、サポートされているインスタンスタイプを参照してください。

GPU スケジューリング

GPU スケジューリングは、Spark タスクを多数の GPU に効率的に分散します。

Databricks Runtime は、Apache Spark 3.0 からの GPU 対応スケジューリングをサポートしています。 Databricks GPU コンピュートにあらかじめ設定しています。

注記

GPU スケジューリングは、単一ノードのコンピュートでは有効になっていません。

AIとMLのGPUスケジューリング

spark.task.resource.gpu.amount は、構成する必要がある可能性がある GPU 対応スケジューリングに関連する唯一の Spark 構成です。デフォルトの構成では、タスクごとに 1 つの GPU が使用されるため、分散推論ワークロードと、すべての GPU ノードを使用する場合の分散トレーニングに適したベースラインです。

分散トレーニング時の通信オーバーヘッドを削減するために、Databricksコンピュート Spark構成でワーカーノードあたりのGPU数にspark.task.resource.gpu.amountを設定することをおすすめします。これにより、Spark ワーカーごとに Spark タスクが 1 つだけ作成され、そのワーカーノード内のすべての GPU が同じタスクに割り当てられます。

分散ディープラーニング推論の並列化を強化するために、 spark.task.resource.gpu.amount を 1/2、1/3、1/4 などの小数値に設定できます。1/Nです。これにより、GPU よりも多くの Spark タスクが作成されるため、より多くの同時タスクで推論要求を並列に処理できます。たとえば、 spark.task.resource.gpu.amount を 0.5、 0.33、または 0.25に設定した場合、使用可能な GPU はタスクの数が 2 倍、3 倍、または 4 倍に分割されます。

GPU インデックス

PySpark タスクの場合、Databricks は割り当てられた GPU を 0 から始まるインデックスに自動的に再マッピングします。タスクごとに 1 つの GPU を使用するデフォルト設定では、タスクにどの GPU が割り当てられているかを確認せずに、デフォルトの GPU を使用できます。タスクごとに複数の GPU を設定する場合 (例: 4)、割り当てられた GPU のインデックスは常に 0、1、2、3 です。割り当てられた GPU の物理インデックスが必要な場合は、 CUDA_VISIBLE_DEVICES 環境変数から取得できます。

Scala を使用する場合は、タスクに割り当てられた GPU のインデックスを TaskContext.resources().get("gpu")から取得できます。

NVIDIA GPU ドライバー、CUDA、および cuDNN

Databricks は、GPU を使用するために必要な NVIDIA ドライバーとライブラリを Spark ドライバーとワーカーインスタンスにインストールします。

CUDA Toolkit は、 /usr/local/cuda.
cuDNN: NVIDIA CUDA Deep ニューラルネットワークライブラリ.
NCCL: NVIDIA コレクティブコミュニケーションライブラリ。

含まれているNVIDIAドライバーのバージョンは535.54.03で、CUDA 11.0をサポートしています。

含まれているライブラリのバージョンについては、使用している特定のバージョンのリリースノート Databricks Runtimeを参照してください。

注記

本ソフトウェアには、NVIDIA Corporationが提供するソースコードが含まれています。具体的には、GPU をサポートするために、Databricks には CUDA サンプルのコードが含まれています。

NVIDIA エンドユーザーライセンス契約 (EULA)

で GPU 対応の「Databricks Runtime Databricksバージョン」を選択すると、 NVIDIA EULACUDA は、、cuDNN、Tesla ライブラリに関するものです。 NCCL ライブラリのNVIDIA エンドユーザーライセンス契約 (NCCL Supplement を含む)。

Databricks Container Services on GPU コンピュート

備考

プレビュー

この機能はパブリックプレビュー段階です。

GPUを搭載したコンピュートで Databricks Container Services を利用すると、カスタマイズしたライブラリでポータブルなディープラーニング環境を作ることができます。手順については、「 Databricks Container サービスを使用したコンテナのカスタマイズ」を参照してください。

GPU コンピュートのカスタムイメージを作成するには、GPU の Databricks Runtime ML ではなく、標準のランタイムバージョンを選択する必要があります。 Use your own (独自の Docker コンテナーを使用する) を選択すると、標準のランタイムバージョンで GPU コンピュートを選択できます。GPU のカスタムイメージは、GPU の Databricks Runtime ML とは異なる公式の CUDA コンテナーに基づいています。

GPU コンピュートのカスタムイメージを作成する場合、NVIDIA ドライバーのバージョンはホストマシンのドライバーバージョンと一致する必要があるため、変更できません。

databricksruntime Docker Hub には、GPU 機能を備えたサンプルの基本イメージが含まれています。これらのイメージの生成に使用される Dockerfile は、サンプルコンテナーの GitHub リポジトリにあり、サンプルイメージが提供する内容とそのカスタマイズ方法の詳細も含まれています。

エラーメッセージ

次のエラーは、 AWS クラウドプロバイダーに、要求されたコンピュートリソースに対して十分な容量がないことを示しています。 Error: Cluster terminated. Reason: AWS Insufficient Instance Capacity Failure

このエラーを解決するには、別の可用性ゾーンでコンピュートを作成してみてください。アベイラビリティーゾーンは、 Advanced > Access モードのコンピュート設定にあります。また、リザーブドインスタンスの価格を確認してAWS追加のクォータを購入することもできます。
コンピュートが P4d または G5Databricks Runtime インスタンスタイプを使用し、7.3LTSML CUDAている場合、7.3 のパッケージバージョンは新しい GPU インスタンスと互換性がありません。このような場合、TensorFlow Keras や PyTorch などの ML パッケージは、次のようなエラーを生成します。
- TensorFlow Keras: InternalError: CUDA runtime implicit initialization on GPU:x failed. Status: device kernel image is invalid
- PyTorch の場合: UserWarning: NVIDIA A100-SXM4-40GB with CUDA capability sm_80 is not compatible with the current PyTorch installation.
これらのエラーは、 Databricks Runtime 10.4 LTS ML以降にアップグレードすることで解決できます。

概要​

GPU コンピュートを作成する​

サポートされているインスタンスタイプ​

考慮 事項​

GPU スケジューリング​

AIとMLのGPUスケジューリング​

GPU インデックス​

NVIDIA GPU ドライバー、CUDA、および cuDNN​

NVIDIA エンド ユーザー ライセンス契約 (EULA)​

Databricks Container Services on GPU コンピュート​

エラーメッセージ​

概要