ジョブコンピュートの設定

この記事には、 Databricks ジョブのコンピュートを構成するための推奨事項とリソースが含まれています。

重要

ジョブ用サーバレスコンピュートには、次のような制限があります。

継続的なスケジューリングはサポートされていません。
構造化ストリーミングでは、デフォルトまたは時間ベースのインターバルトリガーはサポートされていません。

その他の制限事項については、サーバレスコンピュートの制限事項を参照してください。

各ジョブには、1 つ以上のタスクを含めることができます。コンピュートリソースは、タスクごとに定義します。同じジョブに対して定義された複数のタスクは、同じコンピュートリソースを使用できます。

各タスクの推奨コンピュートは?

次の表は、各タスクの種類で推奨およびサポートされているコンピュートの種類を示しています。

手記

ジョブ用サーバレスコンピュートブには制限があり、すべてのワークロードをサポートしているわけではありません。サーバレスコンピュートの制限事項を参照してください。

タスク	おすすめコンピュート	対応コンピュート
ノートブック	サーバレスジョブ	ジョブ用サーバレス、ジョブ用クラシック、汎用クラシック
Pythonスクリプト	サーバレスジョブ	ジョブ用サーバレス、ジョブ用クラシック、汎用クラシック
Python Wheel	サーバレスジョブ	ジョブ用サーバレス、ジョブ用クラシック、汎用クラシック
SQL	サーバレス SQLウェアハウス	サーバレス SQLウェアハウス, pro SQLウェアハウス
Delta Live Tablesパイプライン	サーバレスパイプライン	サーバレスパイプライン、クラシックパイプライン
dbt	サーバレス SQLウェアハウス	サーバレス SQLウェアハウス, pro SQLウェアハウス
dbt CLI コマンド	サーバレスジョブ	ジョブ用サーバレス、ジョブ用クラシック、汎用クラシック
JAR	クラシックジョブ	クラシックジョブ、クラシック万能
Spark Submit	クラシックジョブ	クラシックジョブ

ジョブの価格は、タスクの実行に使用されるコンピュートに関連付けられています。詳細については、「 Databricks の価格」を参照してください。

ジョブコンピュートの設定方法

クラシックジョブコンピュートは Databricks ジョブ UI から直接設定され、これらの設定はジョブ定義の一部です。他のすべての使用可能なコンピュートタイプは、他のワークスペースアセットと共に構成を保存します。次の表に詳細を示します。

クラスタータイプ	詳細
クラシックジョブコンピュート	クラシックジョブのコンピュートは、汎用コンピュートと同じUIと設定を使用して設定します。コンピュート設定リファレンスを参照してください。
ジョブ用サーバレスコンピュート	ジョブ用サーバレスコンピュートは、それをサポートするすべてのタスクのデフォルトです。 Databricks サーバレスコンピュートのコンピュート設定を管理します。ワークフローについては、サーバレスコンピュートを使用して Databricks ジョブを実行するを参照してください。このオプションを表示するには、ワークスペース管理者がサーバレスコンピュートを有効にする必要があります。サーバレスコンピュートの有効化を参照してください。
SQLウェアハウス	サーバレスと Pro SQLウェアハウスは、ワークスペース管理者または無制限のクラスター作成権限を持つユーザーによって構成されます。既存の SQLウェアハウスに対してタスクを実行するように構成します。「SQLウェアハウスへの接続」を参照してください。
Delta Live Tables パイプラインコンピュート	Delta Live Tables パイプラインのコンピュート設定は、パイプラインの設定時に構成します。Delta Live Tables パイプラインのコンピュートの設定を参照してください。Databricksがサーバレス Delta Live Tables パイプラインのコンピュートリソースを管理します。サーバレス Delta Live Tables パイプラインの設定を参照してください。
汎用コンピューティング	オプションで、従来の汎用コンピュートを使用してタスクを設定できます。 Databricks では、この構成を本番運用ジョブにはお勧めしません。「コンピュート設定リファレンス」および「汎用コンピュートをジョブに使用すべきか」を参照してください。

タスク間でのコンピュートの共有

同じジョブコンピュートリソースを使用するようにタスクを構成して、複数のタスクを調整するジョブでリソースの使用を最適化します。タスク間でコンピュートを共有すると、起動時間に関連するレイテンシーを短縮できます。

1 つのジョブコンピュートリソースを使用して、ジョブの一部であるすべてのタスクを実行したり、特定のワークロード用に最適化された複数のジョブリソースを実行したりできます。ジョブの一部として設定されたジョブコンピュートは、ジョブ内の他のすべてのタスクで使用できます。

次の表は、1 つのタスク用に構成されたジョブコンピュートと、タスク間で共有されるジョブコンピュートの違いを示しています。

	1 つのタスク	タスク間で共有
起動	タスクの実行が開始されたとき。	コンピュートリソースを使用するように構成された最初のタスク実行が開始されると、そのタスク実行が開始されます。
終了	タスクの実行後。	最後のタスクの後、コンピュートリソースを使用するように構成しました。
アイドルコンピュート	該当なし。	コンピュートはオンでアイドル状態のままで、タスクはコンピュートリソースを使用していません。

共有ジョブクラスターは、スコープが 1 つのジョブ実行に限定され、他のジョブや同じジョブの実行では使用できません。

ライブラリーは、共有ジョブ・クラスター構成で宣言することはできません。タスク設定で依存ライブラリを追加する必要があります。

ジョブコンピュートのレビュー、設定、切り替え

ジョブ詳細パネルのコンピュートセクションには、現在のジョブのタスクに設定されたすべてのコンピュートが一覧表示されます。

コンピュートリソースを使用するように構成されたタスクは、コンピュート仕様にカーソルを合わせると、タスクグラフで強調表示されます。

スワップ ボタンを使用して、コンピュートリソースに関連付けられているすべてのタスクのコンピュートを変更します。

クラシックジョブコンピュートリソースには [構成] オプションがあります。その他のコンピュートリソースには、コンピュート構成の詳細を表示および変更するオプションがあります。

クラシックジョブコンピュートの構成に関する推奨事項

このセクションでは、一部のワークフローに役立つ機能と構成に関する一般的な推奨事項に焦点を当てます。コンピュートリソースのサイズとタイプを設定するための具体的な推奨事項は、ワークロードによって異なります。

Databricks では、 Photon アクセラレーションを有効にし、最新の Databricks Runtime バージョンを使用し、 Unity Catalog用に構成されたコンピュートを使用することをお勧めします。

ジョブ用サーバレスコンピュートは、すべてのインフラストラクチャを管理するため、次の考慮事項を排除します。ワークフローについては、サーバレスコンピュートを使用して Databricks ジョブを実行するを参照してください。

手記

構造化ストリーミングワークフローには、特定の推奨事項があります。構造化ストリーミングについては、本番運用に関する考慮事項を参照してください。

共有アクセスモードを使用する

Databricks では、ジョブに共有アクセスモードを使用することをお勧めします。「アクセスモード」を参照してください。

手記

共有アクセスモードでは、一部のワークロードと機能はサポートされていません。 Databricks では、これらのワークロードに対してシングルユーザーアクセスモードをお勧めします。 Unity Catalogのコンピュートアクセスモードの制限を参照してください。

クラスターポリシーを使用する

Databricks では、ワークスペース管理者がジョブのクラスターポリシーを定義し、ジョブを構成するすべてのユーザーにこれらのポリシーを適用することをお勧めします。

クラスターポリシーワークスペース管理者がコスト管理を設定し、ユーザーの構成オプションを制限できるようにします。クラスターポリシーの設定の詳細については、「コンピュートポリシーの作成と管理」を参照してください。

Databricks は、ジョブ用に構成されたデフォルトポリシーを提供します。管理者は、このポリシーを他のワークスペースユーザーが使用できるようにすることができます。ジョブコンピュートを参照してください。

オートスケールを使う

オートスケールを構成して、実行時間の長いタスクがジョブの実行中にワーカーノードを動的に追加および削除できるようにします。「オートスケールを有効にする」を参照してください。

プールを使用してクラスターの起動時間を短縮する

コンピュートプールを使用すると、クラウドプロバイダーからコンピュートリソースを予約できます。プールは、新しいジョブクラスターの開始時間を短縮し、コンピュートリソースの可用性を確保するのに役立ちます。「プール構成リファレンス」を参照してください。

スポットインスタンスの使用

レイテンシー要件が緩いワークロードのスポットインスタンスを設定して、コストを最適化します。「スポットインスタンス」を参照してください。

アベイラビリティゾーンの構成

組織がリザーブドインスタンスを購入した場合はアベイラビリティーゾーン (AZ) を指定し、AWS が容量不足エラーを返した場合は、Auto-AZ を使用して他のアベイラビリティーゾーンで再試行します。「アベイラビリティゾーン」を参照してください。

汎用コンピュートはジョブに使うべきか

Databricksがジョブに汎用コンピュートを使用しないことを推奨する理由は、次のように数多くあります。

Databricks 汎用コンピュートの請求書は、ジョブコンピュートとは異なるレートでお支払いいただけます。
ジョブコンピュートは、ジョブの実行が完了すると自動的に終了します。汎用コンピュートは、ジョブ実行の終了ではなく、非アクティブに関連付けられた自動終了をサポートしています。
汎用コンピュートは、多くの場合、ユーザーのチーム間で共有されます。汎用コンピュートに対してスケジュールされたジョブは、コンピュートリソースの競合により、多くの場合、待機時間が長くなります。
ジョブコンピュートの構成を最適化するための多くの推奨事項は、汎用コンピュートで実行されるアドホッククエリや対話型ワークロードの種類には適していません。

次に、ジョブに汎用コンピュートを使用することを選択するユースケースを示します。

新しいジョブを繰り返し開発またはテストしています。ジョブコンピュートの起動時間が長いと、反復開発が面倒になる可能性があります。汎用コンピュートを使用すると、変更を適用してジョブをすばやく実行できます。
短期間のジョブがあり、頻繁に実行したり、特定のスケジュールで実行したりする必要があります。現在実行中の汎用コンピュートに関連付けられた起動時間はありません。このパターンを使用する場合は、アイドル時間に関連するコストを考慮してください。

ジョブ用サーバレスコンピュートは、汎用コンピュートに対して実行を検討するほとんどのタスクタイプの推奨される代替です。