ワークフロー向けサーバレスコンピュートによるLakeflowジョブの実行

ワークフロー向けサーバレスコンピュートを使用すると、インフラストラクチャを構成およびデプロイせずにジョブを実行できます。サーバレスコンピュートを使用すると、Databricksがワークロードの最適化やスケーリングなど、コンピュートリソースを効率的に管理するので、データ処理と分析のパイプラインの実装に集中できます。オートスケールと Photon は、ジョブを実行するコンピュートリソースに対して自動的に有効になります。

ワークフロー向けサーバレスコンピュートは、インスタンスタイプ、メモリ、処理エンジンなどのインフラストラクチャを自動的かつ継続的に最適化し、ワークロードの特定の処理要件に基づいて最高のパフォーマンスを確保します。

Databricks は、ジョブの安定性を確保しながら、プラットフォームの機能強化とアップグレードをサポートするために、Databricks Runtime バージョンを自動的にアップグレードします。サーバレスコンピュートがワークフローに使用している現在の Databricks Runtime バージョンを確認するには、サーバレスコンピュートリリースノートを参照してください。

クラスターの作成権限は必要ないため、すべてのワークスペースユーザーはサーバレスコンピュートを使用してワークフローを実行できます。

この記事では、 Lakeflow Jobs UIを使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法について説明します。また、サーバレスコンピュートを使用するジョブの作成と実行を、ジョブAPI 、Databricks アセットバンドル、DatabricksSDK のPython と共に自動化することもできます。

Jobs APIを使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法については、REST APIリファレンスのJobsを参照してください。
Databricks Asset Bundles を使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法については、Databricks Asset Bundle を使用したジョブの開発を参照してください。
Databricks SDK for Pythonを使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法については、Databricks SDK for Pythonを参照してください。

必要条件

Databricks ワークスペースで Unity Catalog が有効になっている必要があります。
サーバレスコンピュート for ワークフローは標準アクセスモードを使用するため、ワークロードはこのアクセスモードをサポートする必要があります。
Databricksワークスペースは、サーバレスコンピュートがサポートするリージョンにある必要があります。「地域限定の可用性を持つ機能」を参照してください。

サーバレスコンピュートを使用してジョブを作成する

注記

ワークフロー向けサーバレスコンピュートは、ワークロードを実行するのに十分なリソースがプロビジョニングされるようにするため、大量のメモリを必要とするジョブや多数のタスクを含むジョブを実行すると、起動時間が長くなる可能性があります。

サーバレスコンピュートは、ノートブック、 Python スクリプト、 dbt、 Python wheel タスクタイプでサポートされています。デフォルトでは、新しいジョブを作成し、これらのサポートされているタスクタイプのいずれかを追加するときに、サーバレスコンピュートがコンピュートタイプとして選択されます。

サーバレスタスクの作成

Databricks では、すべてのジョブタスクにサーバレスコンピュートを使用することをお勧めします。また、ジョブ内のタスクに異なるコンピュートタイプを指定することもできます。これは、タスクタイプがサーバレスワークフローのコンピュートでサポートされていない場合に必要になることがあります。

ジョブのアウトバウンドネットワーク接続を管理するには、サーバレスエグレス制御とはを参照してください。

サーバレスコンピュートを使用するように既存のジョブを構成する

既存のジョブを切り替えて、サポートされているタスクタイプにサーバレスコンピュートを使用するように切り替えることができます。サーバレスコンピュートに切り替えるには、次のいずれかを実行します。

ジョブ詳細 サイドパネルで、 コンピュート の下の 切り替え をクリックし、新規をクリックして、設定を入力または更新し、更新をクリックします。
コンピュート ドロップダウンメニューでをクリックし、 サーバレス を選択します。

サーバレスコンピュートへのタスクの切り替え

サーバレスコンピュートを使用してノートブックをスケジュールする

ジョブUIを使用してサーバレスコンピュートを使用してジョブを作成およびスケジュールするだけでなく、サーバレスコンピュートを使用するジョブを Databricks ノートブックから直接作成および実行することもできます。スケジュールされたノートブックジョブの作成と管理を参照してください。

サーバレスの用途に適したサーバレス予算ポリシーを選択します

備考

プレビュー

この機能はパブリックプレビュー段階です。

サーバレス予算ポリシーを使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。

ワークスペースでサーバレス予算ポリシーを使用してサーバレスの使用状況を属性付けしている場合は、ジョブの詳細UIの 予算ポリシー 設定を使用して、ジョブのサーバレス予算ポリシーを選択できます。 1つのサーバレス予算ポリシーにのみ割り当てられている場合は、新しいジョブに対してポリシーが自動的に選択されます。

注記

サーバレス予算ポリシーを割り当てた後、既存のジョブはポリシーで自動的にタグ付けされません。既存のジョブにポリシーをアタッチする場合は、既存のジョブを手動で更新する必要があります。

サーバレス予算ポリシーの詳細については、サーバレス予算ポリシーによる属性の使用を参照してください。

パフォーマンスモードを選択する

ジョブの詳細ページの パフォーマンス最適化 設定を使用して、ジョブのサーバレスタスクの実行速度を選択できます。

パフォーマンスの最適化 が無効になっている場合、ジョブは標準パフォーマンスモードを使用します。このモードは、コストを削減するためにコンピュートの使用量を減らし、コンピュートの可用性と最適化されたスケジューリングに応じて、4 ～ 6 分のわずかに長い起動遅延を許容できるワークロードに適しています。
パフォーマンスの最適化 を有効にすると、ジョブの開始と実行が速くなります。このモードは、時間的制約のあるワークロード向けに設計されています。

どちらのモードも同じSKUを使用しますが、標準パフォーマンスモードは、コンピュート使用量の低下を反映して消費する DBU が少なくなります。

UI で パフォーマンス最適化 設定を構成するには、ジョブに少なくとも 1 つのサーバレスタスクが必要です。この設定は、ジョブ内のサーバレスタスクにのみ影響します。

注記

標準パフォーマンスモードは、 runs/submit エンドポイントを使用して作成された 1 回限りの実行ではサポートされていません。

Spark 構成パラメーターの設定

サーバレスコンピュートでの Spark の設定を自動化するために、 Databricks では特定の Spark 設定パラメータのみを設定できます。許容されるパラメーターのリストについては、サポートされる Spark 構成パラメーターを参照してください。

Spark構成はセッションレベルでのみ設定できます。これを行うには、それらをノートブックに設定し、そのノートブックを、その引数を使用する同じジョブに含まれるタスクに追加します。「ノートブックで Apache Spark 構成プロパティを取得および設定する」を参照してください。

環境と依存関係を設定する

サーバレスコンピュートを使用してライブラリと依存関係をインストールする方法については、サーバレス環境の設定を参照してください。

ノートブックのタスク用にハイメモリを構成する

備考

プレビュー

この機能はパブリックプレビュー段階です。

ノートブックのタスクは、より大きなメモリサイズを使用するように設定できます。これを行うには、ノートブックの環境サイドパネルで メモリ 設定を構成します。ハイメモリーサーバレスコンピュートの使用を参照してください。

ハイメモリは、ノートブックのタスクタイプでのみ使用できます。

サーバレスコンピュートの自動最適化を構成して再試行を許可しないようにします

ワークフロー向けサーバレスコンピュートの自動最適化処理は、ジョブの実行に使用されたコンピュートを自動的に最適化し、失敗したタスクを再試行します。自動最適化はデフォルトで有効になっており、Databricks では、重要なワークロードが少なくとも 1 回は正常に実行されるように、有効のままにしておくことをお勧めします。ただし、べき等でないジョブなど、最大で一度に実行する必要があるワークロードがある場合は、タスクを追加または編集するときに自動最適化をオフにできます。

再試行 の横にある追加をクリックします (再試行ポリシーがすでに存在する場合はをクリックします)。
再試行ポリシー ダイアログで、 サーバーレス自動最適化を有効化（最大3回の再試行を含む） のチェックを外します。
確認をクリックします。
タスクを追加する場合は、[ タスクを作成 ] をクリックします。タスクを編集している場合は、[ タスクを保存 ] をクリックします。

ワークフロー向けサーバレスコンピュートを使用するジョブのコストを監視する

サーバレスコンピュートをワークフローに使用しているジョブのコストは、課金利用システムテーブルを照会することで監視できます。このテーブルは、サーバレスのコストに関するユーザ属性とワークロード属性を含むように更新されています。課金利用システムテーブルリファレンスを参照してください。

現在の価格とプロモーションに関する情報については、ワークフロー価格ページを参照してください。

ジョブ実行のクエリ詳細を表示する

Spark ステートメントの詳細なランタイム情報 (メトリクスやクエリプランなど) を表示できます。

ジョブ UI からクエリの詳細にアクセスするには、次の手順に従います。

Databricks ワークスペースのサイドバーで、[ ジョブとパイプライン] をクリックします。
必要に応じて、[ ジョブ] フィルターを選択します。
表示するジョブ の名前 をクリックします。
表示する特定の実行をクリックします。
[タイムライン] をクリックすると、実行がタイムラインとして表示され、個々のタスクに分割されます。
タスク名の横にある矢印をクリックすると、クエリステートメントとそのランタイムが表示されます。
ステートメントをクリックして、 クエリの詳細 パネルを開きます。このパネルで使用できる情報の詳細については、「クエリの詳細の表示」を参照してください。

タスクのクエリ履歴を表示するには:

タスク実行 サイドパネルの コンピュート セクションで、[ クエリ履歴 ] をクリックします。
クエリー履歴にリダイレクトされ、参加していたタスクのタスク実行 ID に基づいて事前にフィルタリングされます。

クエリ履歴の使用に関する情報については、「Lakeflow 宣言型パイプラインのクエリ履歴へのアクセス」および「クエリ履歴」を参照してください。

制限

ワークフローの制限事項に関するサーバレスコンピュートのリストについては、サーバレスコンピュートリリースノートのサーバレスコンピュートの制限事項を参照してください。

必要条件​

サーバレス コンピュートを使用してジョブを作成する​

サーバレス コンピュートを使用するように既存のジョブを構成する​

サーバレス コンピュートを使用してノートブックをスケジュールする​

サーバレスの用途に適したサーバレス 予算ポリシーを選択します​

パフォーマンスモードを選択する​

Spark 構成パラメーターの設定​

環境と依存関係を設定する​

ノートブックのタスク用にハイメモリを構成する​

サーバレス コンピュートの自動最適化を構成して再試行を許可しないようにします​

ワークフロー向けサーバレス コンピュートを使用するジョブのコストを監視する​

ジョブ実行のクエリ詳細を表示する​

制限​