Run, your Databricks job, with サーバレスコンピュート for ワークフロー

サーバレスコンピュート for ワークフローを使用すると、インフラストラクチャを構成およびデプロイせずに Databricks ジョブを実行できます。サーバレスコンピュートを使用すると、データ処理と分析のパイプラインの実装に集中でき、ワークロードの最適化やスケーリングなど、コンピュートリソースを効率的に管理 Databricks 。オートスケールと Photon は、ジョブを実行するコンピュートリソースに対して自動的に有効になります。

サーバレスコンピュート for ワークフローは、インスタンスタイプ、メモリ、処理エンジンなどのインフラストラクチャを自動的かつ継続的に最適化し、ワークロードの特定の処理要件に基づいて最高のパフォーマンスを確保します。

Databricks は、Databricks ジョブの安定性を確保しながら、プラットフォームの機能強化とアップグレードをサポートするために、Databricks Runtime バージョンを自動的にアップグレードします。サーバレスコンピュートがワークフローに使用している現在の Databricks Runtime バージョンを確認するには、サーバレスコンピュートリリースノートを参照してください。

クラスターの作成権限は必要ないため、すべてのワークスペースユーザーはサーバレスコンピュートを使用してワークフローを実行できます。

この記事では、 Databricks Jobs UIを使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法について説明します。また、サーバレスコンピュートを使用するジョブの作成と実行を、ジョブAPI 、Databricks アセットバンドル、DatabricksSDK のPython と共に自動化することもできます。

APIJobs を使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法については、リファレンスの「ジョブRESTAPI」を参照してください。
Databricks Asset Bundles を使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法については、Databricks Asset Bundle を使用したジョブの開発を参照してください。
Databricks SDK for Pythonを使用して、サーバレスコンピュートを使用するジョブを作成および実行する方法については、Databricks SDK for Pythonを参照してください。

必要条件

Databricks ワークスペースで Unity Catalog が有効になっている必要があります。
サーバレスコンピュート for ワークフローは標準アクセスモードを使用するため、ワークロードはこのアクセスモードをサポートする必要があります。
Databricks ワークスペースは、サポートされているリージョンに存在する必要があります。「地域限定での提供が可能な機能」を参照してください。

サーバレスコンピュートを使用してジョブを作成する

注記

サーバレスコンピュート for ワークフローは、ワークロードを実行するのに十分なリソースがプロビジョニングされていることを確認するため、大量のメモリを必要とするジョブや多くのタスクを含む Databricks ジョブを実行すると、起動時間が長くなる可能性があります。

サーバレスコンピュートは、ノートブック、 Python スクリプト、 dbt、 Python wheel タスクタイプでサポートされています。デフォルトでは、新しいジョブを作成し、これらのサポートされているタスクタイプのいずれかを追加するときに、サーバレスコンピュートがコンピュートタイプとして選択されます。

Create サーバレスタスク

Databricks では、すべてのジョブタスクにサーバレスコンピュートを使用することをお勧めします。また、ジョブ内のタスクに異なるコンピュートタイプを指定することもできます。これは、タスクタイプがサーバレスワークフローのコンピュートでサポートされていない場合に必要になることがあります。

ジョブのアウトバウンドネットワーク接続を管理するには、サーバレス出力制御とはを参照してください。

サーバレスコンピュートを使用するように既存のジョブを構成する

既存のジョブを切り替えて、サポートされているタスクタイプにサーバレスコンピュートを使用するように切り替えることができます。サーバレスコンピュートに切り替えるには、次のいずれかを実行します。

ジョブ詳細 サイドパネルで、「 コンピュート 」の下の 「スワップ 」をクリックし、「新規」をクリックして、設定を入力または更新し、「更新」をクリックします。
[コンピュート] ドロップダウンメニューで [] をクリックし、[ サーバレス] を選択します。

Switch タスク to サーバレスコンピュート

サーバレスコンピュートを使用してノートブックをスケジュールする

ジョブUIを使用してサーバレスコンピュートを使用してジョブを作成およびスケジュールするだけでなく、サーバレスコンピュートを使用するジョブを Databricks ノートブックから直接作成および実行することもできます。「スケジュールされたノートブックジョブの作成と管理」を参照してください。

サーバレスの用途に適したサーバレス予算ポリシーを選択します

備考

プレビュー

この機能はパブリックプレビュー段階です。

サーバレス予算ポリシーを使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。

ワークスペースでサーバレス予算ポリシーを使用してサーバレスの使用量を属性化している場合は、ジョブの詳細UIの 予算ポリシー 設定を使用して、ジョブのサーバレス予算ポリシーを選択できます。 1 つのサーバレス予算ポリシーにのみ割り当てられている場合、新しいジョブに対してポリシーが自動的に選択されます。

注記

サーバレス予算ポリシーが割り当てられた後、既存のジョブはポリシーで自動的にタグ付けされません。既存のジョブにポリシーをアタッチする場合は、既存のジョブを手動で更新する必要があります。

サーバレス予算ポリシーの詳細については、サーバレス予算ポリシーによる属性の使用を参照してください。

パフォーマンスモードを選択する

注記

Standard パフォーマンスモードはパブリックプレビュー段階です。

サーバレスジョブのパフォーマンスモードは、ジョブの詳細ページの [Performance optimized] (パフォーマンス最適化 ) 設定を使用して選択できます。

この設定を無効にすると、ジョブは標準パフォーマンス・モードを使用します。標準パフォーマンスモードは、起動の待機時間がわずかに長くても許容されるワークロードのコストを削減するように設計されています。標準パフォーマンスモードを使用するサーバレスワークロードは、通常、トリガされてから 4 分から 6 分以内に開始されます。これは、コンピュートの可用性と最適化されたスケジュールによって異なります。

[パフォーマンスの最適化 ] を有効にすると、ジョブのパフォーマンスが最適化され、時間的制約のあるワークロードの起動と実行が高速になります。

標準パフォーマンスモードは、ジョブ内のサーバレスタスクによってのみ使用されます。 UI でパフォーマンスモードを設定するには、ジョブに少なくとも 1 つのサーバレスタスクが含まれている必要があります。

注記

標準パフォーマンスモードは、continuous パイプライン、 runs/submit エンドポイントを使用して作成された 1 回限りの実行、 SQLウェアハウスタスク (マテリアライズドビューを含む) ではサポートされていません。

Spark 構成パラメーターの設定

サーバレスコンピュートでの Spark の設定を自動化するために、 Databricks では特定の Spark 設定パラメータのみを設定できます。許容されるパラメーターのリストについては、サポートされる Spark 構成パラメーターを参照してください。

Spark構成はセッションレベルでのみ設定できます。これを行うには、それらをノートブックに設定し、そのノートブックを、その引数を使用する同じジョブに含まれるタスクに追加します。「ノートブックで Apache Spark 構成プロパティを取得および設定する」を参照してください。

環境と依存関係を設定する

サーバレスコンピュートを使用してライブラリと依存関係をインストールする方法については、サーバレス環境の設定を参照してください。

ノートブックのタスク用にハイメモリを構成する

備考

プレビュー

この機能はパブリックプレビュー段階です。

ノートブックのタスクは、より大きなメモリサイズを使用するように設定できます。これを行うには、ノートブックの [環境 ] サイドパネルで [メモリ ] 設定を構成します。Use high memory サーバレスコンピュートを参照してください。

ハイメモリは、ノートブックのタスクタイプでのみ使用できます。

サーバレスコンピュート auto-optimization を構成して再試行を許可しないようにします

サーバレスコンピュート for ワークフローの自動最適化処理は、ジョブの実行に使用されたコンピュートを自動的に最適化し、失敗したタスクを再試行します。自動最適化はデフォルトで有効になっており、Databricks では、重要なワークロードが少なくとも 1 回は正常に実行されるように、有効のままにしておくことをお勧めします。ただし、べき等でないジョブなど、最大で一度に実行する必要があるワークロードがある場合は、タスクを追加または編集するときに自動最適化をオフにできます。

[再試行 ] の横にある [ 追加 ] をクリックします (再試行ポリシーがすでに存在する場合は [] をクリックします)。
[Retry ポリシー ] ダイアログで、[ Enable Serverレス auto-optimization (may include additional retries)] のチェックを外します。
確認をクリックします。
タスクを追加する場合は、 タスクの作成 をクリックします。タスクを編集している場合は、 タスクを保存 をクリックします。

サーバレスコンピュート for ワークフローを使用するジョブのコストを監視する

サーバレスコンピュートをワークフローに使用しているジョブのコストは、課金利用システムテーブルを照会することで監視できます。このテーブルは、サーバレスのコストに関するユーザ属性とワークロード属性を含むように更新されています。「課金利用システムテーブルリファレンス」を参照してください。

現在の価格とプロモーションに関する情報については、ワークフロー価格ページを参照してください。

ジョブ実行のクエリ詳細を表示する

Spark ステートメントの詳細なランタイム情報 (メトリクスやクエリプランなど) を表示できます。

ジョブ UI からクエリの詳細にアクセスするには、次の手順に従います。

サイドバーの［ ワークフロー ］をクリックします。
表示するジョブの名前をクリックします。
表示する特定の実行をクリックします。
[タイムライン] をクリックすると、実行がタイムラインとして表示され、個々のタスクに分割されます。
タスク名の横にある矢印をクリックすると、クエリステートメントとそのランタイムが表示されます。
ステートメントをクリックして、 クエリの詳細 パネルを開きます。このパネルで使用できる情報の詳細については、「クエリの詳細の表示」を参照してください。

タスクのクエリ履歴を表示するには:

タスク実行 サイドパネルの コンピュート セクションで、[ クエリ履歴 ] をクリックします。
クエリー履歴にリダイレクトされ、参加していたタスクのタスク実行 ID に基づいて事前にフィルタリングされます。

クエリ履歴の使用に関する情報については、「 DLT パイプラインのクエリ履歴へのアクセス」および「クエリ履歴」を参照してください。

制限

ワークフローの制限事項に関するサーバレスコンピュートのリストについては、サーバレスコンピュートリリースノートの「サーバレスコンピュートの制限事項」を参照してください。

必要条件​

サーバレス コンピュートを使用してジョブを作成する​

サーバレス コンピュートを使用するように既存のジョブを構成する​

サーバレス コンピュートを使用してノートブックをスケジュールする​

サーバレスの用途に適したサーバレス 予算ポリシーを選択します​

パフォーマンスモードを選択する​

Spark 構成パラメーターの設定​

環境と依存関係を設定する​

ノートブックのタスク用にハイメモリを構成する​

サーバレス コンピュート auto-optimization を構成して再試行を許可しないようにします​

サーバレス コンピュート for ワークフローを使用するジョブのコストを監視する​

ジョブ実行のクエリ詳細を表示する​

制限​