メインコンテンツまでスキップ

サーバレスパイプラインを設定する

このページでは、サーバレスパイプラインの設定について説明します。

Databricksサーバレスを利用した新規パイプラインの開発を推奨しています。 一部のワークロードでは、クラシック コンピュートの構成または従来のHive metastoreの操作が必要になる場合があります。 「パイプライン用のクラシック コンピュートの構成」および「レガシーHive metastoreでのLakeflow Spark宣言型パイプラインの使用」を参照してください。

注記
  • サーバレス パイプラインは常にUnity Catalog使用します。 「パイプラインで Unity Catalog を使用する」を参照してください。

  • サーバレス コンピュートの制限については、 「 サーバレス コンピュートの制限 」を参照してください。

  • サーバレス パイプラインのJSON構成のclustersオブジェクトにコンピュート設定を手動で追加することはできません。 これを実行しようとするとエラーが発生します。

  • サーバーレスLakeflow Spark宣言型パイプラインでAWS PrivateLink 接続を使用する必要がある場合は、 Databricks担当者にお問い合わせください。

要件

  • サーバレス パイプラインを使用するには、ワークスペースでUnity Catalog有効になっている必要があります。

  • サーバレスの 利用規約に同意しておく必要があります。

  • ワークスペースは、 サーバレスが有効なリージョンにある必要があります。

サーバレスパイプラインの推奨構成

重要

クラスター作成権限は、サーバレス パイプラインの設定には必要ありません。 デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。

Databricksすべてのインフラストラクチャを管理するため、サーバーレス パイプラインではほとんどの構成オプションが削除されます。 新規にパイプラインを作成する場合は、サーバレスを使用するのが確実です。 サーバレスパイプラインの構成方法については、「パイプラインの構成」を参照してください。

また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。 既存のパイプラインをサーバレスを使用するように変換するを参照してください。

その他の構成上の考慮事項

サーバレス パイプラインでは、次の構成オプションも利用できます。

  • 本番運用でパイプラインを実行する場合は、 継続的 パイプライン モードを使用することを選択できます。 トリガー パイプライン モードと継続的パイプライン モードを参照してください。

  • 成功または失敗の条件に基づくEメール更新の 通知 を追加します。 パイプラインイベントのEメール通知の追加を参照してください。

  • 設定 フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。

  • プレビュー チャンネルを使用して、保留中のLakeflow Spark宣言型パイプライン ランタイムの変更に対してパイプラインをテストし、新機能をテストします。

  • パイプラインの**環境**設定で、外部のPythonの依存関係を宣言します。手動でPythonプロセス (dbutils.library.restartPython()) を再起動することはサポートされていないため、ランタイム時に依存関係をインストールまたは再読み込みすることはできません。パイプラインの Python 依存関係の管理を参照してください。

サーバーレス使用ポリシー

備考

プレビュー

この機能は パブリック プレビュー段階です。

サーバレス使用ポリシーを使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 「サーバーレス」 チェックボックスを選択すると、 「使用ポリシー」 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス使用ポリシーから継承され、ワークスペース管理者のみが編集できます。

注記

サーバーレス使用ポリシーが割り当てられた後、既存のパイプラインには自動的にポリシーのタグが付けられません。 既存のパイプラインにポリシーを適用するには、手動でパイプラインを更新する必要があります。

サーバレス使用ポリシーの詳細については、 「サーバレス使用ポリシーでの属性の使用」を参照してください。

パフォーマンスモードを選択する

トリガーされたパイプラインの場合、パイプライン スケジューラの パフォーマンス最適化 設定を使用して、サーバレス コンピュート パフォーマンス モードを選択できます。 この設定を無効にすると、パイプラインは標準パフォーマンス モードを使用します。標準パフォーマンス モードは、起動の遅延がわずかに長くても許容できるワークロードのコストを削減するように設計されています。標準パフォーマンス モードを使用するサーバーレス ワークロードは、コンピュートの可用性と最適化されたスケジューリングに応じて、トリガーされてから通常 4 ~ 6 分以内に開始されます。

パフォーマンスの最適化を 有効にすると、パイプラインのパフォーマンスが最適化され、時間に敏感なワークロードの起動と実行が高速化されます。

どちらのモードも同じSKUを使用しますが、標準パフォーマンス モードは、コンピュート使用量の低下を反映して消費する DBU が少なくなります。

注記

継続的なパイプラインで標準パフォーマンス モードを使用するには、Databricks アカウント チームにお問い合わせください。

サーバレス パイプライン の機能

サーバレスパイプラインは構成の簡素化に加え、以下の特長を備えています。

  • マテリアライズドビューの増分更新 : マテリアライズドビューの更新は、可能な限り増分的に更新されます。 増分更新では、完全な再計算と同じ結果になります。結果を増分的にコンピュートできない場合、更新では完全な更新が使用されます。 マテリアライズドビューについては、「増分更新」を参照してください。

  • ストリーム パイプライン : データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、レイテンシーを改善するために、マイクロバッチは パイプライン です。 つまり、標準のSpark構造化ストリーミングのようにマイクロバッチを順番に実行するのではなく、サーバレスLakeflow Spark宣言型パイプラインでマイクロバッチを同時に実行することで、コンピュート リソースの使用率を向上させます。 サーバレスパイプラインではストリームパイプラインが有効になります。

  • 垂直オートスケール : サーバーレスLakeflow Spark宣言型パイプラインは、メモリ不足エラーによって失敗することなくパイプラインを実行できる最もコスト効率の高いインスタンス タイプを自動的に割り当てることによって、 Databricksによって提供される水平オートスケールに追加されます。 縦オートスケールとは?を参照してください。

既存のパイプラインをサーバレス用に変換する

Unity Catalogで構成された既存のパイプラインをサーバレス パイプラインに変換できます。 次のステップを完成させます:

  1. Databricks ワークスペースのサイドバーで、 ジョブとパイプライン をクリックします。
  2. パイプラインの 名前 をクリックします。
  3. 設定 をクリックします。
  4. 右側のサイドバーの コンピュート の下で、鉛筆アイコン。
  5. サーバレスの 横にあるチェックボックスをオンにします。
  6. 保存 をクリックします。
重要

サーバレスを有効にすると、パイプラインに対して構成したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン構成に再構成する必要があります。

サーバレス パイプラインのDBU使用状況を確認するにはどうすればよいですか?

Databricksシステム テーブルの一部である課金利用テーブルをクエリすることで、サーバレスLakeflow Spark宣言型パイプラインのDBU使用状況を確認できます。 「サーバレス パイプラインのDBU消費量は何ですか?」を参照してください。 。