サーバレスパイプラインを設定する
この記事では、サーバレス Lakeflow 宣言型パイプラインの設定について説明します。
Databricks 、サーバレスを利用した新規パイプラインの開発を推奨しています。 一部のワークロードでは、クラシック コンピュートの構成または従来のHive metastoreの操作が必要になる場合があります。 LakeFlow宣言型パイプライン用のクラシック コンピュートの構成」および「レガシーHive metastoreでのLakeFlow宣言型パイプラインの使用」を参照してください。
- サーバレス パイプラインは常に Unity Catalogを使用します。 「Lakeflow宣言型パイプラインでの Unity Catalogの使用 」を参照してください。
- サーバレス コンピュートの制限については、 「 サーバレス コンピュートの制限 」を参照してください。
- サーバレス パイプラインのJSON構成の
clusters
オブジェクトにコンピュート設定を手動で追加することはできません。 これを実行しようとするとエラーが発生します。
要件
-
サーバレス パイプラインを使用するには、ワークスペースでUnity Catalog有効になっている必要があります。
-
サーバレスの 利用規約に同意しておく必要があります。
-
ワークスペースは、 サーバレスが有効なリージョンにある必要があります。
サーバレスパイプラインの推奨構成
クラスター作成権限は、サーバレス パイプラインの設定には必要ありません。 デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。
Databricksすべてのインフラストラクチャを管理するため、サーバーレス パイプラインではほとんどの構成オプションが削除されます。 新規にパイプラインを作成する場合は、サーバレスを使用するのが確実です。 サーバーレス パイプラインの構成方法については、 LakeFlow宣言型パイプラインの構成」を参照してください。
また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。 既存のパイプラインをサーバレスを使用するように変換するを参照してください。
その他の構成上の考慮事項
サーバレス パイプラインでは、次の構成オプションも利用できます。
-
本番運用でパイプラインを実行する場合は、 継続的 パイプライン モードを使用することを選択できます。 トリガー パイプライン モードと継続的パイプライン モードを参照してください。
-
成功または失敗の条件に基づくEメール更新の 通知 を追加します。 パイプラインイベントのEメール通知の追加を参照してください。
-
設定 フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
- ソース コードで参照できる任意のパラメーターを設定します。 「Lakeflow宣言型パイプラインでパラメーターを使用する」を参照してください。
- パイプライン設定と Spark 設定を構成します。Lakeflow宣言型パイプラインのプロパティ リファレンスを参照してください。
-
Preview チャンネルを使用して、保留中の Lakeflow 宣言型パイプライン ランタイムの変更に対してパイプラインをテストし、新機能を試用します。
サーバーレス予算ポリシー
プレビュー
この機能は パブリック プレビュー段階です。
サーバレス 予算ポリシー を使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレス チェックボックスをオンにすると、 予算ポリシー 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス 予算ポリシーから継承され、ワークスペース管理者のみが編集できます。
サーバーレス予算ポリシーが割り当てられた後、既存のパイプラインには自動的にポリシーのタグが付けられません。 既存のパイプラインにポリシーをアタッチする場合は、手動で更新する必要があります。
サーバレス予算ポリシーの詳細については、 「サーバレス予算ポリシーでの属性の使用」を参照してください。
パフォーマンスモードを選択する
トリガーされたパイプラインの場合、パイプライン スケジューラの パフォーマンス最適化 設定を使用して、サーバレス コンピュート パフォーマンス モードを選択できます。 この設定を無効にすると、パイプラインは標準パフォーマンス モードを使用します。標準パフォーマンス モードは、起動の遅延がわずかに長くても許容できるワークロードのコストを削減するように設計されています。標準パフォーマンス モードを使用するサーバーレス ワークロードは、コンピュートの可用性と最適化されたスケジューリングに応じて、トリガーされてから通常 4 ~ 6 分以内に開始されます。
パフォーマンスの最適化を 有効にすると、パイプラインのパフォーマンスが最適化され、時間に敏感なワークロードの起動と実行が高速化されます。
どちらのモードも同じSKUを使用しますが、標準パフォーマンス モードは、コンピュート使用量の低下を反映して消費する DBU が少なくなります。
継続的なパイプラインで標準パフォーマンス モードを使用するには、Databricks アカウント チームにお問い合わせください。
サーバレス パイプライン の機能
サーバレスパイプラインは構成の簡素化に加え、以下の特長を備えています。
- ストリーム パイプライン : データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプライン です。 つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス Lakeflow 宣言型パイプラインの実行マイクロバッチを並行して実行することで、コンピュートリソースの使用率を向上させることができるのです。 ストリーム パイプラインは、サーバレス Lakeflow 宣言型パイプラインのデフォルトによって有効になります。
- Vertical オートスケール : サーバレス Lakeflow 宣言型パイプラインは、拡張オートスケールによって提供される水平オートスケールに加えて Databricks メモリ不足エラーによるパイプラインの失敗なしにパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てます。 垂直 オートスケールとは
既存のパイプラインをサーバレス用に変換する
Unity Catalogで構成された既存のパイプラインをサーバレス パイプラインに変換できます。 次のステップを完成させます:
- Databricks ワークスペースのサイドバーで、 ジョブとパイプライン をクリックします。
- パイプラインの 名前 をクリックします。
- 設定 をクリックします。
- 右側のサイドバーの コンピュート の下で、
。
- サーバレスの 横にあるチェックボックスをオンにします。
- 保存 をクリックします。
サーバレスを有効にすると、パイプラインに対して構成したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン構成に再構成する必要があります。
サーバレス パイプラインのDBU使用状況を確認するにはどうすればよいですか?
DBUサーバレスLakeflow 宣言型パイプラインのDatabricks 使用状況は、 システムテーブルの一部である課金利用テーブルをクエリすることで確認できます。「サーバレス パイプラインのDBU消費量は?」を参照してください。