サーバレスパイプラインを設定する

この記事では、サーバレスパイプラインの構成について説明します。

Databricksサーバレスを利用した新規パイプラインの開発を推奨しています。一部のワークロードでは、クラシックコンピュートの構成または従来のHive metastoreの操作が必要になる場合があります。「パイプライン用のクラシックコンピュートの構成」および「レガシーHive metastoreでのLakeflow Spark宣言型パイプラインの使用」を参照してください。

注記

サーバレスパイプラインは常にUnity Catalog使用します。「パイプラインで Unity Catalog を使用する」を参照してください。
サーバレスコンピュートの制限については、「サーバレスコンピュートの制限」を参照してください。
サーバレスパイプラインのJSON構成のclustersオブジェクトにコンピュート設定を手動で追加することはできません。これを実行しようとするとエラーが発生します。
サーバーレスLakeflow Spark宣言型パイプラインでAWS PrivateLink 接続を使用する必要がある場合は、 Databricks担当者にお問い合わせください。

要件

サーバレスパイプラインを使用するには、ワークスペースでUnity Catalog有効になっている必要があります。
サーバレスの利用規約に同意しておく必要があります。
ワークスペースは、サーバレスが有効なリージョンにある必要があります。

サーバレスパイプラインの推奨構成

重要

クラスター作成権限は、サーバレスパイプラインの設定には必要ありません。デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。

Databricksすべてのインフラストラクチャを管理するため、サーバーレスパイプラインではほとんどの構成オプションが削除されます。新規にパイプラインを作成する場合は、サーバレスを使用するのが確実です。サーバレスパイプラインの構成方法については、「パイプラインの構成」を参照してください。

また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。既存のパイプラインをサーバレスを使用するように変換するを参照してください。

その他の構成上の考慮事項

サーバレスパイプラインでは、次の構成オプションも利用できます。

本番運用でパイプラインを実行する場合は、 継続的 パイプラインモードを使用することを選択できます。トリガーパイプラインモードと継続的パイプラインモードを参照してください。
成功または失敗の条件に基づくEメール更新の通知を追加します。パイプラインイベントのEメール通知の追加を参照してください。
設定フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
- ソースコード内で参照できる任意の点を設定します。「パイプラインでの使用」を参照してください。
- パイプライン設定と Spark 構成を構成します。パイプラインプロパティリファレンスを参照してください。
プレビュー チャンネルを使用して、保留中のLakeflow Spark宣言型パイプラインランタイムの変更に対してパイプラインをテストし、新機能をテストします。

サーバーレス予算ポリシー

備考

プレビュー

この機能はパブリックプレビュー段階です。

サーバレス予算ポリシーを使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレス チェックボックスをオンにすると、 予算ポリシー 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス予算ポリシーから継承され、ワークスペース管理者のみが編集できます。

注記

サーバーレス予算ポリシーが割り当てられた後、既存のパイプラインには自動的にポリシーのタグが付けられません。既存のパイプラインにポリシーをアタッチする場合は、手動で更新する必要があります。

サーバレス予算ポリシーの詳細については、「サーバレス予算ポリシーでの属性の使用」を参照してください。

パフォーマンスモードを選択する

トリガーされたパイプラインの場合、パイプラインスケジューラの パフォーマンス最適化 設定を使用して、サーバレスコンピュートパフォーマンスモードを選択できます。この設定を無効にすると、パイプラインは標準パフォーマンスモードを使用します。標準パフォーマンスモードは、起動の遅延がわずかに長くても許容できるワークロードのコストを削減するように設計されています。標準パフォーマンスモードを使用するサーバーレスワークロードは、コンピュートの可用性と最適化されたスケジューリングに応じて、トリガーされてから通常 4 ～ 6 分以内に開始されます。

パフォーマンスの最適化を 有効にすると、パイプラインのパフォーマンスが最適化され、時間に敏感なワークロードの起動と実行が高速化されます。

どちらのモードも同じSKUを使用しますが、標準パフォーマンスモードは、コンピュート使用量の低下を反映して消費する DBU が少なくなります。

注記

継続的なパイプラインで標準パフォーマンスモードを使用するには、Databricks アカウントチームにお問い合わせください。

サーバレスパイプラインの機能

サーバレスパイプラインは構成の簡素化に加え、以下の特長を備えています。

マテリアライズドビューの増分更新 : マテリアライズドビューの更新は、可能な限り増分的に更新されます。増分更新では、完全な再計算と同じ結果になります。結果を増分的にコンピュートできない場合、更新では完全な更新が使用されます。マテリアライズドビューについては、「増分更新」を参照してください。
ストリームパイプライン : データ取り込みなどのストリーミングデータワークロードの使用率、スループット、レイテンシーを改善するために、マイクロバッチは パイプライン です。つまり、標準のSpark構造化ストリーミングのようにマイクロバッチを順番に実行するのではなく、サーバレスLakeflow Spark宣言型パイプラインでマイクロバッチを同時に実行することで、コンピュートリソースの使用率を向上させます。サーバレスパイプラインではストリームパイプラインが有効になります。
垂直オートスケール : サーバーレスLakeflow Spark宣言型パイプラインは、メモリ不足エラーによって失敗することなくパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てることによって、 Databricksによって提供される水平オートスケールに追加されます。縦オートスケールとは？を参照してください。

既存のパイプラインをサーバレス用に変換する

Unity Catalogで構成された既存のパイプラインをサーバレスパイプラインに変換できます。次のステップを完成させます:

Databricks ワークスペースのサイドバーで、 ジョブとパイプライン をクリックします。
パイプラインの名前をクリックします。
設定をクリックします。
右側のサイドバーの コンピュート の下で、。
サーバレスの 横にあるチェックボックスをオンにします。
保存をクリックします。

重要

サーバレスを有効にすると、パイプラインに対して構成したコンピュート設定はすべて削除されます。パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン構成に再構成する必要があります。

サーバレスパイプラインのDBU使用状況を確認するにはどうすればよいですか?

Databricksシステムテーブルの一部である課金利用テーブルをクエリすることで、サーバレスLakeflow Spark宣言型パイプラインのDBU使用状況を確認できます。「サーバレスパイプラインのDBU消費量は何ですか?」を参照してください。。

要件​

サーバレスパイプラインの推奨構成​

その他の構成上の考慮事項​

サーバーレス予算ポリシー​

パフォーマンスモードを選択する​

サーバレス パイプライン の機能​

既存のパイプラインをサーバレス用に変換する​

サーバレス パイプラインのDBU使用状況を確認するにはどうすればよいですか?​

要件