サーバレスパイプラインを設定する

Serverless パイプラインはDatabricksが管理するコンピュートで実行され、ほとんどのインフラストラクチャ構成を排除します。

Databricksは、Serverlessを使用して新しいパイプラインを開発することを推奨しています。一部のワークロードでは、従来のコンピュートの構成や、レガシーなHive metastoreの操作が必要になる場合があります。「パイプライン用のクラシックコンピュートの構成」および「レガシー Hive metastore での LakeFlow Pipelines の使用」を参照してください。

注記

サーバレスパイプラインは常にUnity Catalog使用します。「パイプラインで Unity Catalog を使用する」を参照してください。
Serverlessコンピュートの制限事項については、Serverlessコンピュートの制限事項を参照してください。そこで説明されているStructured StreamingのTriggerの制限は、パイプラインモードには適用されません。Serverlessパイプラインは、Trigger、継続、およびリアルタイムモードをサポートしています。Triggered対継続パイプラインモードを参照してください。
サーバレスパイプラインのJSON構成のclustersオブジェクトにコンピュート設定を手動で追加することはできません。これを実行しようとするとエラーが発生します。

要件

サーバレスパイプラインを使用するには、ワークスペースでUnity Catalog有効になっている必要があります。
サーバレスの利用規約に同意しておく必要があります。
ワークスペースは、サーバレスが有効なリージョンにある必要があります。

サーバレスパイプラインの推奨構成

重要

クラスター作成権限は、サーバレスパイプラインの設定には必要ありません。デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。

Databricksがすべてのインフラストラクチャを管理するため、サーバレスパイプラインではほとんどの構成オプションが削除されます。新規にパイプラインを作成する場合は、デフォルトでサーバレスを使用します。サーバレスパイプラインの設定方法については、「パイプラインの設定」を参照してください。

また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。既存のパイプラインをサーバレスを使用するように変換するを参照してください。

その他の構成上の考慮事項

サーバレスパイプラインでは、次の構成オプションも利用できます。

本番運用でパイプラインを実行する場合は、 継続的 パイプラインモードを使用することを選択できます。トリガーパイプラインモードと継続的パイプラインモードを参照してください。
成功または失敗の条件に基づくEメール更新の通知を追加します。パイプラインイベントのEメール通知の追加を参照してください。
設定フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
- ソースコード内で参照できる任意の点を設定します。「パイプラインでの使用」を参照してください。
- パイプライン設定と Spark 構成を構成します。パイプラインプロパティリファレンスを参照してください。
プレビュー チャンネルを使用して、保留中のランタイムの変更に対してパイプラインをテストし、新機能を試用します。
パイプラインの**環境**設定で、外部のPythonの依存関係を宣言します。手動でPythonプロセス (dbutils.library.restartPython()) を再起動することはサポートされていないため、ランタイム時に依存関係をインストールまたは再読み込みすることはできません。パイプラインの Python 依存関係の管理を参照してください。

サーバーレス使用ポリシー

備考

プレビュー

この機能はパブリックプレビュー段階です。

サーバレス使用ポリシーを使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 「サーバーレス」 チェックボックスを選択すると、 「使用ポリシー」 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス使用ポリシーから継承され、ワークスペース管理者のみが編集できます。

注記

サーバーレス使用ポリシーが割り当てられた後、既存のパイプラインには自動的にポリシーのタグが付けられません。既存のパイプラインにポリシーを適用するには、手動でパイプラインを更新する必要があります。

サーバレス使用ポリシーの詳細については、「サーバレス使用ポリシーでの属性の使用」を参照してください。

パフォーマンスモードを選択する

トリガーされたパイプラインの場合、パイプラインスケジューラの パフォーマンス最適化 設定を使用して、サーバレスコンピュートパフォーマンスモードを選択できます。この設定を無効にすると、パイプラインは標準パフォーマンスモードを使用します。標準パフォーマンスモードは、起動の遅延がわずかに長くても許容できるワークロードのコストを削減するように設計されています。標準パフォーマンスモードを使用するサーバーレスワークロードは、コンピュートの可用性と最適化されたスケジューリングに応じて、トリガーされてから通常 4 ～ 6 分以内に開始されます。

パフォーマンスの最適化を 有効にすると、パイプラインのパフォーマンスが最適化され、時間に敏感なワークロードの起動と実行が高速化されます。

どちらのモードも同じSKUを使用しますが、標準パフォーマンスモードは、コンピュート使用量の低下を反映して消費する DBU が少なくなります。

注記

継続的なパイプラインで標準パフォーマンスモードを使用するには、Databricks アカウントチームにお問い合わせください。

サーバレスパイプラインの機能

サーバレスパイプラインは構成の簡素化に加え、以下の特長を備えています。

ストリーム パイプライン: データ取り込みなどのストリーミングデータワークロードの使用率、throughput、待機時間を改善するために、マイクロバッチはパイプライン化されます。つまり、標準的な Spark Structured Streaming のようにマイクロバッチを逐次的に実行するのではなく、Serverless LakeFlow Pipelines はマイクロバッチを並行して実行し、コンピュートリソースの使用率を向上させます。ストリームパイプラインは、Serverlessパイプラインでdefaultで有効になります。
垂直オートスケール : Serverless LakeFlow Pipelines は、Databricks 拡張オートスケールによって提供される水平オートスケールに加えて、メモリ不足エラーのために失敗することなくパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てることで機能します。垂直オートスケールとはを参照してください。

既存のパイプラインをサーバレス用に変換する

Unity Catalogで構成された既存のパイプラインをサーバレスパイプラインに変換できます。次のステップを完成させます:

Databricks ワークスペースのサイドバーで、 ジョブとパイプライン をクリックします。
パイプラインの名前をクリックします。
設定をクリックします。
右側のサイドバーの コンピュート の下で、。
サーバレスの 横にあるチェックボックスをオンにします。
保存をクリックします。

重要

サーバレスを有効にすると、パイプラインに対して構成したコンピュート設定はすべて削除されます。パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン構成に再構成する必要があります。

サーバレスパイプラインのDBU消費量の確認

Serverless LakeFlow Pipelines の DBU 使用状況は、Databricks システムテーブルの一部である課金利用テーブルをクエリすることで確認できます。Serverless パイプラインの DBU 消費量は?を参照してください。

要件​

サーバレスパイプラインの推奨構成​

その他の構成上の考慮事項​

サーバーレス使用ポリシー​

パフォーマンスモードを選択する​

サーバレス パイプライン の機能​

既存のパイプラインをサーバレス用に変換する​

サーバレス パイプラインのDBU消費量の確認​

要件