メインコンテンツまでスキップ

サーバレス パイプラインの構成

この記事では、サーバレス Lakeflow 宣言型パイプラインの設定について説明します。

Databricks サーバレスを使用して新しいパイプラインを開発することを推奨しています。 一部のワークロードでは、クラシックコンピュートを構成するか、レガシー Hive metastoreを使用する必要がある場合があります。 「 LakeFlow Declarative パイプラインのクラシックコンピュートの設定 」 および 「レガシーHive metastoreでの LakeFlow Declarative パイプラインの使用」を参照してください。

注記
  • サーバレス パイプラインは常に Unity Catalogを使用します。 「宣言型パイプラインでの Unity Catalogの使用Lakeflow 」を参照してください。

  • サーバレス コンピュートの制限事項については、 サーバレス コンピュートの制限事項を参照してください。

  • サーバレス パイプラインの JSON 設定で、clusters オブジェクトにコンピュート設定を手動で追加することはできません。 これを行おうとすると、エラーが発生します。

  • サーバレス 宣言型パイプラインで AWSPrivateLink 接続を使用する必要がある場合は、LakeflowDatabricks 担当者にお問い合わせください。

必要条件

  • サーバレス パイプラインを使用するには、ワークスペースで Unity Catalog が有効になっている必要があります。

  • サーバレスの 利用規約に同意しておく必要があります。

  • ワークスペースは、 サーバレスが有効なリージョンにある必要があります。

サーバレス パイプラインの推奨構成

important

クラスター作成権限は、サーバレス パイプラインの設定には必要ありません。 デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。

Databricksすべてのインフラストラクチャを管理するため、サーバーレス パイプラインではほとんどの構成オプションが削除されます。 新規にパイプラインを作成する場合は、サーバレスを使用するのが確実です。 サーバーレス パイプラインの構成方法については、 LakeFlow宣言型パイプラインの構成」を参照してください。

また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。 既存のパイプラインをサーバレスを使用するように変換するを参照してください。

その他の構成に関する考慮事項

次の設定オプションは、サーバレス パイプラインでも使用できます。

サーバレス 予算ポリシー

備考

プレビュー

この機能は パブリック プレビュー段階です。

サーバレス 予算ポリシー を使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレス チェックボックスをオンにすると、 予算ポリシー 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス 予算ポリシーから継承され、ワークスペース管理者のみが編集できます。

注記

サーバレス予算ポリシーを割り当てた後、既存のパイプラインはポリシーで自動的にタグ付けされません。 既存のパイプラインにポリシーをアタッチする場合は、既存のパイプラインを手動で更新する必要があります。

サーバレス 予算ポリシーの詳細については、 サーバレス 予算ポリシーによる属性の使用を参照してください。

パフォーマンスモードを選択する

トリガーされたパイプラインの場合、パイプライン スケジューラの Performance optimized 設定を使用して、サーバレス コンピュート パフォーマンス モードを選択できます。 この設定を無効にすると、パイプラインは標準パフォーマンス モードを使用します。標準パフォーマンス モードは、起動の待機時間がわずかに長くても許容されるワークロードのコストを削減するように設計されています。標準パフォーマンス モードを使用するサーバレス ワークロードは、通常、トリガされてから 4 分から 6 分以内に開始されます。これは、コンピュートの可用性と最適化されたスケジュールによって異なります。

[パフォーマンスの最適化 ] を有効にすると、パイプラインのパフォーマンスが最適化されるため、時間に敏感なワークロードの起動と実行が高速になります。

どちらのモードも同じSKUを使用しますが、標準パフォーマンス モードは、コンピュート使用量の低下を反映して消費する DBU が少なくなります。

注記

継続的パイプラインで標準パフォーマンス モードを使用するには、Databricks アカウント チームにお問い合わせください。

サーバレス パイプライン の機能

サーバレス パイプラインには、設定の簡素化に加えて、次の機能があります。

  • マテリアライズドビューの増分更新 : マテリアライズドビューの更新は、可能な限り増分的に更新されます。 増分更新の結果は、完全再計算と同じです。 更新では、結果を増分的にコンピュートできない場合、完全更新が使用されます。 Incremental 更新 for マテリアライズドビューを参照してください。

  • ストリーム パイプライン : データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプライン です。 つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス Lakeflow 宣言型パイプラインの実行マイクロバッチを並行して実行することで、コンピュートリソースの使用率を向上させることができるのです。 ストリーム パイプラインは、サーバレス Lakeflow 宣言型パイプラインのデフォルトによって有効になります。

  • Vertical オートスケール : サーバレス Lakeflow 宣言型パイプラインは、拡張オートスケールによって提供される水平オートスケールに加えて Databricks メモリ不足エラーによるパイプラインの失敗なしにパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てます。 vertical オートスケールとは

既存のパイプラインをサーバレスを使用するように変換する

Unity Catalog で設定された既存のパイプラインをサーバレス パイプラインに変換できます。次の手順を実行します。

  1. Databricks ワークスペースのサイドバーで、[ ジョブとパイプライン] をクリックします。
  2. パイプライン の [名前 ] をクリックします。
  3. 設定 をクリックします。
  4. 右側のサイドバーの コンピュート の下で、鉛筆アイコン。
  5. サーバレス の横のチェックボックスをオンにします。
  6. 保存 をクリックします。
important

サーバレスを有効にすると、パイプラインに設定したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン設定に再設定する必要があります。

サーバレス パイプラインの DBU 使用状況はどうすればわかりますか?

DBUサーバレスLakeflow 宣言型パイプラインのDatabricks 使用状況は、 システムテーブルの一部である課金利用テーブルをクエリすることで確認できます。「サーバレス パイプラインのDBU消費量は?」を参照してください。