サーバレス Delta Live Tables パイプラインの構成

この記事では、サーバレス Delta Live Tables パイプラインの設定について説明します。

Databricks は、サーバレスを使用して新しいパイプラインを開発することをお勧めします。 一部のワークロードでは、従来のコンピュートの構成や、従来のHive metastoreのコンピュートの操作が必要になる場合があります。「 Delta Live Tablesパイプラインのコンピュートの設定 」および「レガシーHive metastoreでのDelta Live Tables パイプラインの使用 」を参照してください。

注:

  • サーバレス パイプラインは常に Unity Catalogを使用します。 Unity Catalog for Delta Live Tables はパブリック プレビュー段階であり、いくつかの制限があります。 「Delta Live Tables パイプラインで Unity Catalog を使用する」を参照してください。

  • サーバレス パイプラインの JSON 設定で、clusters オブジェクトにコンピュート設定を手動で追加することはできません。 これを行おうとすると、エラーが発生します。

  • サーバーレス DLT パイプラインの適格性と有効化に関する情報については、 「サーバーレス コンピュートの有効化」を参照してください。

  • サーバレス DLT パイプラインとのAWS PrivateLink 接続を使用する必要がある場合は、 Databricksの担当者にお問い合わせください。

要件

  • サーバレス パイプラインを使用するには、ワークスペースで Unity Catalog が有効になっている必要があります。

その他の構成に関する考慮事項

次の設定オプションは、サーバレス パイプラインでも使用できます。

予算ポリシー

プレビュー

この機能はパブリックプレビュー段階です。

予算ポリシー を使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレスチェックボックスを選択すると、[予算ポリシー]設定が表示され、パイプラインに適用するポリシーを選択できます。タグは予算ポリシーから継承され、ワークスペース管理者のみが編集できます。

注:

予算ポリシーが割り当てられた後、既存のパイプラインにはポリシーのタグが自動的に付けられません。 既存のパイプラインにポリシーをアタッチする場合は、既存のパイプラインを手動で更新する必要があります。

予算 ポリシーの詳細については、 予算ポリシーによるサーバレス使用料の按分を参照してください。

サーバレス パイプラインの機能

サーバレス パイプラインには、設定の簡素化に加えて、次の機能があります。

  • マテリアライズド・ビューの増分更新: マテリアライズド・ビューの更新は、可能な限り増分的に更新されます。 増分更新の結果は、完全再計算と同じです。 更新では、結果を増分的にコンピュートできない場合、完全更新が使用されます。 マテリアライズド・ビューの増分更新を参照してください。

  • ストリーム パイプライン: データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプラインです。 つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス DLT パイプライン マイクロバッチを並行して実行することで、コンピュート リソースの使用率を向上させることができます。 ストリーム パイプラインは、サーバレス DLT パイプラインのデフォルトによって有効になります。

  • 垂直オートスケール : サーバレス DLT パイプラインは、メモリ不足エラーによる失敗なしにDatabricks Delta Live Tablesパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てることで 拡張オートスケールによって提供される水平オートスケールに追加します。垂直オートスケールとは

垂直オートスケールとは何ですか?

サーバレス DLT パイプライン オートスケールは、メモリ不足エラーによって失敗することなくDelta Live Tablesパイプラインの更新を実行するために、最もコスト効率の高い利用可能なインスタンス タイプを自動的に割り当てます。 垂直オートスケールは、パイプラインの更新を実行するために大規模なインスタンス タイプが必要な場合はスケールアップし、小規模なインスタンス タイプで更新を実行できると判断された場合はスケールダウンします。 垂直オートスケールは、ドライバー ノード、ワーカー ノード、またはドライバー ノードとワーカー ノードの両方をスケールアップまたはスケールダウンするかどうかを決定します。

垂直オートスケールは、 Databricks SQLマテリアライズド ビューおよびストリーミング テーブルで使用されるパイプラインを含む、すべてのサーバーレス DLT パイプラインに使用されます。

Vertical オートスケールは、メモリ不足エラーが原因で失敗したパイプライン更新を検出することで機能します。 Vertical オートスケールは、失敗した更新から収集されたメモリ不足データに基づいて、これらの障害が検出された場合に、より大きなインスタンスタイプを割り当てます。 本番運用モードでは、新しいコンピュートリソースを使用した新しい更新が自動的に開始されます。 開発モードでは、新しい更新プログラムを手動で開始するときに、新しいコンピュート リソースが使用されます。

垂直オートスケールは、割り当てられたインスタンスのメモリが一貫して十分に活用されていないことを検出すると、次の GitHub 更新で使用するインスタンス タイプをスケールダウンします。

既存のパイプラインをサーバレスを使用するように変換する

Unity Catalog で設定された既存のパイプラインをサーバレス パイプラインに変換できます。次の手順を実行します。

  1. サイドバーの 「Delta Live Tables 」をクリックします。

  2. リスト内の目的のパイプラインの名前をクリックします。

  3. [設定] をクリックします。

  4. サーバレスの横のチェックボックスをオンにします。

  5. [保存して開始] をクリックします。

重要

サーバレスを有効にすると、パイプラインに設定したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン設定に再設定する必要があります。

サーバレス パイプラインの DBU 使用状況を調べるにはどうすればよいですか?

サーバレス DLT パイプラインの DBU 利用状況は、 Databricks システムテーブルの一部である課金利用テーブルを照会することで確認できます。 「サーバレス DLT パイプラインのDBU消費量は?」を参照してください。