サーバレス Delta Live Tables パイプラインの構成
この記事では、サーバレス Delta Live Tables パイプラインの設定について説明します。
Databricks 、サーバレスを使用して新しいパイプラインを開発することをお勧めします。 一部のワークロードでは、従来のコンピュートの構成や、従来のコンピュートの操作が必要になる場合があります Hive metastore。 「 パイプラインのコンピュートの設定 」および「Delta Live Tables Delta Live Tablesレガシー での パイプラインの使用Hive metastore 」を参照してください。
注:
サーバレス パイプラインは常に Unity Catalogを使用します。 Unity Catalog for Delta Live Tables はパブリック プレビュー段階であり、いくつかの制限があります。 「Delta Live Tables パイプラインで Unity Catalog を使用する」を参照してください。
サーバレス パイプラインの JSON 設定で、
clusters
オブジェクトにコンピュート設定を手動で追加することはできません。 これを行おうとすると、エラーが発生します。サーバーレス DLT パイプラインの適格性と有効化に関する情報については、 「サーバーレス コンピュートの有効化」を参照してください。
サーバレス DLT パイプラインとのAWS PrivateLink 接続を使用する必要がある場合は、 Databricksの担当者にお問い合わせください。
要件
サーバレス パイプラインを使用するには、ワークスペースで Unity Catalog が有効になっている必要があります。
サーバーの使用条件に同意している必要があります。
ワークスペースは、サーバーレス対応のリージョンにある必要があります。
サーバレス パイプラインの推奨構成
重要
サーバレス パイプラインの設定には、クラスターの作成権限は必要ありません。 By Default , all workspace users can use サーバレス パイプライン.
サーバレス パイプラインでは、 Databricks がすべてのインフラストラクチャを管理するため、ほとんどの設定オプションが削除されます。 サーバレス パイプラインを設定するには、次の手順を実行します。
サイドバーの 「Delta Live Tables 」をクリックします。
「パイプラインの作成」をクリックします。
一意の パイプライン名を指定します。
サーバレスの横のチェックボックスをオンにします。
ファイル ピッカーを使用して、ノートブックとワークスペース ファイルをソース コードとして構成します。
少なくとも 1 つのソース コード資産を追加する必要があります。
「 ソースコードを追加 」ボタンを使用して、ソースコードアセットを追加します。
データを公開する カタログ を選択します。
カタログで スキーマ を選択します。 パイプラインで定義されているすべてのストリーミング テーブルと具体化されたビューは、このスキーマで作成されます。
[作成] をクリックします。
これらの推奨構成では、 トリガー モードと Current チャンネルで実行するように構成された新しいパイプラインが作成されます。 この構成は、開発やテストなど、多くのユースケースに推奨され、スケジュールに従って実行する必要がある本番運用ワークロードに適しています。 パイプラインのスケジューリングの詳細については、「Delta Live Tables パイプライン タスク for ジョブ」を参照してください。
また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。 既存のパイプラインをサーバレスを使用するように変換するを参照してください。
その他の構成に関する考慮事項
次の設定オプションは、サーバレス パイプラインでも使用できます。
本番運用でパイプラインを実行する場合は、 Continuous パイプライン モードを使用することを選択できます。 「トリガー パイプライン モードと継続的パイプライン モード」を参照してください。
成功または失敗の条件に基づくEメール更新の 通知 を追加します。 「パイプラインイベントのEメール通知の追加」を参照してください。
[Configuration] フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
ソース コードで参照できる任意のパラメーターを設定します。 「 Delta Live Tables パイプラインでのパラメーターの使用」を参照してください。
パイプライン設定と Spark 設定を構成します。 Delta Live Tables プロパティ・リファレンスを参照してください。
Preview チャンネルを使用して、保留中の Delta Live Tables ランタイムの変更に対してパイプラインをテストし、新機能を試用します。
Budget ポリシー
プレビュー
この機能はパブリックプレビュー段階です。
Budget ポリシー を使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレスチェックボックスを選択すると、[Budget ポリシー]設定が表示され、パイプラインに適用するポリシーを選択できます。タグは予算ポリシーから継承され、ワークスペース管理者のみが編集できます。
注:
予算ポリシーが割り当てられた後、既存のパイプラインにはポリシーのタグが自動的に付けられません。 既存のパイプラインにポリシーをアタッチする場合は、既存のパイプラインを手動で更新する必要があります。
budget ポリシーの詳細については、 Attribute サーバレス usage with budget ポリシーを参照してください。
サーバレス パイプライン features
サーバレス パイプラインには、設定の簡素化に加えて、次の機能があります。
マテリアライズド・ビューの増分更新: マテリアライズド・ビューの更新は、可能な限り増分的に更新されます。 増分更新の結果は、完全再計算と同じです。 更新では、結果を増分的にコンピュートできない場合、完全更新が使用されます。 マテリアライズド・ビューの増分更新を参照してください。
ストリーム パイプライン: データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプラインです。 つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス DLT パイプライン マイクロバッチを並行して実行することで、コンピュート リソースの使用率を向上させることができます。 ストリーム パイプラインは、サーバレス DLT パイプラインのデフォルトによって有効になります。
Vertical オートスケール: サーバレス DLT パイプラインは、メモリ不足エラーによる失敗なしにDatabricks Delta Live Tablesパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てることで 拡張オートスケールによって提供される水平オートスケールに追加します。vertical オートスケールとは
縦型オートスケールとは何ですか?
サーバレス DLT パイプライン オートスケールは、メモリ不足エラーによって失敗することなくDelta Live Tablesパイプラインの更新を実行するために、最もコスト効率の高い利用可能なインスタンス タイプを自動的に割り当てます。 垂直オートスケールは、パイプラインの更新を実行するために大規模なインスタンス タイプが必要な場合はスケールアップし、小規模なインスタンス タイプで更新を実行できると判断された場合はスケールダウンします。 垂直オートスケールは、ドライバー ノード、ワーカー ノード、またはドライバー ノードとワーカー ノードの両方をスケールアップまたはスケールダウンするかどうかを決定します。
垂直オートスケールは、 Databricks SQLマテリアライズド ビューおよびストリーミング テーブルで使用されるパイプラインを含む、すべてのサーバーレス DLT パイプラインに使用されます。
Vertical オートスケールは、メモリ不足エラーが原因で失敗したパイプライン更新を検出することで機能します。 Vertical オートスケールは、失敗した更新から収集されたメモリ不足データに基づいて、これらの障害が検出された場合に、より大きなインスタンスタイプを割り当てます。 本番運用モードでは、新しいコンピュートリソースを使用した新しい更新が自動的に開始されます。 開発モードでは、新しい更新プログラムを手動で開始するときに、新しいコンピュート リソースが使用されます。
垂直オートスケールは、割り当てられたインスタンスのメモリが一貫して十分に活用されていないことを検出すると、次の GitHub 更新で使用するインスタンス タイプをスケールダウンします。
既存のパイプラインをサーバレスを使用するように変換する
Unity Catalog で設定された既存のパイプラインをサーバレス パイプラインに変換できます。次の手順を実行します。
サイドバーの 「Delta Live Tables 」をクリックします。
リスト内の目的のパイプラインの名前をクリックします。
[設定] をクリックします。
サーバレスの横のチェックボックスをオンにします。
[保存して開始] をクリックします。
重要
サーバレスを有効にすると、パイプラインに設定したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン設定に再設定する必要があります。
サーバレス パイプラインの DBU 使用状況を調べるにはどうすればよいですか?
サーバレス DLT パイプラインの DBU 利用状況は、 Databricks システムテーブルの一部である課金利用テーブルを照会することで確認できます。 「サーバレス DLT パイプラインのDBU消費量は?」を参照してください。