サーバレス DLT パイプラインの構成
この記事では、サーバレス DLT パイプラインの設定について説明します。
Databricks 、サーバレスを使用して新しいパイプラインを開発することをお勧めします。 一部のワークロードでは、従来のコンピュートの構成や、従来のコンピュートの操作が必要になる場合があります Hive metastore。 DLT パイプラインのコンピュートの設定およびレガシーHive metastoreでの DLT パイプラインの使用を参照してください。
-
サーバレス パイプラインは常に Unity Catalogを使用します。 Unity Catalog for DLT はパブリック プレビュー段階であり、いくつかの制限があります。「DLT パイプラインで Unity Catalog を使用する」を参照してください。
-
サーバレス コンピュートの制限事項については、 サーバレス コンピュートの制限事項を参照してください。
-
サーバレス パイプラインの JSON 設定で、
clusters
オブジェクトにコンピュート設定を手動で追加することはできません。 これを行おうとすると、エラーが発生します。 -
サーバレス DLT パイプラインで AWS PrivateLink 接続を使用する必要がある場合は、 Databricks 担当者にお問い合わせください。
必要条件
-
サーバレス パイプラインを使用するには、ワークスペースで Unity Catalog が有効になっている必要があります。
-
サーバレス の利用規約に同意しておく必要があります。
-
ワークスペースは 、サーバレスが有効なリージョンにある必要があります。
サーバレス パイプラインの推奨構成
クラスター作成権限は、サーバレス パイプラインの設定には必要ありません。 By Default , all workspace users can use サーバレス パイプライン.
サーバレス パイプラインでは、 Databricks がすべてのインフラストラクチャを管理するため、ほとんどの設定オプションが削除されます。 サーバレス パイプラインを設定するには、次の手順を実行します。
-
サイドバーの 「DLT 」をクリックします。
-
パイプラインの作成 をクリックします。
-
一意の パイプライン名 を指定します。
-
サーバレス の横のチェックボックスをオンにします。
-
(オプション)
ファイル ピッカーを使用して、ノートブックとワークスペース ファイルを ソース コード として構成します。
-
ソース コードを追加しない場合は、パイプラインの新しいノートブックが作成されます。 ノートブックはユーザーディレクトリの新しいディレクトリに作成され、パイプラインの作成後に、このノートブックにアクセスするためのリンクが パイプラインの詳細 ペインの ソースコード フィールドに表示されます。
- このノートブックにアクセスするためのリンクは、パイプラインを作成すると、 パイプラインの詳細 パネルの ソース コード フィールドの下に表示されます。
-
ソースコードを追加 ボタンを使用して、ソースコードアセットを追加します。
-
-
データを公開する カタログ を選択します。
-
カタログで スキーマ を選択します。 パイプラインで定義されているすべてのストリーミング テーブルとマテリアライズドビューは、このスキーマで作成されます。
-
作成 をクリックします。
これらの推奨構成では、 トリガー モードと Current チャンネルで実行するように構成された新しいパイプラインが作成されます。 この構成は、開発やテストなど、多くのユースケースに推奨され、スケジュールに従って実行する必要がある本番運用ワークロードに適しています。 パイプラインのスケジューリングの詳細については、「 ジョブの DLT パイプライン タスク」を参照してください。
また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。 既存のパイプラインをサーバレスを使用するように変換するを参照してください。
その他の構成に関する考慮事項
次の設定オプションは、サーバレス パイプラインでも使用できます。
-
本番運用でパイプラインを実行する場合は、 Continuous パイプライン モードを使用することを選択できます。 「トリガー パイプライン モードと継続的パイプライン モード」を参照してください。
-
成功または失敗の条件に基づくEメール更新の 通知 を追加します。 「パイプラインイベントのEメール通知の追加」を参照してください。
-
Configuration フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
- ソース コードで参照できる任意のパラメーターを設定します。 「DLT パイプラインでのパラメーターの使用」を参照してください。
- パイプライン設定と Spark 設定を構成します。 DLT プロパティのリファレンスを参照してください。
-
Preview チャンネルを使用して、保留中の DLT ランタイムの変更に対してパイプラインをテストし、新機能を試用します。
予算ポリシー
プレビュー
この機能は パブリック プレビュー段階です。
予算ポリシー を使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレス チェックボックスを選択すると、 予算ポリシー 設定が表示され、パイプラインに適用するポリシーを選択できます。タグは予算ポリシーから継承され、ワークスペース管理者のみが編集できます。
予算ポリシーが割り当てられた後、既存のパイプラインにはポリシーのタグが自動的に付けられません。 既存のパイプラインにポリシーをアタッチする場合は、既存のパイプラインを手動で更新する必要があります。
予算ポリシーの詳細については、 予算ポリシーに関する Attribute サーバレス usage を参照してください。
サーバレス パイプライン features
サーバレス パイプラインには、設定の簡素化に加えて、次の機能があります。
-
マテリアライズドビューの増分更新 : マテリアライズドビューの更新は、可能な限り増分的に更新されます。 増分更新の結果は、完全再計算と同じです。 更新では、結果を増分的にコンピュートできない場合、完全更新が使用されます。 Incremental 更新 for マテリアライズドビューを参照してください。
-
ストリーム パイプライン : データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプライン です。 つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス DLT パイプライン マイクロバッチを並行して実行することで、コンピュート リソースの使用率を向上させることができます。 ストリーム パイプラインは、サーバレス DLT パイプラインのデフォルトによって有効になります。
-
Vertical オートスケール : サーバレス DLT パイプラインは、メモリ不足エラーによる失敗なしに DLT パイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てることで Databricks Enhanced オートスケールによって提供される水平オートスケールに追加されます。 vertical オートスケールとは
vertical オートスケールとは?
サーバレス DLT パイプライン vertical オートスケールは、メモリ不足エラーによる失敗なしに DLT パイプラインの更新を実行するために、最もコスト効率の高い使用可能なインスタンスタイプを自動的に割り当てます。 Vertical オートスケールは、パイプライン更新を実行するためにより大きなインスタンスタイプが必要な場合にスケールアップし、小さなインスタンスタイプで更新を実行できると判断した場合にもスケールダウンします。 Vertical オートスケールは、ドライバー ノード、ワーカー ノード、またはドライバー ノードとワーカー ノードの両方をスケールアップまたはスケールダウンするかどうかを決定します。
Vertical オートスケールは、 Databricks SQL マテリアライズドビュー やストリーミングテーブルで使用されるパイプラインを含む、すべてのサーバレス DLT パイプラインに使用されます。
Vertical オートスケールは、メモリ不足エラーが原因で失敗したパイプライン更新を検出することで機能します。 Vertical オートスケールは、失敗した更新から収集されたメモリ不足データに基づいて、これらの障害が検出された場合に、より大きなインスタンスタイプを割り当てます。 本番運用モードでは、新しいコンピュートリソースを使用した新しい更新が自動的に開始されます。 開発モードでは、新しい更新プログラムを手動で開始するときに、新しいコンピュート リソースが使用されます。
vertical オートスケールは、割り当てられたインスタンスのメモリが一貫して十分に活用されていないことを検出した場合、インスタンスタイプをスケールダウンして次回のパイプライン更新で使用します。
既存のパイプラインをサーバレスを使用するように変換する
Unity Catalog で設定された既存のパイプラインをサーバレス パイプラインに変換できます。次の手順を実行します。
- サイドバーの 「DLT 」をクリックします。
- リスト内の目的のパイプラインの名前をクリックします。
- 設定 をクリックします。
- サーバレス の横のチェックボックスをオンにします。
- 保存して開始 をクリックします。
サーバレスを有効にすると、パイプラインに設定したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン設定に再設定する必要があります。
サーバレス パイプラインの DBU 使用状況はどうすればわかりますか?
サーバレス DLT パイプラインの DBU 利用状況は、 Databricks システムテーブルの一部である課金利用テーブルを照会することで確認できます。 「サーバレス DLT パイプラインのDBU消費量は?」を参照してください。