サーバレス DLT パイプラインの構成
この記事では、サーバレス DLT パイプラインの設定について説明します。
Databricksではサーバレスを使用して新しいパイプラインを開発することをお勧めします。 一部のワークロードでは、従来のコンピュートの構成や、レガシーなHive metastoreの操作が必要になる場合があります。 DLT パイプラインのコンピュートの設定およびレガシーHive metastoreでの DLT パイプラインの使用を参照してください。
-
サーバレス パイプラインは常に Unity Catalogを使用します。 Unity Catalog for DLT はパブリック プレビュー段階であり、いくつかの制限があります。「DLT パイプラインで Unity Catalog を使用する」を参照してください。
-
サーバレス コンピュートの制限事項については、 サーバレス コンピュートの制限事項を参照してください。
-
サーバレス パイプラインの JSON 設定で、
clusters
オブジェクトにコンピュート設定を手動で追加することはできません。 これを行おうとすると、エラーが発生します。 -
サーバレス DLT パイプラインで AWS PrivateLink 接続を使用する必要がある場合は、 Databricks 担当者にお問い合わせください。
必要条件
-
サーバレス パイプラインを使用するには、ワークスペースで Unity Catalog が有効になっている必要があります。
-
サーバレスの 利用規約に同意しておく必要があります。
-
ワークスペースは、 サーバレスが有効なリージョンにある必要があります。
サーバレス パイプラインの推奨構成
クラスター作成権限は、サーバレス パイプラインの設定には必要ありません。 デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。
サーバレス パイプラインでは、 Databricks がすべてのインフラストラクチャを管理するため、ほとんどの設定オプションが削除されます。 サーバレス パイプラインを設定するには、次の手順を実行します。
-
サイドバーの DLT をクリックします。
-
パイプラインの作成 をクリックします。
-
一意の パイプライン名 を指定します。
-
サーバレス の横のチェックボックスをオンにします。
-
(オプション)
ファイル ピッカーを使用して、ノートブックとワークスペース ファイルを ソース コード として構成します。
-
ソース コードを追加しない場合は、パイプラインの新しいノートブックが作成されます。 ノートブックはユーザーディレクトリの新しいディレクトリに作成され、パイプラインの作成後に、このノートブックにアクセスするためのリンクが パイプラインの詳細 ペインの ソースコード フィールドに表示されます。
- このノートブックにアクセスするためのリンクは、パイプラインを作成すると、 パイプラインの詳細 パネルの ソース コード フィールドの下に表示されます。
-
ソースコードを追加 ボタンを使用して、ソースコードアセットを追加します。
-
-
データを公開する カタログ を選択します。
-
カタログで スキーマ を選択します。 パイプラインで定義されているすべてのストリーミング テーブルとマテリアライズドビューは、このスキーマで作成されます。
-
作成 をクリックします。
これらの推奨構成では、 トリガー モードと Current チャンネルで実行するように構成された新しいパイプラインが作成されます。 この構成は、開発やテストなど、多くのユースケースに推奨され、スケジュールに従って実行する必要がある本番運用ワークロードに適しています。 パイプラインのスケジューリングの詳細については、「 ジョブの DLT パイプライン タスク」を参照してください。
また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。 既存のパイプラインをサーバレスを使用するように変換するを参照してください。
その他の構成に関する考慮事項
次の設定オプションは、サーバレス パイプラインでも使用できます。
-
本番運用でパイプラインを実行する場合は、 継続的 パイプライン モードを使用することを選択できます。 トリガー パイプライン モードと継続的パイプライン モードを参照してください。
-
成功または失敗の条件に基づくEメール更新の 通知 を追加します。 パイプラインイベントのEメール通知の追加を参照してください。
-
設定 フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
- ソース コードで参照できる任意のパラメーターを設定します。 「DLT パイプラインでのパラメーターの使用」を参照してください。
- パイプライン設定と Spark 設定を構成します。 DLT プロパティのリファレンスを参照してください。
-
Preview チャンネルを使用して、保留中の DLT ランタイムの変更に対してパイプラインをテストし、新機能を試用します。
サーバレス 予算ポリシー
プレビュー
この機能は パブリック プレビュー段階です。
サーバレス 予算ポリシー を使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレス チェックボックスをオンにすると、 予算ポリシー 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス 予算ポリシーから継承され、ワークスペース管理者のみが編集できます。
サーバレス 予算ポリシーが割り当てられた後、既存のパイプラインはポリシーで自動的にタグ付けされません。 既存のパイプラインにポリシーをアタッチする場合は、既存のパイプラインを手動で更新する必要があります。
サーバレス 予算ポリシーの詳細については、 サーバレス 予算ポリシーによる属性の使用を参照してください。
サーバレス パイプライン の機能
サーバレス パイプラインには、設定の簡素化に加えて、次の機能があります。
-
マテリアライズドビューの増分更新 : マテリアライズドビューの更新は、可能な限り増分的に更新されます。 増分更新の結果は、完全再計算と同じです。 更新では、結果を増分的にコンピュートできない場合、完全更新が使用されます。 Incremental 更新 for マテリアライズドビューを参照してください。
-
ストリーム パイプライン : データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプライン です。 つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス DLT パイプライン マイクロバッチを並行して実行することで、コンピュート リソースの使用率を向上させることができます。 ストリーム パイプラインは、サーバレス DLT パイプラインのデフォルトによって有効になります。
-
垂直 オートスケール : サーバレス DLT パイプラインは、メモリ不足エラーによる失敗なしに DLT パイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てることで Databricks 拡張 オートスケールによって提供される水平オートスケールに追加されます。 垂直 オートスケールとは
既存のパイプラインをサーバレスを使用するように変換する
Unity Catalog で設定された既存のパイプラインをサーバレス パイプラインに変換できます。次の手順を実行します。
- サイドバーの DLT をクリックします。
- リスト内の目的のパイプラインの名前をクリックします。
- 設定 をクリックします。
- サーバレス の横のチェックボックスをオンにします。
- 保存して開始 をクリックします。
サーバレスを有効にすると、パイプラインに設定したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン設定に再設定する必要があります。
サーバレス パイプラインの DBU 使用状況はどうすればわかりますか?
サーバレス DLT パイプラインの DBU 利用状況は、 Databricks システムテーブルの一部である課金利用テーブルを照会することで確認できます。 サーバレス DLT パイプラインのDBU消費量は?を参照してください。