メインコンテンツまでスキップ

サーバレス パイプラインの構成

この記事では、サーバレス LakeFlow 宣言型パイプラインの設定について説明します。

Databricks 、サーバレスを使用して新しいパイプラインを開発することをお勧めします。 一部のワークロードでは、従来のコンピュートの構成や、従来のコンピュートの操作が必要になる場合があります Hive metastore。 「宣言型パイプラインのコンピュートの設定 」および「 レガシー でのLakeFlowLakeFlow宣言型パイプラインの使用Hive metastore 」を参照してください。

注記
  • サーバレス パイプラインは常に Unity Catalogを使用します。 「宣言型パイプラインでの Unity Catalogの使用LakeFlow 」を参照してください。

  • サーバレス コンピュートの制限事項については、 サーバレス コンピュートの制限事項を参照してください。

  • サーバレス パイプラインの JSON 設定で、clusters オブジェクトにコンピュート設定を手動で追加することはできません。 これを行おうとすると、エラーが発生します。

  • サーバレス 宣言型パイプラインで AWSPrivateLink 接続を使用する必要がある場合は、LakeFlowDatabricks 担当者にお問い合わせください。

必要条件

  • サーバレス パイプラインを使用するには、ワークスペースで Unity Catalog が有効になっている必要があります。

  • サーバレスの 利用規約に同意しておく必要があります。

  • ワークスペースは、 サーバレスが有効なリージョンにある必要があります。

サーバレス パイプラインの推奨構成

important

クラスター作成権限は、サーバレス パイプラインの設定には必要ありません。 デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。

サーバレス パイプラインでは、 Databricks がすべてのインフラストラクチャを管理するため、ほとんどの設定オプションが削除されます。 サーバレス パイプラインを設定するには、次の手順を実行します。

  1. サイドバーの 「パイプライン 」をクリックします。

  2. パイプラインの作成 をクリックします。

  3. 一意の パイプライン名 を指定します。

  4. サーバレス の横のチェックボックスをオンにします。

  5. (オプション) ファイルピッカーアイコン ファイル ピッカーを使用して、ノートブックとワークスペース ファイルを ソース コード として構成します。

    • ソース コードを追加しない場合は、パイプラインの新しいノートブックが作成されます。ノートブックはユーザーディレクトリの新しいディレクトリに作成され、パイプラインの作成後に、このノートブックにアクセスするためのリンクが パイプラインの詳細 ペインの ソースコード フィールドに表示されます。

      • このノートブックにアクセスするためのリンクは、パイプライン を作成すると、パイプラインの詳細 パネルの ソース コード フィールドの下に表示されます。
    • ソースコードを追加 ボタンを使用して、ソースコードアセットを追加します。

  6. データを公開する カタログ を選択します。

  7. カタログで スキーマ を選択します。 パイプラインで定義されているすべてのストリーミング テーブルとマテリアライズドビューは、このスキーマで作成されます。

  8. 作成 をクリックします。

これらの推奨構成では、 トリガー モードと Current チャンネルで実行するように構成された新しいパイプラインが作成されます。 この構成は、開発やテストなど、多くのユースケースに推奨され、スケジュールに従って実行する必要がある本番運用ワークロードに適しています。 パイプラインのスケジューリングの詳細については、 ジョブのパイプライン タスクを参照してください。

また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。 既存のパイプラインをサーバレスを使用するように変換するを参照してください。

その他の構成に関する考慮事項

次の設定オプションは、サーバレス パイプラインでも使用できます。

サーバレス 予算ポリシー

備考

プレビュー

この機能は パブリック プレビュー段階です。

サーバレス 予算ポリシー を使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレス チェックボックスをオンにすると、 予算ポリシー 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス 予算ポリシーから継承され、ワークスペース管理者のみが編集できます。

注記

サーバレス予算ポリシーを割り当てた後、既存のパイプラインはポリシーで自動的にタグ付けされません。 既存のパイプラインにポリシーをアタッチする場合は、既存のパイプラインを手動で更新する必要があります。

サーバレス 予算ポリシーの詳細については、 サーバレス 予算ポリシーによる属性の使用を参照してください。

パフォーマンスモードを選択する

トリガーされたパイプラインの場合、パイプライン スケジューラの Performance optimized 設定を使用して、サーバレス コンピュート パフォーマンス モードを選択できます。 この設定を無効にすると、パイプラインは標準パフォーマンス モードを使用します。標準パフォーマンス モードは、起動の待機時間がわずかに長くても許容されるワークロードのコストを削減するように設計されています。標準パフォーマンス モードを使用するサーバレス ワークロードは、通常、トリガされてから 4 分から 6 分以内に開始されます。これは、コンピュートの可用性と最適化されたスケジュールによって異なります。

[パフォーマンスの最適化 ] を有効にすると、パイプラインのパフォーマンスが最適化されるため、時間に敏感なワークロードの起動と実行が高速になります。

注記

標準パフォーマンス モードは、 トリガーされた パイプライン モードでのみサポートされます。連続実行はサポートされていません。

サーバレス パイプライン の機能

サーバレス パイプラインには、設定の簡素化に加えて、次の機能があります。

  • マテリアライズドビューの増分更新 : マテリアライズドビューの更新は、可能な限り増分的に更新されます。 増分更新の結果は、完全再計算と同じです。 更新では、結果を増分的にコンピュートできない場合、完全更新が使用されます。 Incremental 更新 for マテリアライズドビューを参照してください。

  • ストリーム パイプライン : データ取り込みなどのストリーミング データ ワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプライン です。 つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス LakeFlow 宣言型パイプラインの実行マイクロバッチを並行して実行することで、コンピュートリソースの使用率を向上させることができるのです。 ストリーム パイプラインは、サーバレス LakeFlow 宣言型パイプラインのデフォルトによって有効になります。

  • Vertical オートスケール : サーバレス LakeFlow 宣言型パイプラインは、拡張オートスケールによって提供される水平オートスケールに加えて Databricks メモリ不足エラーによるパイプラインの失敗なしにパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てます。 vertical オートスケールとは

既存のパイプラインをサーバレスを使用するように変換する

Unity Catalog で設定された既存のパイプラインをサーバレス パイプラインに変換できます。次の手順を実行します。

  1. サイドバーの 「パイプライン 」をクリックします。
  2. リスト内の目的のパイプラインの名前をクリックします。
  3. 設定 をクリックします。
  4. サーバレス の横のチェックボックスをオンにします。
  5. 保存して開始 をクリックします。
important

サーバレスを有効にすると、パイプラインに設定したコンピュート設定はすべて削除されます。 パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン設定に再設定する必要があります。

サーバレス パイプラインの DBU 使用状況はどうすればわかりますか?

DBUサーバレスLakeFlow 宣言型パイプラインのDatabricks 使用状況は、 システムテーブルの一部である課金利用テーブルをクエリすることで確認できます。「サーバレス パイプラインのDBU消費量は?」を参照してください。