サーバレスパイプラインの構成

この記事では、サーバレス LakeFlow 宣言型パイプラインの設定について説明します。

Databricks 、サーバレスを使用して新しいパイプラインを開発することをお勧めします。一部のワークロードでは、従来のコンピュートの構成や、従来のコンピュートの操作が必要になる場合があります Hive metastore。「宣言型パイプラインのコンピュートの設定」および「レガシーでのLakeFlow LakeFlow宣言型パイプラインの使用Hive metastore 」を参照してください。

注記

サーバレスパイプラインは常に Unity Catalogを使用します。「宣言型パイプラインでの Unity Catalogの使用LakeFlow 」を参照してください。
サーバレスコンピュートの制限事項については、サーバレスコンピュートの制限事項を参照してください。
サーバレスパイプラインの JSON 設定で、clusters オブジェクトにコンピュート設定を手動で追加することはできません。これを行おうとすると、エラーが発生します。
サーバレス宣言型パイプラインで AWSPrivateLink 接続を使用する必要がある場合は、LakeFlowDatabricks 担当者にお問い合わせください。

必要条件

サーバレスパイプラインを使用するには、ワークスペースで Unity Catalog が有効になっている必要があります。
サーバレスの利用規約に同意しておく必要があります。
ワークスペースは、サーバレスが有効なリージョンにある必要があります。

サーバレスパイプラインの推奨構成

important

クラスター作成権限は、サーバレスパイプラインの設定には必要ありません。デフォルトで、すべてのワークスペースユーザーはサーバレスパイプラインを使うことができます。

サーバレスパイプラインでは、 Databricks がすべてのインフラストラクチャを管理するため、ほとんどの設定オプションが削除されます。サーバレスパイプラインを設定するには、次の手順を実行します。

ワークスペースで、サイドバーの Jobs & パイプライン をクリックします。
[ 新規 ] で、[ ETL パイプライン ] をクリックします。
一意の パイプライン名 を指定します。
サーバレス の横のチェックボックスをオンにします。
(オプション) ファイルピッカーを使用して、ノートブックとワークスペースファイルを ソースコード として構成します。
- ソースコードを追加しない場合は、パイプラインの新しいノートブックが作成されます。ノートブックはユーザーディレクトリの新しいディレクトリに作成され、パイプラインの作成後に、このノートブックにアクセスするためのリンクが パイプラインの詳細 ペインの ソースコード フィールドに表示されます。
  - このノートブックにアクセスするためのリンクは、パイプライン を作成すると、パイプラインの詳細 パネルの ソースコード フィールドの下に表示されます。
- ソースコードを追加 ボタンを使用して、ソースコードアセットを追加します。
データを公開する カタログ を選択します。
カタログで スキーマ を選択します。パイプラインで定義されているすべてのストリーミングテーブルとマテリアライズドビューは、このスキーマで作成されます。
作成をクリックします。

これらの推奨構成では、 トリガー モードと Current チャンネルで実行するように構成された新しいパイプラインが作成されます。この構成は、開発やテストなど、多くのユースケースに推奨され、スケジュールに従って実行する必要がある本番運用ワークロードに適しています。パイプラインのスケジューリングの詳細については、ジョブのパイプラインタスクを参照してください。

また、 Unity Catalog で設定された既存のパイプラインをサーバレスを使用するように変換することもできます。既存のパイプラインをサーバレスを使用するように変換するを参照してください。

その他の構成に関する考慮事項

次の設定オプションは、サーバレスパイプラインでも使用できます。

本番運用でパイプラインを実行する場合は、 継続的 パイプラインモードを使用することを選択できます。トリガーパイプラインモードと継続的パイプラインモードを参照してください。
成功または失敗の条件に基づくEメール更新の通知を追加します。パイプラインイベントのEメール通知の追加を参照してください。
設定フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
- ソースコードで参照できる任意のパラメーターを設定します。「LakeFlow宣言型パイプラインでパラメーターを使用する」を参照してください。
- パイプライン設定と Spark 設定を構成します。「宣言型パイプラインのプロパティリファレンス」LakeFlowを参照してください。
Preview チャンネルを使用して、保留中の LakeFlow 宣言型パイプラインランタイムの変更に対してパイプラインをテストし、新機能を試用します。

サーバレス予算ポリシー

備考

プレビュー

この機能はパブリックプレビュー段階です。

サーバレス予算ポリシーを使用すると、組織はサーバレスの使用状況にカスタムタグを適用して、詳細な請求属性を実現できます。 サーバレス チェックボックスをオンにすると、 予算ポリシー 設定が表示され、パイプラインに適用するポリシーを選択できます。タグはサーバレス予算ポリシーから継承され、ワークスペース管理者のみが編集できます。

注記

サーバレス予算ポリシーを割り当てた後、既存のパイプラインはポリシーで自動的にタグ付けされません。既存のパイプラインにポリシーをアタッチする場合は、既存のパイプラインを手動で更新する必要があります。

サーバレス予算ポリシーの詳細については、サーバレス予算ポリシーによる属性の使用を参照してください。

パフォーマンスモードを選択する

トリガーされたパイプラインの場合、パイプラインスケジューラの Performance optimized 設定を使用して、サーバレスコンピュートパフォーマンスモードを選択できます。この設定を無効にすると、パイプラインは標準パフォーマンスモードを使用します。標準パフォーマンスモードは、起動の待機時間がわずかに長くても許容されるワークロードのコストを削減するように設計されています。標準パフォーマンスモードを使用するサーバレスワークロードは、通常、トリガされてから 4 分から 6 分以内に開始されます。これは、コンピュートの可用性と最適化されたスケジュールによって異なります。

[パフォーマンスの最適化 ] を有効にすると、パイプラインのパフォーマンスが最適化されるため、時間に敏感なワークロードの起動と実行が高速になります。

注記

標準パフォーマンスモードは、 トリガーされた パイプラインモードでのみサポートされます。連続実行はサポートされていません。

サーバレスパイプラインの機能

サーバレスパイプラインには、設定の簡素化に加えて、次の機能があります。

マテリアライズドビューの増分更新 : マテリアライズドビューの更新は、可能な限り増分的に更新されます。増分更新の結果は、完全再計算と同じです。更新では、結果を増分的にコンピュートできない場合、完全更新が使用されます。 Incremental 更新 for マテリアライズドビューを参照してください。
ストリームパイプライン : データ取り込みなどのストリーミングデータワークロードの使用率、スループット、待機時間を改善するために、マイクロバッチは パイプライン です。つまり、標準的な Spark 構造化ストリーミングのようにマイクロバッチを逐次的に実行するのではなく、サーバレス LakeFlow 宣言型パイプラインの実行マイクロバッチを並行して実行することで、コンピュートリソースの使用率を向上させることができるのです。ストリームパイプラインは、サーバレス LakeFlow 宣言型パイプラインのデフォルトによって有効になります。
Vertical オートスケール : サーバレス LakeFlow 宣言型パイプラインは、拡張オートスケールによって提供される水平オートスケールに加えて Databricks メモリ不足エラーによるパイプラインの失敗なしにパイプラインを実行できる最もコスト効率の高いインスタンスタイプを自動的に割り当てます。 vertical オートスケールとは

既存のパイプラインをサーバレスを使用するように変換する

Unity Catalog で設定された既存のパイプラインをサーバレスパイプラインに変換できます。次の手順を実行します。

Databricks ワークスペースのサイドバーで、[ ジョブとパイプライン] をクリックします。
パイプライン の [名前 ] をクリックします。
サイドバーの 「パイプライン 」をクリックします。
リスト内の目的のパイプラインの名前をクリックします。
設定をクリックします。
サーバレス の横のチェックボックスをオンにします。
保存して開始 をクリックします。

important

サーバレスを有効にすると、パイプラインに設定したコンピュート設定はすべて削除されます。パイプラインを非サーバレス更新に戻す場合は、必要なコンピュート設定をパイプライン設定に再設定する必要があります。

サーバレスパイプラインの DBU 使用状況はどうすればわかりますか?

DBUサーバレスLakeFlow 宣言型パイプラインのDatabricks 使用状況は、システムテーブルの一部である課金利用テーブルをクエリすることで確認できます。「サーバレスパイプラインのDBU消費量は?」を参照してください。

必要条件​

サーバレス パイプラインの推奨構成​

その他の構成に関する考慮事項​

サーバレス 予算ポリシー​

パフォーマンスモードを選択する​

サーバレス パイプライン の機能​

既存のパイプラインをサーバレスを使用するように変換する​

サーバレス パイプラインの DBU 使用状況はどうすればわかりますか?​