パイプラインを構成する

この記事では、ワークスペース UI を使用したパイプラインの基本構成について説明します。

この記事の設定手順では、Unity Catalog を使用します。レガシーHive metastoreでパイプラインを構成する手順については、「レガシーHive metastoreでのLakeflow Spark宣言型パイプラインの使用」を参照してください。

この記事では、パイプラインの現在のデフォルトの公開モードの機能について説明します。2025 年 2 月 5 日より前に作成されたパイプラインでは、従来の公開モードとLIVE仮想スキーマが使用される可能性があります。LIVE スキーマ (レガシー)を参照してください。

注記

UI には、JSON で設定を表示および編集するオプションがあります。ほとんどの設定は、UI または JSON 仕様を使用して構成できます。一部の詳細オプションは、JSON 構成でのみ使用できます。

JSON 構成ファイルは、パイプラインを新しい環境にデプロイする場合や、CLI またはREST APIを使用する場合にも役立ちます。

パイプラインJSON構成設定の完全なリファレンスについては、「パイプライン構成」を参照してください。

新しいパイプラインを構成する

新しいパイプラインを構成するには、次の手順を実行します。

サイドバーの上部にある新規を選択し、 ETL パイプライン 。
上部に、パイプラインに一意の名前を付けます。
名前の下に、選択されたデフォルトのカタログとスキーマが表示されます。これらを変更して、パイプラインに異なるデフォルトを設定します。

デフォルトのカタログとデフォルトのスキーマは、コード内でカタログまたはスキーマを使用してデータセットを修飾していない場合に、データセットの読み取りまたは書き込みが行われる場所です。詳細については、 Databricksのデータベースオブジェクト」を参照してください。
パイプラインを作成するには、希望するオプションを選択します。
- SQL のサンプルコードから開始して、 SQL のサンプルコードを含む新しいパイプラインとフォルダー構造を作成します。
- Python のサンプルコードから始めて、 Python のサンプルコードを含む新しいパイプラインとフォルダー構造を作成します。
- 単一の変換から始めて、 新しい空のコードファイルを使用して、新しいパイプラインとフォルダー構造を作成します。
- 既存のアセットを追加して 、ワークスペース内の既存のコードファイルに関連付けることができるパイプラインを作成します。
- ソース管理されたプロジェクトを作成して、 新しい Databricks Asset Bundles プロジェクトでパイプラインを作成するか、既存のバンドルにパイプラインを追加します。
ETL パイプラインには、SQL と Python の両方のソースコードファイルを含めることができます。新しいパイプラインを作成し、サンプルコードの言語を選択すると、その言語はデフォルトでパイプラインに含まれるサンプルコードのみに適用されます。
選択すると、新しく作成されたパイプラインにリダイレクトされます。

ETL パイプラインは、次のデフォルト設定で作成されます。
- Unity Catalog
- 現在のチャンネル
- サーバーレスコンピュート
- 開発モードはオフです。この設定は、パイプラインのスケジュールされた実行にのみ影響します。エディターからパイプラインを実行すると、常にデフォルトで開発モードが使用されます。
この構成は、開発やテストなどの多くのユースケースに推奨されており、スケジュールに従って実行する必要がある本番運用ワークロードに適しています。パイプラインのスケジュール設定の詳細については、「ジョブのパイプラインタスク」を参照してください。

これらの設定はパイプラインツールバーから調整できます。

あるいは、ワークスペースブラウザから ETL パイプラインを作成することもできます。

左側のパネルで ワークスペース をクリックします。
Git フォルダーを含む任意のフォルダーを選択します。
右上隅の [作成] をクリックし、 [ETL パイプライン] をクリックします。

[ジョブとパイプライン] ページからETLパイプラインを作成することもできます。

ワークスペースで、サイドバーの ジョブ & パイプライン をクリックします。
[新規] の下で、 [ETL パイプライン] をクリックします。

コンピュート構成オプション

Databricksでは常に 強化オートスケール を使用することをお勧めします。他のコンピュート構成のデフォルト値は、多くのパイプラインで適切に機能します。

コンピュート構成をカスタマイズするには、次の設定を使用します。

ワークスペース管理者は、 クラスターポリシー を構成できます。コンピュートポリシー管理者は、ユーザーが使用できるコンピュートオプションを制御できます。コンピュートポリシーの選択を参照してください。
オプションで クラスターモードを 固定サイズ または レガシーオートスケール で実行するように構成できます。「オートスケールを使用したLakeflow Spark宣言型パイプラインのクラスター使用率の最適化」を参照してください。
オートスケールが有効になっているワークロードの場合、 最小ワーカー と 最大ワーカー を設定して、スケーリング動作の制限を設定します。「パイプライン用のクラシックコンピュートの構成」を参照してください。
オプションでPhotonアクセラレーションをオフにすることができます。 Photonとはを参照してください。
クラスタータグを 使用すると、パイプラインに関連するコストを監視できます。「コンピュートタグの構成」を参照してください。
インスタンスタイプ を設定して、パイプラインの実行に使用する仮想マシンのタイプを指定します。パイプラインを実行するためのインスタンスタイプを選択するを参照してください。
- パイプラインで構成されたワークロードに最適化された ワーカータイプ を選択します。
- オプションで、ワーカータイプとは異なる ドライバータイプ を選択することもできます。これは、大規模なワーカータイプと低いドライバーコンピュート使用率を使用するパイプラインのコストを削減したり、多数の小規模なワーカーを含むワークロードでのメモリ不足の問題を回避するためにより大きなドライバータイプを選択したりする場合に役立ちます。

実行ユーザーを設定する

実行ユーザーを使用すると、パイプラインが実行に使用する ID と、パイプラインが作成または更新するテーブルの所有権を変更できます。これは、パイプラインを作成した元のユーザーが非アクティブ化された場合 (たとえば、会社を辞めた場合) に役立ちます。このような場合、パイプラインが機能しなくなり、パブリッシュされたテーブルが他のユーザーがアクセスできなくなる可能性があります。パイプラインを更新して、別の ID (サービスプリンシパルなど) として実行し、パブリッシュされたテーブルの所有権を再割り当てすることで、アクセスを復元し、パイプラインが引き続き機能するようにすることができます。サービスプリンシパルとして実行されるパイプラインは、個々のユーザーに縛られず、自動化されたワークロードに対してより安全、安定性、信頼性が高まるため、ベストプラクティスと見なされます。

必要な権限

変更を行うユーザーの場合:

パイプラインに対する CAN_MANAGE 権限
サービスプリンシパルの CAN_USE ロール (実行-as をサービスプリンシパルに設定する場合)

実行-as ユーザーまたはサービスプリンシパルの場合:

ワークスペースアクセス:
- ワークスペース内で操作するためのワークスペースアクセス 権限
- パイプラインで使用するクラスターポリシーの権限 を使用できます
- ワークスペースでのコンピュート作成許可
ソースコードアクセス:
- パイプラインのソースコードに含まれるすべてのノートブックの 読み取り権限を持つ
- パイプラインがワークスペースファイルを使用する場合、そのファイルに対する 読み取り権限を持つ
Unity Catalog権限 ( Unity Catalogを使用するパイプラインの場合):
- USE CATALOG 対象カタログ
- USE SCHEMA ターゲットスキーマのCREATE TABLE
- MODIFY パイプラインが更新する既存のテーブルに対する権限
- CREATE SCHEMA パイプラインが新しいスキーマを作成する場合の権限
レガシーHive metastoreアクセス許可 ( Hive metastoreを使用するパイプラインの場合):
- SELECT およびターゲットデータベースとテーブルに対するMODIFY権限
追加のクラウドストレージアクセス (該当する場合):
- ソースストレージの場所から読み取る権限
- ターゲットストレージの場所への書き込み権限

実行ユーザーの設定方法

run-asユーザーは、パイプラインモニタリングページまたはパイプラインエディターのパイプライン設定を通じて設定できます。パイプラインモニタリングページからユーザーを変更するには:

[ジョブとパイプライン] をクリックしてパイプラインのリストを開き、編集するパイプラインの名前を選択します。
パイプラインのモニタリングページで、 [設定] をクリックします。
パイプライン設定 サイドバーで、 [実行者として] の横にある[編集] をクリックします。
編集ウィジェットで、次のいずれかのオプションを選択します。
- あなた自身のユーザーアカウント
- CAN_USE 権限を持つサービスプリンシパル
変更を適用するには、 「保存」 をクリックします。

実行ユーザーを正常に更新すると、次のようになります。

パイプライン ID は、今後のすべての実行で新しいユーザーまたはサービスプリンシパルを使用するように変更されます。
Unity Catalogパイプラインでは、パイプラインによって公開されたテーブルの所有者が、新しい実行-as ID に一致するように更新されます。
今後のパイプラインの更新では、新しい実行-の権限と資格情報が ID として使用されます。
継続的なパイプラインは新しい ID で自動的に再起動します。トリガーされたパイプラインは自動的に再起動せず、実行-as の変更によりアクティブな更新が中断される可能性があります

注記

実行-as の更新が失敗した場合、失敗の理由を説明するエラーメッセージが表示されます。一般的な問題には、サービスプリンシパルに対する権限が不十分であることが含まれます。

その他の構成上の考慮事項

パイプラインでは次の構成オプションも使用できます。

Advanced 製品エディションでは、 Lakeflow Spark宣言型パイプラインのすべての機能にアクセスできます。オプションで、 Pro または Core 製品エディションを使用してパイプラインを実行できます。「製品エディションの選択」を参照してください。
本番運用でパイプラインを実行する場合は、 継続的 パイプラインモードを使用することを選択できます。トリガーパイプラインモードと継続的パイプラインモードを参照してください。
ワークスペースがUnity Catalog用に構成されていない場合、またはワークロードでレガシーHive metastoreを使用する必要がある場合は、「レガシーHive metastoreでLakeflow Spark宣言型パイプラインを使用する」を参照してください。
成功または失敗の条件に基づくEメール更新の通知を追加します。パイプラインイベントのEメール通知の追加を参照してください。
設定フィールドを使用して、パイプラインのキーと値のペアを設定します。これらの構成には、次の 2 つの目的があります。
- ソースコード内で参照できる任意の点を設定します。「パイプラインでの使用」を参照してください。
- パイプライン設定と Spark 構成を構成します。パイプラインプロパティリファレンスを参照してください。
- タグを設定します。タグは、ワークフローリストに表示されるパイプラインのキーと値のペアです。パイプラインタグは課金に関連付けられていません。
プレビュー チャンネルを使用して、保留中のLakeflow Spark宣言型パイプラインランタイムの変更に対してパイプラインをテストし、新機能をテストします。

製品エディションを選択してください

パイプライン要件に最適な機能を備えたLakeflow Spark宣言型パイプライン製品エディションを選択してください。利用可能な製品エディションは次のとおりです。

Core ストリーミング取り込みワークロードを実行します。パイプラインが変更データキャプチャ ( CDC ) やLakeflow Spark宣言型パイプラインの期待などの高度な機能を必要としない場合は、 Coreエディションを選択します。
Pro ストリーミング取り込みと CDC ワークロードを実行します。Pro製品エディションは、 Coreのすべての機能をサポートするほか、ソースデータの変更に基づいてテーブルを更新する必要があるワークロードもサポートします。
Advanced ストリーミング取り込みワークロード、CDC ワークロード、および期待値を必要とするワークロードを実行します。Advanced製品エディションは、 CoreおよびProエディションの機能をサポートし、 Lakeflow Spark宣言型パイプラインの期待に伴うデータ品質の制約が含まれています。

パイプラインを作成または編集するときに、製品エディションを選択できます。パイプラインごとに異なるエディションを選択できます。Lakeflow Spark宣言型パイプライン製品ページをご覧ください。

注: パイプラインに、エクスペクテーションなど、選択した製品エディションでサポートされていない機能が含まれている場合は、エラーの理由を説明するエラーメッセージが表示されます。その後、パイプラインを編集して適切なエディションを選択できます。

ソースコードを構成する

Lakeflow Pipelines Editor のアセットブラウザを使用して、パイプラインを定義するソースコードを設定できます。パイプラインのソースコードは、ワークスペースファイルに保存されている SQL または Python スクリプトで定義されます。パイプラインを作成または編集するときに、1 つ以上のファイルを追加できます。デフォルトでは、パイプラインのソースコードは、パイプラインのルートフォルダー内のtransformationsフォルダーにあります。

Lakeflow Spark宣言型パイプラインはデータセットの依存関係を自動的に分析してパイプラインの処理グラフを構築するため、ソースコードアセットを任意の順序で追加できます。

Lakeflow Pipelinesエディターの使用の詳細については、「 Lakeflow Pipelinesエディターを使用したETLパイプラインの開発とデバッグ」を参照してください。

Python を使用するパイプラインの外部依存関係を管理する

パイプラインの外部依存関係 ( Pythonパッケージやライブラリなど) を使用したパイプラインのサポート。依存関係の使用に関するオプションと推奨事項については、「パイプラインの Python 依存関係の管理」を参照してください。

Databricksワークスペースに保存されているPythonモジュールを使用する

パイプラインのソースコードファイルに Python コードを実装するだけでなく、Databricks Git フォルダーまたはワークスペースファイルを使用して、コードを Python モジュールとして保存することもできます。コードをPythonモジュールとして保存することは、同じパイプライン内の複数のパイプラインまたはノートブックで使用したい共通の機能がある場合に特に便利です。パイプラインで Python モジュールを使用する方法については、「Git フォルダーまたはワークスペースファイルから Python モジュールをインポートする」を参照してください。

新しいパイプラインを構成する​

コンピュート構成オプション​

実行ユーザーを設定する​

必要な権限​

実行ユーザーの設定方法​

その他の構成上の考慮事項​

製品エディションを選択してください​

ソースコードを構成する​

Python を使用するパイプラインの外部依存関係を管理する​

Databricksワークスペースに保存されているPythonモジュールを使用する​