ソース管理されたパイプラインを作成する
プレビュー
ワークスペースのLakeFlow Pipelines Editor とDatabricks Asset Bundle はパブリック プレビュー段階です。
Databricks では、パイプラインとそれに関連付けられたすべてのコードをソース管理できます。パイプラインに関連付けられたすべてのファイルをソースで制御することにより、変換コード、探索コード、およびパイプライン構成への変更はすべてGitでバージョン管理され、開発時にテストして本番運用に自信を持ってデプロイできます。
ソース管理されたパイプラインには、次のような利点があります。
- トレーサビリティ : Git 履歴のすべての変更をキャプチャします。
- テスト : 共有本番運用ワークスペースに昇格する前に、開発ワークスペースでパイプラインの変更を検証します。 各開発者は、Git フォルダー内の独自のコード ブランチと独自のスキーマに独自の開発パイプラインを持ちます。
- コラボレーション : 個別の開発とテストが完了すると、コードの変更がメインの本番運用パイプラインにプッシュされます。
- ガバナンス : エンタープライズ CI/CD およびデプロイメント標準に準拠します。
Databricks では、Databricks アセット バンドルを使用して、パイプラインとそのソース ファイルを一緒にソース管理できます。バンドルを使用すると、パイプラインの構成は、パイプラインの Python または SQL ソース ファイルとともに、YAML 構成ファイルの形式でソース管理されます。1 つのバンドルには、1 つまたは複数のパイプラインと、ジョブなどの他のリソース タイプが含まれる場合があります。
このページでは、Databricks アセット バンドルを使用してソース管理されたパイプラインを設定する方法を説明します。バンドルの詳細については、 Databricksアセット バンドルとは何ですか?」を参照してください。
要件
ソース管理されたパイプラインを作成するには、次のものがすでに必要です。
- ワークスペースに作成され、構成された Git フォルダー。Git フォルダーを使用すると、個々のユーザーは変更を Git リポジトリにコミットする前に作成してテストできます。「Databricks Git フォルダーとは何か」を参照してください。
- LakeFlow Pipelinesエディターが有効になりました。 このチュートリアルで説明されている UI は、このエディター エクスペリエンスでのみ使用できます。LakeFlow Pipelines Editor を使用したETLパイプラインの開発とデバッグ」を参照してください。
バンドル内に新しいパイプラインを作成する
Databricks では、最初からソース管理されたパイプラインを作成することをお勧めします。あるいは、すでにソース管理されているバンドルに既存のパイプラインを追加することもできます。「既存のリソースをバンドルに移行する」を参照してください。
新しいソース管理パイプラインを作成するには:
-
ワークスペースで、
新着 >
ETL パイプライン 。
-
選択
ソース管理されたプロジェクトとしてセットアップ :
-
「新しいプロジェクトを作成」 をクリックし、コードと設定を保存する Git フォルダーを選択します。
-
次へ をクリックします。
-
アセットバンドルの作成 ダイアログに次の内容を入力します。
- バンドル名 : バンドルの名前。
- 初期カタログ : 使用するスキーマを含むカタログの名前。
- 個人用スキーマを使用する : 組織内のユーザーが同じプロジェクトで共同作業を行うときに、開発環境での互いの変更が上書きされないように、個人用スキーマへの編集を分離する場合は、このボックスをオンのままにしておきます。
- 初期言語 : プロジェクトのサンプル パイプライン ファイルに使用する初期言語 (Python または SQL)。
-
[作成してデプロイ]を クリックします。パイプラインを含むバンドルが Git フォルダーに作成されます。
パイプラインバンドルを調べる
次に、作成されたパイプライン バンドルを調べます。
Git フォルダーにあるバンドルには、バンドル システム ファイルと、変数、ターゲット ワークスペースの URL と権限、バンドルのその他の設定を定義するdatabricks.yml
ファイルが含まれています。バンドルのresources
フォルダーには、パイプラインなどのリソースの定義が含まれます。
resources
フォルダを開き、パイプライン エディター ボタンをクリックして、ソース管理されたパイプラインを表示します。
サンプル パイプライン バンドルには次のファイルが含まれています。
-
探検ノートブックのサンプル
-
テーブルを変換する2つのサンプルコードファイル
-
ユーティリティ関数を含むサンプルコードファイル
-
パイプラインを実行するバンドル内のジョブを定義するジョブ構成 YAML ファイル
-
パイプラインを定義するパイプライン構成YAMLファイル
UI を介した変更も含め、パイプラインの構成変更を永続的に保持するには、このファイルを編集する必要があります。編集しないと、バンドルが再デプロイされたときに UI の変更が上書きされます。たとえば、パイプラインに別のデフォルト カタログを設定するには、この構成ファイルのcatalog
フィールドを編集します。
- サンプル パイプライン バンドルの詳細とパイプラインの実行方法の説明が記載された README ファイル
パイプライン ファイルの詳細については、 「パイプライン アセット ブラウザ」を参照してください。
パイプライン バンドルへの変更の作成とデプロイの詳細については、 「ワークスペースでバンドルを作成する」および「ワークスペースからバンドルと実行ワークフローをデプロイする」を参照してください。
パイプラインを実行する
個々の変換またはソース管理されたパイプライン全体を実行できます。
- パイプラインで単一の変換を実行してプレビューするには、ワークスペース ブラウザ ツリーで変換ファイルを選択し、ファイル エディターで開きます。エディターのファイルの上部にある [ ファイルの実行 ] 再生ボタンをクリックします。
- パイプライン内のすべての変換を実行するには、 Databricksワークスペースの右上にある [パイプライン実行] ボタンをクリックします。
パイプラインの実行に関する詳細については、 「パイプラインの実行コード」を参照してください。
パイプラインを更新する
パイプライン内のアーティファクトを更新したり、追加の探索や変換を追加したりできますが、その後、それらの変更をGitHubにプッシュすることになります。 クリックパイプライン バンドルに関連付けられた Git アイコンをクリックするか、フォルダーのケバブをクリックしてから [Git...] をクリックし、プッシュする変更を選択します。「変更をコミットしてリモート Git リポジトリにプッシュする」を参照してください。
さらに、パイプライン構成ファイルを更新したり、バンドルからファイルを追加または削除したりしても、バンドルを明示的にデプロイするまで、これらの変更はターゲット ワークスペースに伝播されません。「バンドルをデプロイし、ワークスペースからワークフローを実行する」を参照してください。
Databricks 、ソースで制御されるパイプラインのセットアップをそのまま保持することをお勧めします。 デフォルトのセットアップでは、UI を通じて追加のファイルが追加されたときにパイプライン バンドルの YAML 構成を編集する必要がないように構成されています。
既存のパイプラインをバンドルに追加する
既存のパイプラインをバンドルに追加するには、まずワークスペースでバンドルを作成し、次に次のページで説明されているように、パイプラインの YAML 定義をバンドルに追加します。
Databricks CLIを使用してリソースをバンドルに移行する方法については、 「既存のリソースをバンドルに移行する」を参照してください。
その他のリソース
パイプラインの追加のチュートリアルと参考資料については、 LakeFlow宣言型パイプラインを参照してください。