Lakeflow 宣言型パイプライン コードをローカル開発環境で開発する
好みの統合開発環境 (IDE) で Python パイプラインのソース コードを作成できます。
IDE で記述されたLakeflow宣言型パイプライン コードの更新の検証や実行はできません。 ソース コード ファイルを Databricks ワークスペースにデプロイし直し、Lakeflow宣言型パイプラインの一部として構成する必要があります。
この記事では、ローカル IDE 開発のサポートの概要を説明します。よりインタラクティブな開発とテストを行うには、 Databricks LakeFlow Pipelinesエディターの使用を推奨しています。 LakeFlow Pipelines Editor を使用したETLパイプラインの開発とデバッグ」を参照してください。
パイプライン開発用にローカル IDE を構成する
Databricks は、PyPI を通じて配布されるローカル開発用の Python モジュールを提供します。インストールと使用方法については、「Python Lakeflow宣言型パイプラインの スタブ 」を参照してください。
このモジュールには、 Lakeflow 宣言型パイプライン Python インタフェースのインタフェースと docstring 参照があり、IDE でコードを記述するときに構文チェック、オートコンプリート、およびデータ型チェックを提供します。
このモジュールにはインターフェイスが含まれていますが、機能的な実装はありません。このライブラリを使用して、 Lakeflow 宣言型パイプラインをローカルで作成または実行することはできません。
Databricks Asset Bundle を使用して、ソース コードと構成をパッケージ化してターゲット ワークスペースにデプロイし、この方法で構成されたパイプラインで更新の実行をトリガーできます。「Lakeflow宣言型パイプラインを Databricks アセット バンドル プロジェクトに変換する」を参照してください。
Visual Studio Code の Databricks 拡張機能には、Databricks アセット バンドルを使用してパイプラインを操作するための追加機能があります。バンドル リソース エクスプローラーを参照してください。
IDE からワークスペースにパイプライン コードを同期する
次の表は、ローカル IDE と Databricks ワークスペース間でパイプライン ソース コードを同期するためのオプションをまとめたものです。
ツールまたはパターン | 詳細 |
---|---|
Databricksアセットバンドル | Databricks Asset Bundles を使用して、単一のソース コード ファイルから複数のパイプライン、ジョブ、ソース コード ファイルの設定まで、さまざまな複雑さのパイプライン アセットをデプロイします。「Lakeflow宣言型パイプラインを Databricks アセット バンドル プロジェクトに変換する」を参照してください。 |
DatabricksのVisual Studio Code拡張機能 | Databricks は、ローカル IDE とワークスペース ファイル間の簡単な同期を含む Visual Studio Code との統合を提供します。 この拡張機能には、Databricks Asset Bundles を使用してパイプライン アセットをデプロイするためのツールも用意されています。 Visual Studio Code の Databricks 拡張機能とはを参照してください。 |
ワークスペースファイル | Databricks ワークスペース ファイルを使用して、パイプラインのソース コードを Databricks ワークスペースにアップロードし、そのコードをパイプラインにインポートできます。「ワークスペース ファイルとは何ですか?」を参照してください。 |
Gitフォルダ | Git フォルダーを使用すると、Git リポジトリを仲介として使用して、ローカル環境と Databricks ワークスペース間でコードを同期できます。「Databricks Git フォルダーとは何か」を参照してください。 |