Lakeflow 宣言型パイプライン コードをローカル開発環境で開発する
Python パイプラインのソースコードは、お好みの統合開発環境 (IDE) で作成できます。
IDE で記述されたLakeflow宣言型パイプライン コードの更新の検証や実行はできません。 ソース コード ファイルを Databricks ワークスペースにデプロイし直し、Lakeflow宣言型パイプラインの一部として構成する必要があります。
この記事では、ローカル IDE 開発のサポートの概要について説明します。よりインタラクティブな開発とテストのために、Databricks ではノートブックの使用をお勧めします。Lakeflow宣言型パイプラインのノートブックを使用したETLパイプラインの開発とデバッグを参照してください 。
パイプライン開発用のローカル IDE の構成
Databricks は、PyPI を通じて配布されるローカル開発用の Python モジュールを提供します。インストールと使用方法については、「Python Lakeflow宣言型パイプラインの スタブ 」を参照してください。
このモジュールには、 Lakeflow 宣言型パイプライン Python インタフェースのインタフェースと docstring 参照があり、IDE でコードを記述するときに構文チェック、オートコンプリート、およびデータ型チェックを提供します。
このモジュールにはインターフェイスが含まれていますが、機能的な実装はありません。このライブラリを使用して、 Lakeflow 宣言型パイプラインをローカルで作成または実行することはできません。
Databricks Asset Bundle を使用して、ソース コードと構成をパッケージ化してターゲット ワークスペースにデプロイし、この方法で構成されたパイプラインで更新の実行をトリガーできます。「Lakeflow宣言型パイプラインを Databricks アセット バンドル プロジェクトに変換する」を参照してください。
Visual Studio Code の Databricks 拡張機能には、Databricks アセット バンドルを使用してパイプラインを操作するための追加機能があります。 バンドル・リソース・エクスプローラーを参照してください。
IDE からワークスペースへのパイプラインコードの同期
次の表は、ローカル IDE と Databricks ワークスペース間でパイプラインのソースコードを同期するためのオプションをまとめたものです。
ツールまたはパターン | 詳細 |
---|---|
Databricksアセットバンドル | Databricks Asset Bundles を使用して、単一のソース コード ファイルから複数のパイプライン、ジョブ、ソース コード ファイルの設定まで、さまざまな複雑さのパイプライン アセットをデプロイします。「Lakeflow宣言型パイプラインを Databricks アセット バンドル プロジェクトに変換する」を参照してください。 |
DatabricksのVisual Studio Code拡張機能 | Databricks は、ローカル IDE とワークスペース ファイル間の簡単な同期を含む Visual Studio Code との統合を提供します。 この拡張機能には、Databricks Asset Bundles を使用してパイプライン アセットをデプロイするためのツールも用意されています。 「Visual Studio Code の Databricks 拡張機能とは」を参照してください。 |
ワークスペース ファイル | Databricks ワークスペース ファイルを使用して、パイプラインのソース コードを Databricks ワークスペースにアップロードし、そのコードをパイプラインにインポートできます。 「ワークスペースファイルとは」を参照してください。 |
Gitフォルダ | Git フォルダーを使用すると、Git リポジトリを仲介として使用して、ローカル環境と Databricks ワークスペース間でコードを同期できます。 Databricks Git フォルダーの Git 統合を参照してください。 |