メインコンテンツまでスキップ

ローカル開発環境でパイプラインコードを開発する

好みの統合開発環境 (IDE) で Python パイプラインのソース コードを作成できます。

IDE で記述されたパイプライン コードを検証したり更新を実行したりすることはできません。ソース コード ファイルを Databricks ワークスペースにデプロイし、パイプラインの一部として構成する必要があります。

この記事では、ローカル IDE 開発のサポートの概要を説明します。よりインタラクティブな開発とテストを行うには、 Databricks Lakeflow Pipelinesエディターの使用を推奨しています。 Lakeflow Pipelines Editor を使用したETLパイプラインの開発とデバッグ」を参照してください。

パイプライン開発用にローカル IDE を構成する

Databricks は、PyPI を通じて配布されるローカル開発用の Python モジュールを提供します。インストールと使用方法については、 DLT の Python スタブを参照してください。

このモジュールには、パイプライン Python インターフェースのインターフェースと docstring 参照が含まれており、IDE でコードを記述するときに構文チェック、オートコンプリート、データ型チェックが提供されます。

このモジュールにはインターフェースは含まれていますが、機能の実装は含まれていません。このライブラリを使用して、パイプラインをローカルで作成または実行することはできません。

宣言型自動化バンドルを使用すると、ソースコードと構成をパッケージ化してターゲットワークスペースにデプロイしたり、このように構成されたパイプラインの更新を実行したりできます。パイプラインをバンドルプロジェクトに変換するを参照してください。

Visual Studio Code 用の Databricks 拡張機能には、宣言型自動化バンドルを使用したパイプラインを操作するための追加機能があります。バンドルリソースエクスプローラーを参照してください。

IDE からワークスペースにパイプライン コードを同期する

次の表は、ローカル IDE と Databricks ワークスペース間でパイプライン ソース コードを同期するためのオプションをまとめたものです。

ツールまたはパターン

詳細

宣言型自動化バンドル

宣言的オートメーション バンドルを使用して、単一のソース コード ファイルから複数のパイプライン、ジョブ、およびソース コード ファイルの構成に至るまで、さまざまな複雑さのパイプライン アセットをデプロイします。 パイプラインをバンドルプロジェクトに変換するを参照してください。

DatabricksのVisual Studio Code拡張機能

DatabricksはVisual Studio Codeとの統合機能を提供しており、ローカルIDEとワークスペースファイル間の簡単な同期が可能です。この拡張機能は、宣言型自動化バンドルを使用してパイプライン資産をデプロイするためのツールも提供します。「Visual Studio Code 用の Databricks 拡張機能とは何ですか?」を参照してください。

ワークスペースファイル

Databricks ワークスペース ファイルを使用して、パイプラインのソース コードを Databricks ワークスペースにアップロードし、そのコードをパイプラインにインポートできます。「ワークスペース ファイルとは何ですか?」を参照してください。

Gitフォルダ

Git フォルダーを使用すると、Git リポジトリを仲介として使用して、ローカル環境と Databricks ワークスペース間でコードを同期できます。Databricks Git フォルダーを参照してください。