ローカル開発環境でパイプラインコードを開発する
好みの統合開発環境 (IDE) で Python パイプラインのソース コードを作成できます。
IDE で記述されたパイプライン コードを検証したり更新を実行したりすることはできません。ソース コード ファイルを Databricks ワークスペースにデプロイし、パイプラインの一部として構成する必要があります。
この記事では、ローカル IDE 開発のサポートの概要を説明します。よりインタラクティブな開発とテストを行うには、 Databricks Lakeflow Pipelinesエディターの使用を推奨しています。 Lakeflow Pipelines Editor を使用したETLパイプラインの開発とデバッグ」を参照してください。
パイプライン開発用にローカル IDE を構成する
Databricks は、PyPI を通じて配布されるローカル開発用の Python モジュールを提供します。インストールと使用方法については、 DLT の Python スタブを参照してください。
このモジュールには、パイプライン Python インターフェースのインターフェースと docstring 参照が含まれており、IDE でコードを記述するときに構文チェック、オートコンプリート、データ型チェックが提供されます。
このモジュールにはインターフェースは含まれていますが、機能の実装は含まれていません。このライブラリを使用して、パイプラインをローカルで作成または実行することはできません。
Databricks アセット バンドルを使用すると、ソース コードと構成をパッケージ化してターゲット ワークスペースにデプロイし、このように構成されたパイプラインで更新の実行をトリガーすることができます。「パイプラインを Databricks Asset Bundle プロジェクトに変換する」を参照してください。
Visual Studio Code の Databricks 拡張機能には、Databricks アセット バンドルを使用してパイプラインを操作するための追加機能があります。バンドル リソース エクスプローラーを参照してください。
IDE からワークスペースにパイプライン コードを同期する
次の表は、ローカル IDE と Databricks ワークスペース間でパイプライン ソース コードを同期するためのオプションをまとめたものです。
ツールまたはパターン | 詳細 |
|---|---|
Databricksアセットバンドル | Databricksアセット バンドルを使用して、単一のソース コード ファイルから複数のパイプライン、ジョブ、ソース コード ファイルの構成に至るまで、さまざまな複雑さのパイプライン アセットをデプロイします。 「パイプラインを Databricks Asset Bundle プロジェクトに変換する」を参照してください。 |
DatabricksのVisual Studio Code拡張機能 | Databricks は、ローカル IDE とワークスペース ファイル間の簡単な同期を含む Visual Studio Code との統合を提供します。 この拡張機能には、Databricks Asset Bundles を使用してパイプライン アセットをデプロイするためのツールも用意されています。 Visual Studio Code の Databricks 拡張機能とはを参照してください。 |
ワークスペースファイル | Databricks ワークスペース ファイルを使用して、パイプラインのソース コードを Databricks ワークスペースにアップロードし、そのコードをパイプラインにインポートできます。「ワークスペース ファイルとは何ですか?」を参照してください。 |
Gitフォルダ | Git フォルダーを使用すると、Git リポジトリを仲介として使用して、ローカル環境と Databricks ワークスペース間でコードを同期できます。Databricks Git フォルダーを参照してください。 |