DLT パイプライン コードをローカル開発環境で開発
Python パイプラインのソースコードは、お好みの統合開発環境 (IDE) で作成できます。
IDE で記述された DLT コードに対して更新を検証したり、実行したりすることはできません。ソース コード ファイルを Databricks ワークスペースにデプロイし直し、DLT パイプラインの一部として構成する必要があります。
この記事では、ローカル IDE 開発のサポートの概要について説明します。よりインタラクティブな開発とテストのために、Databricks ではノートブックの使用をお勧めします。「 DLT のノートブックを使用した ETL パイプラインの開発とデバッグ」を参照してください。
パイプライン開発用のローカル IDE の構成
Databricks は、PyPI を通じて配布されるローカル開発用の Python モジュールを提供します。インストールと使用方法については、 DLT の Python スタブを参照してください。
このモジュールには、DLT Python インターフェイスのインターフェイスと docstring 参照があり、IDE でコードを記述するときに構文チェック、オートコンプリート、およびデータ型チェックを提供します。
このモジュールにはインターフェイスが含まれていますが、機能的な実装はありません。 このライブラリを使用して、DLT パイプラインをローカルで作成または実行することはできません。
Databricks Asset Bundle を使用して、ソース コードと構成をパッケージ化してターゲット ワークスペースにデプロイし、この方法で構成されたパイプラインで更新の実行をトリガーできます。 「DLT パイプラインを Databricks アセット バンドル プロジェクトに変換する」を参照してください。
Visual Studio Code の Databricks 拡張機能には、Databricks アセット バンドルを使用してパイプラインを操作するための追加機能があります。 バンドル・リソース・エクスプローラーを参照してください。
IDE からワークスペースへのパイプラインコードの同期
次の表は、ローカル IDE と Databricks ワークスペース間でパイプラインのソースコードを同期するためのオプションをまとめたものです。
ツールまたはパターン | 詳細 |
---|---|
Databricksアセットバンドル | Databricks Asset Bundles を使用して、単一のソース コード ファイルから複数のパイプライン、ジョブ、ソース コード ファイルの設定まで、さまざまな複雑さのパイプライン アセットをデプロイします。「DLT パイプラインを Databricks アセット バンドル プロジェクトに変換する」を参照してください。 |
DatabricksのVisual Studio Code拡張機能 | Databricks は、ローカル IDE とワークスペース ファイル間の簡単な同期を含む Visual Studio Code との統合を提供します。 この拡張機能には、Databricks Asset Bundles を使用してパイプライン アセットをデプロイするためのツールも用意されています。 「Visual Studio Code の Databricks 拡張機能とは」を参照してください。 |
ワークスペース ファイル | Databricks ワークスペース ファイルを使用して、パイプラインのソース コードを Databricks ワークスペースにアップロードし、そのコードをパイプラインにインポートできます。 「ワークスペースファイルとは」を参照してください。 |
Gitフォルダ | Git フォルダーを使用すると、Git リポジトリを仲介として使用して、ローカル環境と Databricks ワークスペース間でコードを同期できます。 Databricks Git フォルダーの Git 統合を参照してください。 |