LakeflowパイプラインエディターによるETLパイプラインの開発とデバッグ

備考

プレビュー

この記事では、 Lakeflowパイプラインエディターを使用して、 Lakeflow Spark宣言型パイプライン (SDP) のETL (抽出、変換、ロード) パイプラインを開発およびデバッグする方法について説明します。

注記

Lakeflowパイプラインエディターは、もちろん有効になっています。オフにすることも、オフになっている場合は再度有効にすることもできます。Lakeflowパイプラインエディターの有効化とモニタリングの更新を参照してください。

Lakeflowパイプラインエディターとは何ですか?

Lakeflow パイプラインエディターは、パイプライン開発用に構築された IDE です。すべてのパイプライン開発タスクを単一のサーフェスに統合し、コードファーストワークフロー、フォルダーベースのコード編成、選択的実行、データプレビュー、パイプライングラフをサポートします。Databricks プラットフォームと統合されているため、バージョン管理、コードレビュー、スケジュール実行も可能になります。

Lakeflow パイプラインエディタ UI の概要

次の画像はLakeflow パイプラインエディターを示しています。

Lakeflowパイプラインエディター

画像には次の機能が表示されます。

パイプラインアセットブラウザ: パイプラインアセットを作成、削除、名前変更、整理します。パイプライン構成へのショートカットも含まれています。
タブ付きのマルチファイルコードエディター: パイプラインに関連付けられた複数のコードファイルで作業します。
パイプライン固有のツールバー: パイプライン構成オプションとパイプラインレベルの実行アクションが含まれています。
インタラクティブな有向非巡回グラフ (DAG) : テーブルの概要を取得し、データプレビューの下部バーを開いて、その他のテーブル関連のアクションを実行します。
データプレビュー: ストリーミングテーブルとマテリアライズドビューのデータを検査します。
テーブルレベルの実行に関する情報: パイプライン内のすべてのテーブルまたは単一のテーブルに関する実行に関する情報を取得します。最新のパイプライン実行の知見を参照してください。
問題パネル: この機能は、パイプライン内のすべてのファイルのエラーを要約し、特定のファイル内でエラーが発生した場所に移動できます。コードに添付されたエラーインジケーターを補完します。
選択的実行: コードエディターには、 ファイルの実行 アクションまたは 1 つのテーブルを使用して現在のファイル内のテーブルのみを更新する機能など、段階的な開発のための機能があります。
デフォルトのパイプラインフォルダー構造: 新しいパイプラインには、パイプラインの開始点として使用できる事前定義されたフォルダー構造とサンプルコードが含まれています。
簡素化されたパイプライン作成: デフォルトでテーブルを作成する名前、カタログ、スキーマを指定すると、デフォルト設定を使用してパイプラインが作成されます。後でパイプラインエディターのツールバーから設定を調整できます。

新しいETLパイプラインを作成する

Lakeflowパイプラインエディタを使用して新しいETL パイプラインを作成するには、次の手順を実行します。

サイドバーの上部にある新規を選択し、 ETL パイプライン 。
上部で、パイプラインに一意の名前を付けることができます。
名前のすぐ下に、選択されたデフォルトのカタログとスキーマが表示されます。これらを変更して、パイプラインに異なるデフォルトを設定します。

デフォルトのカタログとデフォルトのスキーマは、コード内でカタログまたはスキーマを使用してデータセットを修飾していない場合に、データセットの読み取りまたは書き込みが行われる場所です。詳細については、 Databricksのデータベースオブジェクトを参照してください。
次のいずれかのオプションを選択して、パイプラインを作成するための希望するオプションを選択します。
- SQLのサンプルコードを含む新しいパイプラインとフォルダー構造を作成するための SQL のサンプルコードから開始する 。
- Python のサンプルコードを含む新しいパイプラインとフォルダー構造を作成するための、 Python のサンプルコードから開始する 。
- 新しい空のコードファイルを使用して、新しいパイプラインとフォルダー構造を作成するために 単一の変換から始める 。
- 既存のアセットを追加して 、ワークスペース内の既存のコードファイルに関連付けることができるパイプラインを作成します。
ETL パイプラインには、SQL と Python の両方のソースコードファイルを含めることができます。新しいパイプラインを作成し、サンプルコードの言語を選択すると、その言語はデフォルトでパイプラインに含まれるサンプルコードのみに適用されます。
選択すると、新しく作成されたパイプラインにリダイレクトされます。

ETL パイプラインは、次のデフォルト設定で作成されます。
- Unity Catalog
- 現在のチャンネル
- サーバーレスコンピュート
- 開発モードはオフです。この設定は、パイプラインのスケジュールされた実行にのみ影響します。エディターからパイプラインを実行すると、常にデフォルトで開発モードが使用されます。
これらの設定はパイプラインツールバーから調整できます。

あるいは、ワークスペースブラウザから ETL パイプラインを作成することもできます。

左側のパネルで ワークスペース をクリックします。
Git フォルダーを含む任意のフォルダーを選択します。
右上隅の [作成] をクリックし、 [ETL パイプライン] をクリックします。

[ジョブとパイプライン] ページからETLパイプラインを作成することもできます。

ワークスペースで、サイドバーの ジョブ & パイプライン をクリックします。
[新規] の下で、 [ETL パイプライン] をクリックします。

既存のETLパイプラインを開く

Lakeflow Pipelinesエディターで既存のETLパイプラインを開く方法は複数あります。

パイプラインに関連付けられているソースファイルを開きます。
1. サイドパネルの ワークスペース をクリックします。
2. パイプラインのソースコードファイルがあるフォルダーに移動します。
3. ソースコードファイルをクリックすると、エディターでパイプラインが開きます。
最近編集したパイプラインを開きます。
- エディターから、アセットブラウザーの上部にあるパイプラインの名前をクリックし、表示される最近のリストから別のパイプラインを選択することで、最近編集した他のパイプラインに移動できます。
- エディターの外部の左側のサイドバーの最近ページから、パイプラインまたはパイプラインのソースコードとして構成されたファイルを開きます。
製品全体のパイプラインを表示するときに、パイプラインを編集することを選択できます。
- パイプラインモニタリングページで、をクリックします。 パイプラインを編集 をクリックします。
- 左側のサイドバーの ジョブ実行 ページで、 ジョブとパイプライン タブをクリックし、そして パイプラインを編集 をクリックします。
- ジョブを編集してパイプラインタスクを追加する場合、 パイプライン の下でパイプラインを選択するときに、ボタンをクリックします。
アセットブラウザーで すべてのファイル を参照しているときに、別のパイプラインからソースコードファイルを開くと、エディターの上部にバナーが表示され、関連付けられているパイプラインを開くように求められます。

パイプラインアセットブラウザ

パイプラインを編集しているとき、左側のワークスペースサイドバーでは、 パイプラインアセットブラウザー と呼ばれる特別なモードが使用されます。デフォルトでは、パイプラインアセットブラウザはパイプラインのルートと、ルート内のフォルダーとファイルに焦点を合わせます。パイプラインのルート外のファイルを表示するには、 すべてのファイル の表示を選択することもできます。特定のパイプラインを編集しているときにパイプラインエディターで開いたタブは記憶され、別のパイプラインに切り替えると、そのパイプラインを最後に編集したときに開いたタブが復元されます。

注記

エディターには、SQL ファイルを編集するためのコンテキスト ( Databricks SQL エディター と呼ばれる) と、SQL ファイルやパイプラインファイルではないワークスペースファイルを編集するための一般的なコンテキストもあります。これらの各コンテキストは、そのコンテキストを最後に使用したときに開いていたタブを記憶し、復元します。左サイドバーの上部からコンテキストを切り替えることができます。ヘッダーをクリックして、ワークスペース、SQL エディター、または最近編集したパイプラインのいずれかを選択します。

エディターのコンテキストを切り替える

ワークスペースブラウザページからファイルを開くと、そのファイルに対応するエディターでファイルが開きます。ファイルがパイプラインに関連付けられている場合、それはLakeflow Pipelines Editor です。

パイプラインの一部ではないがパイプラインのコンテキストを保持するファイルを開くには、アセットブラウザの [すべてのファイル] タブからファイルを開きます。

パイプラインアセットブラウザには 2 つのタブがあります。

パイプライン : ここには、パイプラインに関連付けられたすべてのファイルがあります。フォルダーを作成、削除、名前変更、整理することができます。このタブには、パイプライン構成のショートカットと最近の実行のグラフィカルビューも含まれています。
すべてのファイル : 他のすべてのワークスペースアセットはここから入手できます。これは、パイプラインに追加するファイルを検索したり、パイプラインに関連する他のファイル (Databricks アセットバンドルを定義する YAML ファイルなど) を表示したりするのに役立ちます。

パイプラインアセットブラウザ

パイプラインには次の種類のファイルを含めることができます。

ソースコードファイル: これらのファイルはパイプラインのソースコード定義の一部であり、 [設定] で確認できます。 Databricks では、ソースコードファイルを常にパイプラインのルートフォルダー内に保存することを推奨しています。そうしないと、ブラウザーの下部にある外部ファイルセクションに表示され、機能セットがあまり充実しなくなります。
非ソースコードファイル: これらのファイルはパイプラインのルートフォルダー内に保存されますが、パイプラインのソースコード定義の一部ではありません。

重要

パイプラインのファイルとフォルダーを管理するには、「パイプライン 」タブの下にあるパイプラインアセットブラウザーを使用する必要があります。これにより、パイプライン設定が正しく更新されます。ワークスペースブラウザまたは [すべてのファイル] タブからファイルやフォルダを移動したり名前を変更したりすると、パイプラインの構成が壊れるため、 [設定] で手動で解決する必要があります。

ルートフォルダ

パイプラインアセットブラウザーは、パイプラインのルートフォルダーに固定されています。新しいパイプラインを作成すると、パイプラインルートフォルダーがユーザーのホームプランに作成され、パイプライン名と同じ名前が付けられます。

パイプラインアセットブラウザーでルートフォルダーを変更できます。これは、フォルダー内にパイプラインを作成し、後ですべてを別のフォルダーに移動する場合に便利です。たとえば、通常のフォルダーにパイプラインを作成し、バージョン管理のためにソースコードを Git フォルダーに移動するとします。

クリックルートフォルダーのオーバーフローメニュー。
新しいルートフォルダーの構成を クリックします。
パイプラインルートフォルダ でをクリックし、別のフォルダをパイプラインルートフォルダとして選択します。
保存をクリックします。

パイプラインのルートフォルダを変更する

の中でルートフォルダーの場合は、 [ルートフォルダーの名前を変更] をクリックしてフォルダー名を変更することもできます。ここで、 「ルートフォルダーの移動」 をクリックして、ルートフォルダーを Git フォルダーなどに移動することもできます。

設定でパイプラインのルートフォルダーを変更することもできます。

設定をクリックします。
コードアセット で、 パスの構成 をクリックします。
[ ] をクリックして、 パイプラインルートフォルダー の下のフォルダーを変更します。
保存をクリックします。

注記

パイプラインのルートフォルダーを変更すると、以前のルートフォルダー内のファイルが外部ファイルとして表示されるため、パイプラインアセットブラウザーに表示されるファイルリストが影響を受けます。

ルートフォルダのない既存のパイプライン

従来のノートブック編集エクスペリエンスを使用して作成された既存のパイプラインには、ルートフォルダーは構成されません。ルートフォルダーが設定されていないパイプラインを開くと、ルートフォルダーを作成し、その中にソースファイルを整理するように求められます。

これを無視して、ルートフォルダーを設定せずにパイプラインの編集を続行できます。

後でパイプラインのルートフォルダーを構成したい場合は、次のステップに従ってください。

パイプラインアセットブラウザで、設定をクリックします。
[ ] をクリックして、 パイプラインルートフォルダー の下のルートフォルダーを選択します。
保存をクリックします。

パイプラインのルートフォルダがありません

デフォルトのフォルダ構造

新しいパイプラインを作成すると、デフォルトのフォルダー構造が作成されます。これは、以下で説明するように、パイプラインのソースコードファイルと非ソースコードファイルを整理するための推奨構造です。

このフォルダー構造には、少数のサンプルコードファイルが作成されます。

フォルダ名	これらの種類のファイルの推奨場所
`<pipeline_root_folder>`	パイプラインのすべてのフォルダーとファイルが含まれるルートフォルダー。
`transformations`	テーブル定義を含む Python または SQL コードファイルなどのソースコードファイル。
`explorations`	探索的データ分析に使用されるノートブック、クエリ、コードファイルなどの非ソースコードファイル。
`utilities`	他のコードファイルからインポートできる Python モジュールを含む非ソースコードファイル。サンプルコードの言語として SQL を選択した場合、このフォルダーは作成されません。

ワークフローに合わせてフォルダー名を変更したり、構造を変更したりできます。新しいソースコードフォルダーを追加するには、次のステップに従います。

パイプラインアセットブラウザで追加をクリックします。
パイプラインソースコードフォルダの作成 をクリックします。
フォルダ名を入力し、作成をクリックします。

ソースコードファイル

ソースコードファイルは、パイプラインのソースコード定義の一部です。パイプラインを実行すると、これらのファイルが評価されます。ソースコード定義の一部であるファイルとフォルダーには、ミニパイプラインアイコンが重ねて表示された特別なアイコンが表示されます。

新しいソースコードファイルを追加するには、次のステップに従います。

パイプラインアセットブラウザで追加をクリックします。
変換をクリックします。
ファイルの名前を入力し、言語として Python または SQL を選択します。
作成をクリックします。

クリックすることもできますパイプラインアセットブラウザー内の任意のフォルダーにソースコードファイルを追加します。

新しいパイプラインを作成すると、ソースコード用のtransformationsフォルダーがデフォルトで作成されます。このフォルダーは、パイプラインテーブル定義を含む Python または SQL コードファイルなどのパイプラインソースコードの推奨される場所です。

ソースコード以外のファイル

ソースコードファイル以外のファイルは、パイプラインのルートフォルダー内に格納されますが、パイプラインのソースコード定義の一部ではありません。これらのファイルは、パイプラインの実行時には評価されません。ソースコードファイル以外のファイルを外部ファイルにすることはできません。

ソースコードと一緒に保存したいパイプラインでの作業に関連するファイルにこれを使用できます。例えば：

パイプラインのライフサイクル外の、 Lakeflow Spark宣言型パイプラインコンピュート以外で実行されるアドホック探索に使用するノートブック。
ソースコードファイル内にこれらのモジュールを明示的にインポートしない限り、ソースコードでは評価されない Python モジュール。

新しい非ソースコードファイルを追加するには、次のステップに従います。

パイプラインアセットブラウザで追加をクリックします。
探索または ユーティリティ をクリックします。
ファイルの名前を入力します。
作成をクリックします。

クリックすることもできますパイプラインのルートフォルダーまたは非ソースコードファイルを指定すると、非ソースコードファイルがフォルダーに追加されます。

新しいパイプラインを作成すると、ソースコード以外のファイル用の次のフォルダーがデフォルトで作成されます。

フォルダ名	説明
`explorations`	このフォルダーは、ノートブック、クエリ、ダッシュボード、その他のファイルの推奨される場所であり、パイプラインの実行ライフサイクル外で通常行うのと同じように、非Lakeflow Spark宣言型パイプラインコンピュートでそれらのファイルを実行します。
`utilities`	このフォルダーは、親フォルダーが階層的にルートフォルダーの下にある限り、 `from <filename> import`として表現される直接インポートを介して他のファイルからインポートできる Python モジュールの推奨される場所です。

ルートフォルダーの外部にある Python モジュールをインポートすることもできますが、その場合は Python コードのsys.pathにフォルダーパスを追加する必要があります。

Python
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

外部ファイル

パイプラインブラウザーの 外部ファイル セクションには、ルートフォルダーの外部にあるソースコードファイルが表示されます。

外部ファイルをtransformationsフォルダーなどのルートフォルダーに移動するには、次の手順に従います。

クリックアセットブラウザでファイルを選択し、 [移動] をクリックします。
ファイルの移動先のフォルダを選択し、移動をクリックします。

複数のパイプラインに関連付けられたファイル

ファイルが複数のパイプラインに関連付けられている場合は、ファイルのヘッダーにバッジが表示されます。関連付けられているパイプラインの数があり、他のパイプラインに切り替えることができます。

すべてのファイルセクション

パイプライン セクションに加えて、ワークスペース内の任意のファイルを開くことができる すべてのファイル セクションがあります。ここでは次のことができます:

ルートフォルダの外部にあるファイルをタブ内で開き、 Lakeflow パイプラインエディタを離れることなく開きます。
別のパイプラインのソースコードファイルに移動して開きます。これにより、エディターでファイルが開き、エディターでフォーカスをこの 2 番目のパイプラインに切り替えるオプションを含むバナーが表示されます。
ファイルをパイプラインのルートフォルダーに移動します。
パイプラインのソースコード定義にルートフォルダー外のファイルを含めます。

パイプラインのソースファイルを編集する

ワークスペースブラウザーまたはパイプラインアセットブラウザーからパイプラインソースファイルを開くと、 Lakeflow パイプラインエディターのエディタータブで開きます。複数のファイルを開くと個別のタブが開き、複数のファイルを一度に編集できるようになります。

注記

ワークスペースブラウザからパイプラインに関連付けられていないファイルを開くと、別のコンテキストでエディター (一般的な ワークスペース エディター、またはSQLファイルの場合は SQLエディター ) が開きます。

パイプラインアセットブラウザーの [すべてのファイル] タブからパイプライン以外のファイルを開くと、パイプラインコンテキストの新しいタブで開きます。

パイプラインのソースコードには複数のファイルが含まれています。デフォルトでは、ソースファイルはパイプラインアセットブラウザーの変換フォルダーにあります。ソースコードファイルは、Python ( *.py ) または SQL ( *.sql ) ファイルになります。ソースでは、1 つのパイプラインに Python ファイルと SQL ファイルの両方を混在させることができ、1 つのファイル内のコードは別のファイルで定義されたテーブルまたはビューを参照できます。

変換フォルダーにマークダウン ( *.md )ファイルを含めることもできます。Markdown ファイルはドキュメントやメモに使用できますが、パイプラインの更新を実行するときには無視されます。

以下の機能はLakeflow パイプラインエディターに固有のものです。

パイプラインコードを編集する

接続 - サーバーレスまたはクラシックコンピュートに接続してパイプラインを実行します。パイプラインに関連付けられたすべてのファイルは同じコンピュート接続を使用するため、一度接続すると、同じパイプライン内の他のファイルに接続する必要はありません。コンピュートオプションの詳細については、コンピュート構成オプションを参照してください。

探索的ノートブックなどのパイプライン以外のファイルの場合、接続オプションは使用できますが、その個々のファイルにのみ適用されます。
ファイルを実行 - コードを実行して、このソースファイルで定義されているテーブルを更新します。次のセクションでは、パイプラインコードを実行するさまざまな方法について説明します。
編集 - Databricks Assistantを使用して、ファイル内のコードを編集または追加します。
クイック修正 - コードにエラーがある場合は、アシスタントを使用してエラーを修正します。

下部のパネルも現在のタブに基づいて調整されます。下部パネルでパイプライン情報をいつでも表示できます。SQL エディターファイルなどのパイプラインに関連しないファイルも、別のタブの下部パネルに出力が表示されます。次の画像は、下部のパネルでパイプライン情報の表示と選択したノートブックの情報の表示を切り替える垂直タブセレクターを示しています。

探索ノートブックの垂直タブセレクター

パイプラインコードを実行する

パイプラインコードを実行するには、次の 4 つのオプションがあります。

パイプライン内のすべてのソースコードファイルを実行する

[パイプライン] または [完全なテーブル更新でパイプラインを実行] をクリックして、パイプラインソースコードとして定義されているすべてのファイル内のすべてのテーブル定義を実行します。更新タイプの詳細については、「パイプライン更新セマンティクス」を参照してください。

ドライラン をクリックして、データを更新せずにパイプラインを検証することもできます。
コードを1つのファイルで実行する

[ファイル実行] または [完全なテーブル更新でファイルを実行] をクリックして、現在のファイル内のすべてのテーブル定義を実行します。パイプライン内の他のファイルは評価されません。

このオプションは、ファイルをすばやく編集して反復処理する場合のデバッグに役立ちます。単一のファイル内のコードのみを実行すると副作用が生じます。
- 他のファイルが評価されない場合、それらのファイル内のエラーは見つかりません。
- 他のファイルでマテリアライズされたテーブルでは、より新しいソースデータが存在する場合でも、テーブルの最新のマテリアライズが使用されます。
- 参照先のテーブルがまだマテリアライズされていない場合は、エラーが発生する可能性があります。
- マテリアライズされていない他のファイル内のテーブルでは、DAG が正しくないか、分離されている可能性があります。Databricks はグラフを正確に保つために最善を尽くしますが、そのために他のファイルを評価することはありません。
デバッグとファイルの編集が完了したら、パイプラインを本番運用する前に、パイプライン内のすべてのソースコードファイルを実行して、パイプラインがエンドツーエンドで動作することを確認することをDatabricksではお勧めします。
単一のテーブルに対してコードを実行する

ソースコードファイル内のテーブル定義の横にある 実行テーブルアイコン をクリックします。次に、ドロップダウンから テーブルの更新 または テーブルの完全更新の のいずれかを選択します。単一のテーブルに対してコードを実行すると、単一のファイルでコードを実行した場合と同様の副作用が発生します。

注記

ストリーミングテーブルとマテリアライズドビューでは、単一テーブルのコードを実行できます。シンクとビューはサポートされていません。

テーブルセットのコードを実行する

DAG からテーブルを選択して、実行するテーブルのリストを作成できます。DAGのテーブルにマウスを移動し、をクリックし、 更新するテーブルを選択 を選択します。更新するテーブルを選択したら、DAG の下部から実行または 完全更新で実行 オプションを選択します。

パイプライングラフ、有向非巡回グラフ（DAG）

パイプライン内のすべてのソースコードファイルを実行または検証すると、 パイプライングラフ と呼ばれる有向非巡回グラフ (DAG) が表示されます。グラフにはテーブル依存関係グラフが表示されます。各ノードには、パイプラインのライフサイクルに沿って、検証済み、実行中、エラーなどのさまざまな状態があります。

有向非巡回グラフ（DAG）

右側のパネルのグラフアイコンをクリックすると、グラフのオンとオフを切り替えることができます。グラフを最大化することもできます。右下にはズームオプションなどの追加オプションがあります。グラフを垂直または水平レイアウトで表示するための その他のオプション 。

ノードにマウスを移動すると、クエリの更新などのオプションを含むツールバーが表示されます。ノードを右クリックすると、コンテキストメニューに同じオプションが表示されます。

ノードをクリックすると、データのプレビューとテーブル定義が表示されます。ファイルを編集すると、そのファイルで定義されているテーブルがグラフ内で強調表示されます。

データプレビュー

データプレビューセクションには、選択したテーブルのサンプルデータが表示されます。

有向非巡回グラフ (DAG) 内のノードをクリックすると、テーブルのデータのプレビューが表示されます。

テーブルが選択されていない場合は、 テーブル セクションに移動し、 データプレビューの表示 をクリックします。テーブルを選択した場合は、[ すべてのテーブル ] をクリックしてすべてのテーブルに戻ります。

テーブルデータをプレビューすると、その場でデータをフィルター処理したり並べ替えたりすることができます。より複雑な分析を行う場合は、 Explorations フォルダー内のノートブックを使用または作成できます (デフォルトのフォルダー構造を維持していると仮定)。デフォルトでは、このフォルダー内のソースコードはパイプラインの更新中に実行されないため、パイプラインの出力に影響を与えずにクエリを作成できます。

処理に対する洞察

エディターの下部にあるパネルで、最新のパイプライン更新に関するテーブル実行の知識を確認できます。

パネル	説明
テーブル	すべてのテーブルとそのステータスおよびメトリクスをリストします。 1 つのテーブルを選択すると、そのテーブルのメトリクスとパフォーマンス、およびデータプレビューのタブが表示されます。
パフォーマンス	このパイプライン内のすべてのフローの履歴とプロファイルをクエリします。実行中および実行後に、実行メトリクスと詳細なクエリプランにアクセスできます。詳細については、「パイプラインのクエリ履歴へのアクセス」を参照してください。
問題パネル	パネルをクリックすると、パイプラインのエラーと警告が簡略化されて表示されます。エントリをクリックすると詳細が表示され、コード内のエラーが発生した場所に移動できます。エラーが現在表示されているファイル以外のファイルにある場合は、エラーがあるファイルにリダイレクトされます。「詳細を表示」をクリックすると、対応するイベントログエントリの詳細が表示されます。完全なイベントログを表示するには、 [ログの表示] をクリックします。コードの特定の部分に関連するエラーについては、コードに添付されたエラーインジケーターが表示されます。詳細を表示するには、エラーアイコンをクリックするか、赤い線の上にマウスを置きます。詳細情報を示すポップアップが表示されます。次に、「クイック修正」をクリックすると、エラーをトラブルシューティングするための一連のアクションが表示されます。
イベントログ	最後のパイプライン実行中にトリガーされたすべてのイベント。問題トレイ内のログまたは任意のエントリの表示をクリックします。

パイプライン構成

パイプラインエディターからパイプラインを構成できます。パイプラインの設定、スケジュール、または権限を変更できます。

これらはそれぞれ、エディターのヘッダーにあるボタン、またはアセットブラウザー (左側のサイドバー) のアイコンからアクセスできます。

設定（または選択アセットブラウザ内):

設定パネルからパイプラインの設定を編集できます。これには、一般情報、ルートフォルダーとソースコードの構成、コンピュートの構成、通知、詳細設定などが含まれます。
スケジュール （または選択）アセットブラウザ内):

スケジュールダイアログから、パイプラインのスケジュールを 1 つ以上作成できます。たとえば、毎日実行したい場合は、ここで設定できます。選択したスケジュールでパイプラインを実行するジョブを作成します。スケジュールダイアログから新しいスケジュールを追加したり、既存のスケジュールを削除したりできます。
シェア （または、アセットブラウザのメニューから):

パイプライン権限ダイアログから、ユーザーとグループのパイプラインの権限を管理できます。

イベントログ

パイプラインのイベントログを Unity Catalog に公開できます。デフォルトでは、パイプラインのイベントログは UI に表示され、所有者がクエリのためにアクセスできます。

設定を開きます。
クリック 詳細設定の 横にある矢印。
詳細設定の編集を クリックします。
[イベントログ] の下で、 [カタログに公開] をクリックします。
イベントログの名前、カタログ、スキーマを指定します。
保存をクリックします。

パイプラインイベントは、指定したテーブルに公開されます。

パイプラインイベントログの使用の詳細については、「イベントログのクエリ」を参照してください。

パイプライン環境

設定で依存関係を追加することで、ソースコード用の環境を作成できます。

設定を開きます。
[環境] の下で、 [環境の編集] を クリックします。
選択依存関係を追加するには、 requirements.txtファイルに追加するのと同じように依存関係 を追加します 。依存関係の詳細については、「ノートブックに依存関係を追加する」を参照してください。

Databricks では、 ==を使用してバージョンをピン留めすることをお勧めします。PyPI パッケージを参照してください。

環境はパイプライン内のすべてのソースコードファイルに適用されます。

通知

パイプライン設定 を使用して通知を追加できます。

設定を開きます。
[通知] セクションで、 [通知を追加] をクリックします。
1 つ以上の電子メールアドレスと、そのアドレスを送信するイベントを追加します。
[通知を追加]を クリックします。

注記

Pythonイベントフックを使用して、通知やカスタム処理などのイベントに対するカスタム応答を作成します。

モニタリングパイプライン

Databricks は、実行中のパイプラインを監視する機能も提供します。エディターには、最新の実行に関する結果と実行に関する知識が表示されます。パイプラインをインタラクティブに開発しながら効率的に反復できるように最適化されています。

パイプラインモニタリングページでは、実行履歴を表示できます。これは、ジョブを使用してパイプラインがスケジュールに従って実行されている場合に役立ちます。

注記

残りのモニタリングエクスペリエンスと、更新されたプレビューモニタリングエクスペリエンスがあります。次のセクションでは、プレビューモニタリングエクスペリエンスを有効または無効にする方法について説明します。両方のエクスペリエンスに関する情報については、「UI のパイプラインの監視」を参照してください。

モニタリング体験は、ワークスペースの左側にある ジョブとパイプライン ボタンから利用できます。パイプラインアセットブラウザーで実行結果をクリックして、エディターからモニタリングページに直接ジャンプすることもできます。

編集者からモニタリングページへのリンク

モニタリングページの詳細については、「UI のパイプラインの監視」を参照してください。モニタリング UI には、UI のヘッダーから [パイプラインの編集] を 選択することで、 Lakeflow Pipelinesエディターに戻る機能が含まれています。

Lakeflow Pipelines Editor と更新されたモニタリングを有効にする

Lakeflow Pipelines Editor のプレビューは、当然により有効になります。以下の手順に従って無効にしたり、再度有効にしたりすることができます。Lakeflow Pipelinesエディターのプレビューが有効になっている場合は、更新されたモニタリングエクスペリエンス (プレビュー) も有効にすることができます。

ワークスペースの Lakeflow Pipelines Editor オプションを設定して、プレビューを有効にする必要があります。オプションの編集方法の詳細については、 Databricksプレビューの管理」を参照してください。

プレビューが有効になったら、 Lakeflow Pipelinesエディターを複数の方法で有効にできます。

新しいETLパイプラインを作成するときは、 Lakeflow Pipelinesエディター の切り替えを使用して、 Lakeflow Spark宣言型パイプラインのエディターを有効にします。

エディターを初めて有効にするときに、パイプラインの詳細設定ページが使用されます。次回新しいパイプラインを作成するときには、簡略化されたパイプライン作成ウィンドウが使用されます。
既存のパイプラインの場合は、パイプラインで使用されているノートブックを開き、ヘッダーで Lakeflow Pipelines Editor の 切り替えを有効にします。パイプライン監視ページに移動し、 [設定] をクリックしてLakeflow Pipelines Editor を有効にすることもできます。
ユーザー設定からLakeflow Pipelinesエディターを有効にすることができます。
1. ワークスペースの右上にある ユーザーバッジ をクリックし、 [設定] と [開発者] をクリックします。
2. Lakeflow Pipelinesエディター を有効にします。

Lakeflow Pipelinesエディターの 切り替えを有効にすると、すべてのETLパイプラインは事実上Lakeflow Pipelinesエディターを使用します。 Lakeflow Pipelinesエディターはエディターからオンとオフを切り替えることができます。

注記

新しいパイプラインエディターを無効にする場合は、無効にした理由を説明するフィードバックを残していただくと役立ちます。新しいエディターに関するフィードバックがある場合は、トグルに [フィードバックを送信] ボタンがあります。

新しいパイプラインモニタリングページを有効にする

備考

プレビュー

この機能はパブリックプレビュー段階です。

Lakeflow Pipelines Editor プレビューの一部として、パイプラインの新しいパイプラインモニタリングページを有効にすることもできます。パイプラインモニタリングページを有効にするには、 Lakeflow Pipelines Editor プレビューを有効にする必要があります。エディターのプレビューが有効になっていると、新しいモニタリングページも当然有効になります。

[ジョブとパイプライン] をクリックします。
パイプラインの詳細を表示するには、パイプラインの名前をクリックします。
ページの上部で、 [新しいパイプライン] ページの 切り替えを使用して、更新されたモニタリング UI を有効にします。

制限事項と既知の問題

Lakeflow Spark宣言型パイプラインのETLパイプラインエディターに関する次の制限事項と既知の問題を参照してください。

explorationsフォルダー内のファイルまたはノートブックを開いて開始した場合、ワークスペースブラウザのサイドバーはパイプラインにフォーカスしません。これらのファイルまたはノートブックはパイプラインソースコード定義の一部ではないためです。

ワークスペースブラウザでパイプラインフォーカスモードに入るには、パイプラインに関連付けられているファイルを開きます。
通常のビューではデータプレビューはサポートされていません。
Python モジュールは、ルートフォルダー内またはsys.path上にある場合でも、UDF 内からは見つかりません。これらのモジュールにアクセスするには、UDF 内からsys.pathにパスを追加します。次に例を示します。 sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))
%pip install ファイル (新しいエディターのデフォルトのアセットタイプ) からはサポートされません。設定で依存関係を追加できます。パイプライン環境を参照してください。

あるいは、パイプラインに関連付けられたノートブックの%pip installソースコード定義で引き続き使用することもできます。

よくある質問

ソースコードにノートブックではなくファイルを使用するのはなぜですか?

ノートブックのセルベースの実行はパイプラインと互換性がありません。パイプラインを使用する場合、ノートブックの標準機能が無効になるか変更されるため、ノートブックの動作に慣れているユーザーは混乱します。

Lakeflow Pipelines Editor では、ファイルエディターはパイプライン用の最上級のエディターの基盤として使用されます。 実行テーブル のような機能はパイプラインに明示的にターゲットを絞っています使い慣れた機能を異なる動作でオーバーロードするのではなく、
ノートブックをソースコードとして使用できますか?

はい、できます。ただし、 実行テーブル などの一部の機能はまたは 実行ファイル が存在しません。

ノートブックを使用した既存のパイプラインがある場合、新しいエディターでも引き続き機能します。ただし、Databricks では、新しいパイプラインではファイルに切り替えることを推奨しています。
新しく作成したパイプラインに既存のコードを追加するにはどうすればよいですか?

既存のソースコードファイルを新しいパイプラインに追加できます。既存のファイルを含むフォルダーを追加するには、次のステップに従います。
1. 設定をクリックします。
2. [ソースコード] の下で [パスの構成] をクリックします。
3. 「パスの追加」 をクリックし、既存のファイルのフォルダーを選択します。
4. 保存をクリックします。
個々のファイルを追加することもできます。
1. パイプラインアセットブラウザで [すべてのファイル] をクリックします。
2. ファイルに移動してクリックをクリックし、 パイプラインに含めるを クリックします。
これらのファイルをパイプラインのルートフォルダーに移動することを検討してください。パイプラインのルートフォルダーの外側に残されている場合は、 外部ファイル セクションに表示されます。
パイプラインのソースコードをGitで管理できますか?

パイプラインを最初に作成するときに Git フォルダーを選択することで、Git でパイプラインソースを管理できます。

注記

ソースを Git フォルダーで管理すると、ソースコードのバージョン管理が追加されます。ただし、構成のバージョン管理を行うには、Databricks では、Databricks アセットバンドルを使用して、Git (または別のバージョン管理システム) に保存できるバンドル構成ファイルでパイプライン構成を定義することをお勧めします。詳細については、 Databricksアセットバンドルとは何ですか?」を参照してください。。

最初に Git フォルダーにパイプラインを作成しなかった場合は、ソースを Git フォルダーに移動できます。Databricks では、エディターアクションを使用してルートフォルダー全体を Git フォルダーに移動することをお勧めします。これにより、すべての設定がそれに応じて更新されます。ルートフォルダーを参照してください。

パイプラインアセットブラウザでルートフォルダを Git フォルダに移動するには:

クリックルートフォルダー用。
ルートフォルダの移動を クリックします。
ルートフォルダーの新しい場所を選択し、 [移動] をクリックします。

詳細については、「ルートフォルダー」セクションを参照してください。

移動後、ルートフォルダーの名前の横に、使い慣れた Git アイコンが表示されます。

重要

パイプラインルートフォルダーを移動するには、パイプラインアセットブラウザーと上記のステップを使用します。他の方法で移動するとパイプライン構成が壊れるため、 [設定] で正しいフォルダーパスを手動で構成する必要があります。

同じルートフォルダーに複数のパイプラインを配置できますか?

可能ですが、Databricks ではルートフォルダーごとに 1 つのパイプラインのみを使用することをお勧めします。
ドライ実行はいつ実行すればよいですか?

ドライラン をクリックして、テーブルを更新せずにコードを確認します。
コード内で一時ビューをいつ使用する必要がありますか?また、マテリアライズドビューを使用する必要があるのはどのような場合ですか?

データをマテリアライズしたくない場合は、一時ビューを使用します。たとえば、これは、カタログに登録されているストリーミングテーブルやマテリアライズドビューを使用してデータを実体化する準備ができる前に、データを準備するための一連のステップの中のステップです。

Lakeflowパイプラインエディターとは何ですか?​

Lakeflow パイプライン エディタ UI の概要​

新しいETLパイプラインを作成する​

既存のETLパイプラインを開く​

パイプラインアセットブラウザ​

ルートフォルダ​

ルートフォルダのない既存のパイプライン​

デフォルトのフォルダ構造​

ソースコードファイル​

ソースコード以外のファイル​

外部ファイル​

複数のパイプラインに関連付けられたファイル​

すべてのファイルセクション​

パイプラインのソースファイルを編集する​

パイプラインコードを実行する​

パイプライングラフ、有向非巡回グラフ（DAG）​

データプレビュー​

処理に対する洞察​

パイプライン構成​

イベントログ​

パイプライン環境​

通知​

モニタリングパイプライン​

Lakeflow Pipelines Editor と更新されたモニタリングを有効にする​

新しいパイプラインモニタリングページを有効にする​

制限事項と既知の問題​

よくある質問​

Lakeflowパイプラインエディターとは何ですか?

Lakeflow パイプラインエディタ UI の概要

新しいETLパイプラインを作成する

既存のETLパイプラインを開く

パイプラインアセットブラウザ

ルートフォルダ

ルートフォルダのない既存のパイプライン

デフォルトのフォルダ構造

ソースコードファイル

ソースコード以外のファイル

外部ファイル

複数のパイプラインに関連付けられたファイル

すべてのファイルセクション

パイプラインのソースファイルを編集する

パイプラインコードを実行する

パイプライングラフ、有向非巡回グラフ（DAG）

データプレビュー

処理に対する洞察

パイプライン構成

イベントログ

パイプライン環境

通知

モニタリングパイプライン

Lakeflow Pipelines Editor と更新されたモニタリングを有効にする

新しいパイプラインモニタリングページを有効にする

制限事項と既知の問題

よくある質問