メインコンテンツまでスキップ

ETLエディターを使用した パイプラインの開発とデバッグLakeflow Pipelines

備考

ベータ版

この機能は ベータ版です。

この記事では、 Lakeflow Pipelines エディターを使用して、宣言型パイプラインで ETL (抽出、変換、読み込み) パイプラインを開発およびデバッグする方法について説明します Lakeflow 。

宣言型パイプラインで 1 つのノートブックを使用したデフォルト開発エクスペリエンスについてはLakeflow宣言型パイプラインのノートブックを使用したETLパイプラインの開発とデバッグLakeflowを参照してください。

Lakeflow Pipelinesエディターとは何ですか?

Lakeflow Pipelines エディタは、宣言型パイプラインを開発するために構築されたLakeflowIDE です。すべてのパイプライン開発タスクを 1 つのサーフェスに組み合わせ、コードファーストのワークフロー、フォルダベースのコード編成、選択的な実行、データ プレビュー、パイプライン グラフをサポートします。Databricks プラットフォームと統合されているため、バージョン管理、コードレビュー、スケジュールされた実行も可能になります。

Lakeflow Pipelines エディタ UI の概要

Lakeflow Pipelines エディタには、次の機能があります。

  1. パイプラインアセットブラウザ: パイプラインアセットを作成、削除、名前変更、整理します。
  2. タブ付きのマルチファイル コード エディター : パイプラインに関連付けられている複数のコード ファイルに対して作業します。
  3. パイプライン固有のツールバー : パイプライン構成 を有効にし、 パイプライン レベルの実行アクションがあります。
  4. 対話型の有向非巡回グラフ (DAG): テーブルの概要を把握し、データ プレビューの下部バーを開き、その他のテーブル関連のアクションを実行します。
  5. データのプレビュー: ストリーミングテーブルとマテリアライズドビューのデータを検査します。
  6. テーブルレベルの実行の知見: パイプライン内のすべてのテーブルまたは 1 つのテーブルの実行の知見を取得します。 本知見は、最新のパイプライン実行を参照しています。
  7. 問題パネル: この機能は、パイプライン内のすべてのファイルのエラーを要約し、特定のファイル内でエラーが発生した場所に移動できます。これは、コードに添付されたエラーインジケータを補完します。
  8. 選択的実行: コード エディターには、 ファイルの実行 アクションまたは 1 つのテーブルを使用して現在のファイル内のテーブルのみを更新する機能など、段階的な開発のための機能があります。
  9. デフォルト パイプライン フォルダ構造: 新しいパイプラインには、パイプラインの開始点として使用できる定義済みのフォルダ構造とサンプル コードが含まれています。
  10. パイプライン作成の簡略化: 名前、カタログ、スキーマを指定し、デフォルトによってテーブルを作成し、パイプラインはデフォルトの設定を使用して作成します。 後でパイプライン エディターのツール バーから [設定] を調整できます。

Lakeflow Declarative パイプライン Lakeflow Pipelines エディタ

Lakeflow Pipelinesエディタを有効にする

注記

レベルがコンプライアンス セキュリティ プロファイルにある場合は、Databricks の連絡先に連絡して機能を試してください。

ETL パイプライン Lakeflow Pipelines エディタは、次の複数の方法で有効にできます。

  • 新しいETL パイプライン を作成する場合は、Lakeflow ETL パイプライン エディター のトグルを使用して、宣言型パイプラインのエディターを有効にします 。

    Lakeflow Declarative パイプライン ETL パイプラインエディタの切り替え

    パイプラインの詳細設定ページは、エディターを初めて有効にするときに使用されます。簡略化されたパイプライン作成ウィンドウは、次に新しいパイプラインを作成するときに使用されます。

  • 既存のパイプラインの場合は、パイプラインで使用されているノートブックを開き、ヘッダーで ETL パイプライン エディタ のトグルを有効にします。 また、パイプライン モニタリング ページに移動し、[ 設定 ] をクリックして Lakeflow Pipelines エディターを有効にすることもできます。

ETL パイプライン エディタ のトグルを有効にすると、すべての ETL パイプラインで Lakeflow Pipelines Editor by デフォルト エディタが使用されます。ETL パイプラインエディタのオンとオフは、エディタから切り替えることができます。

または、ユーザー設定から Lakeflow Pipelines エディターを有効にすることもできます。

  1. ワークスペースの右上にある ユーザーバッジ をクリックし、[ 設定開発者 ]をクリックします。
  2. ノートブックとファイルのタブ を有効にします。
  3. ETL パイプライン マルチファイル エディター を有効にします。

新しい ETL パイプラインを作成する

エディタを使用して新しいETL パイプラインを作成するには、次の手順を実行します。Lakeflow Pipelines

  1. サイドバーの上部にあるプラスアイコン。 [ 新規] をクリックし、[ パイプラインのアイコン。 ETL パイプライン] を選択します。

  2. 上部で、パイプラインに一意の名前を付けることができます。

  3. 名前のすぐ下に、選択したデフォルトのカタログとスキーマが表示されます。これらを変更して、パイプラインに異なるデフォルトを与えます。

    デフォルト カタログ とデフォルト スキーマ は、コード内のカタログまたはスキーマでデータセットを修飾しない場合に、データセットの読み取りまたは書き込みが行われる場所です。 詳細については、Databricksのデータベース・オブジェクトを参照してください。

  4. パイプラインを作成するための任意のオプションを選択するには、次のいずれかのオプションを選択します。

    • SQL のサンプル コードから始めて 、SQL のサンプル コードを含む新しいパイプラインとフォルダー構造を作成します。
    • Python のサンプル コードから始めて 、Python のサンプル コードを含む新しいパイプラインとフォルダー構造を作成します。
    • 1 つの変換から始めて 、新しいパイプラインとフォルダー構造を作成し、新しい空のコード ファイルを作成します。
    • 既存のアセットを追加して 、ワークスペース内の既存のコード ファイルに関連付けることができるパイプラインを作成します。

    ETL パイプラインには、SQL と Python の両方のソースコードファイルを含めることができます。新しいパイプラインを作成し、サンプル コードの言語を選択する場合、その言語は Default によってパイプラインに含まれるサンプル コードのみになります。

  5. 選択すると、新しく作成されたパイプラインにリダイレクトされます。

ETL パイプラインは、次のデフォルト設定で作成されます。

これらの設定は、パイプラインツールバーから調整できます。

または、ワークスペース ブラウザーから ETL パイプラインを作成することもできます。

  1. 左側のパネルで ワークスペース をクリックします。
  2. Git フォルダーを含む任意のフォルダーを選択します。
  3. 右上隅の 「作成 」をクリックし、「 ETL パイプライン 」をクリックします。

ETL パイプラインは、ジョブとパイプラインのページから作成することもできます。

  1. ワークスペースで、サイドバーの ワークフローアイコン。 Jobs & パイプライン をクリックします。
  2. [ 新規 ] で、[ ETL パイプライン ] をクリックします。

既存の ETL パイプラインを開く

既存の ETL パイプラインを Lakeflow Pipelines Editor で開くには、次の手順を実行します。

  1. サイドパネルの ワークスペース をクリックします。
  2. パイプラインのソース コード ファイルを含むフォルダーに移動します。
  3. ソース コード ファイルをクリックして、エディターでパイプラインを開きます。

既存の ETL パイプラインを開く

次の方法で既存の ETL パイプラインを開くこともできます。

  • 左側のサイドバーの [最近] ページで、パイプラインまたはパイプラインのソース コードとして設定されたファイルを開きます。
  • パイプライン モニタリング ページで、[ パイプラインの編集 ] をクリックします。
  • 左側のサイドバーの [ジョブ 実行 ] ページで、[ ジョブとパイプライン タブ] をクリックし、[ ケバブメニューのアイコン。[パイプラインの編集 ] をクリックします。
  • 新しいジョブを作成してパイプライン タスクを追加する場合、 パイプライン でパイプラインを選択するときに 新しいタブで開く新しいウィンドウアイコン。をクリックできます。
  • パイプラインを編集するときは、アセットブラウザの上部にあるパイプラインの名前をクリックして、最近表示したパイプラインのリストから選択できます。
  • アセットブラウザから別のパイプラインのソースコードとして設定されたソースコードファイルを開くと、そのファイルのエディタの上部にバナーが表示され、関連付けられたパイプラインを開くように求められます。パイプラインの一部ではないソースコードファイルを開くには、アセットブラウザの上部にある [ All files (すべてのファイル )] を選択します。

パイプラインアセットブラウザ

Lakeflow Pipelines エディタには、ワークスペース ブラウザ サイドバー用の特別なモードがあり、 パイプライン アセット ブラウザ と呼ばれ、デフォルトにより、パネルをパイプラインにフォーカスします。

ブラウザの上部にあるパイプライン名をクリックして、最近表示したパイプラインを切り替えます。

アセット ブラウザーには 2 つのタブがあります。

  • パイプライン : ここでは、パイプラインに関連付けられているすべてのファイルを見つけることができます。 作成、削除、名前の変更、およびフォルダへの整理を行うことができます。
  • すべてのファイル : 他のすべてのワークスペース資産は、ここで使用できます。

パイプラインアセットブラウザ

パイプラインには、次の種類のファイルを含めることができます。

  • ソース コード ファイル: これらのファイルは、パイプラインのソース コード定義の一部であり、[ 設定 ] で確認できます。 Databricks では、常にソース コード ファイルを パイプラインのルート フォルダー内に格納することをお勧めします。そうしないと、ブラウザの下部にある 外部ファイル セクションに表示され、機能セットがあまり豊富になりません。
  • 非ソース コード ファイル: これらのファイルはパイプラインのルート フォルダー内に格納されますが、パイプラインのソース コード定義の一部ではありません。
important

パイプラインのファイルとフォルダを管理するには、 パイプライン タブの下にあるパイプラインアセットブラウザを使用する必要があります。 これにより、パイプラインの設定が正しく更新されます。ワークスペース ブラウザーまたは すべてのファイル タブからファイルやフォルダーを移動または名前変更すると、パイプライン構成が中断されるため、 これを 設定 で手動で解決する必要があります。

ルートフォルダ

パイプライン アセット ブラウザーは、パイプラインのルート フォルダーに固定されています。新しいパイプラインを作成すると、パイプラインのルートフォルダが ユーザー ホームフォルダーに作成され、パイプライン名と同じ名前が付けられます。

ルート フォルダーは、パイプライン アセット ブラウザーで変更できます。これは、フォルダにパイプラインを作成し、後ですべてを別のフォルダに移動する場合に便利です。たとえば、パイプラインを通常のフォルダーに作成し、バージョン管理のためにソース コードを Git フォルダーに移動するとします。

  1. ルートフォルダの ケバブメニューのアイコン。 オーバーフローメニューをクリックします。
  2. [ 新しいルートフォルダの設定 ] をクリックします。
  3. パイプライン ルート フォルダフォルダアイコンをクリックし、別のフォルダをパイプライン ルート フォルダとして選択します。
  4. 保存 をクリックします。

パイプラインのルート フォルダーを変更する

ルートフォルダの ケバブメニューのアイコン。 で、[ ルートフォルダの名前を変更 ]をクリックしてフォルダ名を変更することもできます。ここでは、[ ルートフォルダを移動 ]をクリックして、ルートフォルダをGitフォルダなどに移動することもできます。

設定でパイプラインのルートフォルダを変更することもできます。

  1. 設定 をクリックします。
  2. コードアセット で、 パスの構成 をクリックします。
  3. [ フォルダアイコン ] をクリックして、 パイプライン ルート フォルダー の下のフォルダーを変更します。
  4. 保存 をクリックします。
注記

パイプラインのルートフォルダを変更すると、以前のルートフォルダ内のファイルが外部ファイルとして表示されるようになるため、パイプラインアセットブラウザに表示されるファイルリストが影響を受けます。

ルート フォルダーがない既存のパイプライン

宣言型パイプラインの1 つのノートブックを使用してデフォルト開発エクスペリエンスLakeflow で作成された既存のパイプライン ルート フォルダーは構成されません。次の手順に従って、既存のパイプラインのルート フォルダーを構成します。

  1. パイプラインアセットブラウザで、 設定 をクリックします。
  2. [ フォルダアイコン ] をクリックして、 パイプライン ルート フォルダー の下のルート フォルダーを選択します。
  3. 保存 をクリックします。

パイプラインのルートフォルダがありません

デフォルトのフォルダ構造

新しいパイプラインを作成すると、デフォルトのフォルダ構造が作成されます。これは、以下で説明するように、パイプラインのソース コード ファイルと非ソース コード ファイルを整理するための推奨される構造です。

このフォルダ構造には、少数のサンプル・コード・ファイルが作成されます。

フォルダ名

これらの種類のファイルの推奨場所

<pipeline_root_folder>

パイプラインのすべてのフォルダーとファイルを含むルート フォルダー。

explorations

非ソース コード ファイル (探索的データ分析に使用されるノートブック、クエリ、コード ファイルなど)。

transformations

Python や SQL コードファイルなどのソースコードファイル(テーブル定義を含む)。

utilities

他のコードファイルからインポートできるPythonモジュールを含む非ソースコードファイル。サンプル コードの言語として SQL を選択した場合、このフォルダーは作成されません。

フォルダ名を変更したり、ワークフローに合わせて構造を変更したりできます。新しいソース コード フォルダーを追加するには、次の手順を実行します。

  1. パイプラインアセットブラウザで 追加 をクリックします。
  2. パイプライン ソース コード フォルダの作成 をクリックします。
  3. フォルダ名を入力し、[ 作成 ]をクリックします。

ソースコードファイル

ソース コード ファイルは、パイプラインのソース コード定義の一部です。 パイプラインを実行すると、これらのファイルが評価されます。ソースコード定義の一部であるファイルとフォルダには、ミニパイプラインアイコンが重ね合わされた特別なアイコンがあります。

新しいソース コード ファイルを追加するには、次の手順を実行します。

  1. パイプラインアセットブラウザで 追加 をクリックします。
  2. 「変換」 をクリックします。
  3. ファイルの 名前 を入力し、 言語 として Python または SQL を選択します。
  4. 作成 をクリックします。

また、パイプラインアセットブラウザの任意のフォルダの [ ケバブメニューのアイコン。 ] をクリックして、ソースコードファイルを追加することもできます。

ソース コード用の transformations フォルダーは、新しいパイプラインを作成するときに Default によって作成されます。 このフォルダは、パイプライン テーブル定義を含む Python や SQL コード ファイルなど、パイプライン ソース コードに推奨される場所です。

非ソース コード ファイル

ソース コード ファイル以外のファイルは、パイプラインのルート フォルダー内に格納されますが、パイプラインのソース コード定義の一部ではありません。これらのファイルは、パイプラインの実行時には評価されません。ソース コード ファイル以外のファイルを 外部ファイルにすることはできません。

これは、ソース コードと共に保存するパイプラインでの作業に関連するファイルに使用できます。例えば:

  • 非Lakeflow 宣言型パイプライン コンピュートで実行されるアドホック探索に使用するノートブック パイプラインのライフサイクル外。
  • Python モジュールは、これらのモジュールをソース コード ファイル内に明示的にインポートしない限り、ソース コードで評価されません。

新しい非ソース コード ファイルを追加するには、次の手順を実行します。

  1. パイプラインアセットブラウザで 追加 をクリックします。
  2. [Exploration] または [Utility] をクリックします。
  3. ファイルの 名前 を入力します。
  4. 作成 をクリックします。

また、パイプラインのルート フォルダまたはソース コード ファイル以外の [ ケバブメニューのアイコン。 ] をクリックして、ソース コード ファイル以外のファイルをフォルダに追加することもできます。

新しいパイプラインを作成すると、ソース以外のコード ファイル用の次のフォルダーがデフォルトによって作成されます。

フォルダ名

説明

explorations

このフォルダは、ノートブック、クエリ、ダッシュボード、およびその他のファイルの場所として推奨され、パイプラインの実行ライフサイクルの外部で通常行うのと同様に、非Lakeflow 宣言型パイプラインコンピュートで実行します。 重要: これらはパイプラインのソースコードとして追加しないでください。これらのファイルは任意の非Lakeflow 宣言型パイプライン コードをカバーする可能性が高いため、パイプラインでエラーが発生する可能性があります。

utilities

このフォルダは、親フォルダがルート フォルダの下に階層的である限り、 from <filename> importで表される直接インポートを介して他のファイルからインポートできる Python モジュールに推奨される場所です。

ルート フォルダーの外部にある Python モジュールをインポートすることもできますが、その場合は、Python コード内の sys.path にフォルダー パスを追加する必要があります。

Python
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

外部ファイル

パイプライン ブラウザーの 外部ファイル セクションには、ルート フォルダーの外部にあるソース コード ファイルが表示されます。

外部ファイルをルート フォルダ ( transformations フォルダなど) に移動するには、次の手順を実行します。

  1. アセットブラウザでファイルの ケバブメニューのアイコン。 をクリックし、 移動 をクリックします。
  2. ファイルの移動先のフォルダを選択し、 移動 をクリックします。

複数のパイプラインに関連付けられたファイル

バッジは、ファイルが複数のパイプラインに関連付けられている場合、ファイルのヘッダーに表示されます。関連付けられたパイプラインの数があり、他のパイプラインに切り替えることができます。

[すべてのファイル] セクション

[パイプライン] セクションに加えて、[ すべてのファイル ] セクションがあり、ワークスペース内の任意のファイルを開くことができます。ここでは、次のことができます。

  • ルートフォルダの外部にあるファイルをタブ内で開き、 Lakeflow Pipelines エディタを離れることなく開きます。
  • 別のパイプラインのソース コード ファイルに移動して開きます。これにより、エディターでファイルが開き、エディターでフォーカスをこの 2 番目のパイプラインに切り替えるオプションを含むバナーが表示されます。
  • パイプラインのルート フォルダーにファイルを移動します。
  • ルート フォルダの外部にあるファイルをパイプラインのソース コード定義に含めます。

パイプライン コードの実行

パイプラインコードを実行するには、次の 3 つのオプションがあります。

  1. パイプライン内のすべてのソース コード ファイルを実行: パイプラインの実行 または テーブルのフルリフレッシュによるパイプライン実行 をクリックして、パイプライン ソース コードとして定義されているすべてのファイルのすべてのテーブル定義を実行します。

    パイプラインを実行

    ドライラン をクリックして、データを更新せずにパイプラインを検証することもできます。

  2. 1 つのファイルでコードを実行する: [ 実行ファイル ] または [ 完全なテーブル更新を含む実行ファイル ] をクリックして、現在のファイル内のすべてのテーブル定義を実行します。

    ファイルを実行

  3. 1 つのテーブルのコードを実行する: ソース コード ファイル内のテーブル定義の テーブルの実行 DLT 実行テーブルのアイコンをクリックし、 テーブルの更新 または テーブルのフルリフレッシュ をクリックします。

    テーブルを実行

有向非巡回グラフ (DAG)

パイプライン内のすべてのソース コード ファイルを実行または検証すると、有向非巡回グラフ (DAG) が表示されます。グラフには、テーブルの依存関係グラフが表示されます。各ノードには、パイプラインのライフサイクルに沿って、検証済み、実行中、エラーなど、さまざまな状態があります。

有向非巡回グラフ (DAG)

グラフのオンとオフを切り替えるには、右側のパネルにあるグラフアイコンをクリックします。グラフを最大化することもできます。右下には、ズームオプションや、グラフを垂直または水平のレイアウトで表示するための スライダーアイコン。 [その他のオプション ] などの追加オプションがあります。

ノードにカーソルを合わせると、クエリの更新などのオプションを含むツールバーが表示されます。ノードを右クリックすると、コンテキストメニューに同じオプションが表示されます。

ノードをクリックすると、 データのプレビュー とテーブル定義が表示されます。ファイルを編集すると、そのファイルで定義されているテーブルがグラフで強調表示されます。

データプレビュー

データ プレビュー セクションには、選択したテーブルのサンプル データが表示されます。

有向非巡回グラフ (DAG) のノードをクリックすると、テーブルのデータのプレビューが表示されます。

テーブルが選択されていない場合は、 テーブル セクションに移動し、 データ プレビュー の表示 DLT データ表示プレビューアイコン をクリックします。テーブルを選択した場合は、[ すべてのテーブル ] をクリックしてすべてのテーブルに戻ります。

処理に対する洞察

最新のパイプライン更新に関するテーブル実行の知見は、エディタ下部のパネルで確認できます。

パネル

説明

テーブル

すべてのテーブルを、そのステータスとメトリクスとともに一覧表示します。1 つのテーブルを選択すると、そのテーブルのメトリクスとパフォーマンス、およびデータプレビューのタブが表示されます。

パフォーマンス

このパイプライン内のすべてのフローのクエリ履歴とプロファイル。実行中および実行後に、実行メトリクスと詳細なクエリプランにアクセスできます。詳細については 、「 Lakeflow 宣言型パイプラインのクエリ履歴にアクセスする 」を参照してください。

問題パネル

パネルをクリックすると、パイプラインの簡略化されたエラーと警告のビューが表示されます。エントリをクリックして詳細を表示し、エラーが発生したコード内の場所に移動できます。エラーが現在表示されているファイル以外のファイルにある場合は、エラーが発生しているファイルにリダイレクトされます。

[ 詳細の表示 ] をクリックして、対応するイベント ログ エントリを表示し、完全な詳細を確認します。[ ログの表示 ] をクリックして、完全なイベント ログを表示します。

コードに添付されたエラー インジケーターは、コードの特定の部分に関連するエラーに対して表示されます。詳細を表示するには、 エラー アイコンをクリックするか、赤い線にカーソルを合わせます。詳細情報を含むポップアップが表示されます。その後、[ クイック修正 ] をクリックして、エラーのトラブルシューティングを行うための一連のアクションを表示できます。

イベントログ

最後のパイプライン実行中にトリガーされたすべてのイベント。[ ログの表示 ] をクリックするか、問題トレイの任意のエントリをクリックします。

パイプライン設定

パイプライン設定パネルにアクセスするには、ツールバーの 設定 をクリックするか、パイプラインアセットブラウザのミニカードで [ 歯車のアイコン。 ] をクリックします。

パイプライン設定

イベントログ

パイプラインのイベント ログは、[ 設定 ] で設定するまで使用できません。

  1. [設定 ] を開きます。
  2. [詳細設定] の横にあるシェブロンの右アイコン。 矢印をクリックします。
  3. [ 詳細設定の編集 ] をクリックします。
  4. [イベント ログをメタストアに発行] を選択します。
  5. イベント ログの名前、カタログ、およびスキーマを指定します。
  6. 保存 をクリックします。

これで、パイプライン イベントが指定したテーブルに発行されます。

環境

ソースコードの環境を作成するには、[ 設定 ] で依存関係を追加します。

  1. [設定 ] を開きます。
  2. [環境 ] で、[ 環境の編集 ] をクリックします。
  3. [ プラスアイコン。 依存関係の追加] を選択して、 ファイルに追加するかのように依存関係を追加します。requirements.txt依存関係の詳細については、「 ノートブックに依存関係を追加する」を参照してください。

Databricks では、 ==でバージョンをピン留めすることをお勧めします。 PyPI パッケージを参照してください。

環境は、パイプライン内のすべてのソース コード ファイルに適用されます。

通知

通知は、 従来のパイプライン設定 を使用して追加できます。

  1. [設定 ] を開きます。
  2. パイプライン設定 パネルの下部にある [ 従来のパイプライン設定 ] をクリックします。
  3. [通知] で [ 通知の追加 ] をクリックします。
  4. 1つ以上のEメールアドレスと、それらを送信するイベントを追加します。
  5. [ 通知の追加 ] をクリックします。

制限事項と既知の問題

宣言型パイプラインの ETL パイプライン エディターに関する次の制限事項と既知の問題 Lakeflow を参照してください。

  1. explorations フォルダまたはノートブック内のファイルを開くことから開始すると、これらのファイルまたはノートブックはパイプライン ソース コード定義の一部ではないため、ワークスペース ブラウザのサイドバーはパイプラインにフォーカスしません。

    1. ワークスペース ブラウザーでパイプライン フォーカス モードに入るには、パイプラインに関連付けられているファイルを開きます。
  2. データ プレビューは、通常のビューではサポートされていません。

  3. 複数テーブルの更新は、パイプライン モニタリング ページからのみ実行できます。 パイプライン ブラウザーのミニカードを使用して、そのページに移動します。

  4. 実行 テーブル DLT 実行テーブルのアイコン コード内の行の折り返しにより、正しくない位置に表示されることがあります。

  5. %pip install は、ファイルからはサポートされていません (新しいエディターのデフォルトのアセットタイプ)。依存関係は設定で追加できます。「環境」を参照してください。

    または、パイプラインに関連付けられているノートブックの %pip install を、そのソース コード定義で引き続き使用することもできます。

FAQ

  1. なぜソースコードにノートブックではなくファイルを使用するのですか?

    ノートブックのセルベースの実行は Lakeflow 宣言型パイプラインと互換性がありませんでした。 そのため、機能をオフにしたり、動作を変更したりする必要があり、混乱を招いていました。

    Lakeflow Pipelines エディタでは、ファイル エディタは Lakeflow 宣言型パイプラインのファーストクラス エディタの基盤として使用されます。機能は、さまざまな動作を持つ使い慣れた機能をオーバーロードするのではなく、Lakeflow 実行テーブル などの 宣言型パイプラインを明示的に対象としています。DLT 実行テーブルのアイコン

  2. ノートブックをソースコードとして使用できますか?

    はい、できます。ただし、 テーブルの実行 DLT 実行テーブルのアイコンファイルの実行 などの一部の機能は表示されません。

    ノートブックを使用する既存のパイプラインがある場合でも、新しいエディターで引き続き機能します。ただし、Databricks では、新しいパイプラインのファイルに切り替えることをお勧めします。

  3. 新しく作成したパイプラインに既存のコードを追加するにはどうすればよいですか?

    既存のソース コード ファイルを新しいパイプラインに追加できます。既存のファイルを含むフォルダを追加するには、次の手順を実行します。

    1. 設定 をクリックします。
    2. [ソース コード ] で [ パスの構成 ] をクリックします。
    3. [ パスの追加 ] をクリックし、既存のファイルのフォルダーを選択します。
    4. 保存 をクリックします。

    また、個々のファイルを追加することもできます。

    1. パイプラインアセットブラウザで [All files ] をクリックします。
    2. ファイルに移動し、[ ケバブメニューのアイコン。]、[ パイプラインに含める ] の順にクリックします。

    これらのファイルをパイプラインのルート フォルダーに移動することを検討してください。パイプラインのルート フォルダーの外部に残した場合は、[ 外部ファイル ] セクションに表示されます。

  4. パイプライン ソース コードを Gitで管理できますか?

    パイプライン ソースを Git で管理するには、パイプラインを最初に作成するときに Git フォルダを選択します。バージョン管理なしでパイプラインを作成した後、ソースを Git フォルダーに移動できます。Databricks では、エディター アクションを使用して、ルート フォルダー全体を Git フォルダーに移動することをお勧めします。これにより、それに応じてすべての設定が更新されます。「ルートフォルダ」を参照してください。

    パイプラインアセットブラウザーでルートフォルダーを Git フォルダーに移動するには:

    1. ルートフォルダの [ ケバブメニューのアイコン。 ] をクリックします。
    2. [ ルートフォルダを移動 ]をクリックします。
    3. ルートフォルダの新しい場所を選択し、[ 移動] をクリックします。

    詳細については、「 ルートフォルダ 」セクションを参照してください。

    移動後、ルートフォルダの名前の横におなじみのGitアイコンが表示されます。

important

パイプラインのルート フォルダーを移動するには、パイプライン アセット ブラウザーと上記の手順を使用します。他の方法で移動するとパイプライン構成が中断されるため、[ 設定 ] で正しいフォルダー パスを手動で構成する必要があります。

  1. 同じルート フォルダーに複数のパイプラインを含めることはできますか?

    可能ですが、Databricks では、ルート フォルダーごとに 1 つのパイプラインのみを使用することをお勧めします。

  2. ドライ実行はいつ実行する必要がありますか?

    ドライラン をクリックして、テーブルを更新せずにコードを確認します。

  3. 一時的なビューを使用する必要がある場合と、コードでマテリアライズドビューを使用する必要がある場合

    一時ビューは、データを実体化しない場合は使用します。たとえば、これは、カタログに登録されているストリーミングテーブルまたはマテリアライズドビューを使用して、データを具体化する準備が整う前にデータを準備する一連のステップのステップです。