dlt-metaでパイプラインを作成する

Databricks Labs dlt-meta のプロジェクトは、管理するメタデータからパイプラインを生成するツールを提供します。

注記

オープンソースのdlt-metaプロジェクトは、databrickslabs GitHubアカウント内のすべてのプロジェクトと同様に、探索のみを目的としています。Databricks は、それをサポートしておらず、サービスレベルアグリーメント（SLA）も提供していません。本プロジェクトに関する問題については、Databricks サポートチケットを送信しないでください。代わりに、時間が許す限りレビューされる GitHub のイシューを提出してください。

dlt-metaとは何ですか?

Lakeflow パイプラインを使用すると、テーブルを宣言的に指定し、ソースデータの変更に応じてテーブルを作成し、最新の状態に保つフローをパイプラインで生成できます。ただし、組織に数百のテーブルがある場合、これらのパイプラインの生成と管理には時間がかかり、一貫性のないプラクティスにつながる可能性があります。

The dlt-meta projectは、LakeFlow Pipelinesと連携するように設計された、メタデータ駆動型のメタプログラミングフレームワークです。このフレームワークは、一連のJSONおよびYAMLファイルに記録されたメタデータを活用することで、ブロンズおよびシルバーのデータパイプラインの自動化を可能にします。dlt-metaエンジンは、Pythonコードを使用して、メタデータに記述されたフローのパイプラインコードを動的に生成します。パイプラインに関するメタデータを生成し、dlt-metaがパイプラインを生成します。

ロジックが 1 か所 (メタデータ) に集中化されるため、システムは高速化され、再利用しやすくなり、保守も容易になります。

注記

dlt-meta プロジェクトは、Databricks の古い Delta Live Tables 機能にちなんで名付けられました。 Delta Live Tables は LakeFlow Pipelines に置き換えられ、dlt-meta は LakeFlow Pipelines で動作します。

dlt-metaの利点

dlt-meta には主に 2 つの使用例があります。

大量のテーブルを簡単に取り込み、クリーンアップします。
データエンジニアリング標準を複数のパイプラインとユーザーに適用します。

メタデータ駆動型アプローチを使用する利点は次のとおりです。

メタデータの維持は、Python や SQL コードの知識がなくても行うことができます。
コードではなくメタデータを維持することで、オーバーヘッドが少なくなり、エラーが減少します。
コードは dlt-meta によって生成されるため、一貫性が保たれ、パイプラインと公開されたテーブル全体でカスタムコードが少なくなります。
メタデータ内でテーブルをパイプラインに簡単にグループ化して、データを最も効率的に更新するために必要な数のパイプラインを生成できます。

dlt-meta のしくみ

次の図は、dlt-meta システムの概要を示しています。

dlt-metaの概要

ソースファイルと出力、品質ルール、必要な処理を指定するには、dlt-meta への入力としてメタデータファイルを作成します。
dlt-meta エンジンは、オンボーディングファイルを DataflowSpec と呼ばれるデータフロー仕様にコンパイルし、後で使用するために保存します。
dlt-meta エンジンは、DataflowSpec を使用して、ブロンズテーブルを生成するパイプラインを作成します。これはメタデータファイルを使用してソースデータを読み取り、品質ルールに一致する正しいデータ期待を適用します。
次に、dlt-meta エンジンは DataflowSpec を使用して、シルバーテーブルを生成する追加のパイプラインを作成します。メタデータファイルを使用して、システムに適切な変換やその他の処理を適用します。

ソースデータが更新されたときに出力を最新の状態に保つには、dlt-meta によって生成されたパイプラインを実行します。

使い始める

dlt-meta を使用するには、次のことが必要です。

dlt-meta ソリューションをデプロイして構成します。
ブロンズおよびシルバーレイヤーテーブルのメタデータを準備します。
メタデータをオンボードするジョブを作成します。
メタデータを使用して、テーブルのパイプラインを作成します。

GitHub の dlt-meta ドキュメントには、このプロセスを開始するのに役立つチュートリアルがあります。詳細については、 GitHubの「getting started with dlt-meta」を参照してください。

dlt-metaとは何ですか?​

dlt-metaの利点​

dlt-meta のしくみ​

使い始める​

その他のリソース​

dlt-metaとは何ですか?

dlt-metaの利点

dlt-meta のしくみ

使い始める

その他のリソース