Lakeflowコネクトの標準コネクタ

このページでは、 Databricks LakeFlow Connectの標準コネクタについて説明し、マネージドコネクタと比較してより高いレベルのインジェストパイプラインのカスタマイズを提供します。

ETLスタックのレイヤー

一部のコネクタは、ETL スタックの 1 つのレベルで動作します。たとえば、Databricks は、Salesforce などのエンタープライズアプリケーションや SQL Server などのデータベース用のフルマネージドコネクタを提供しています。その他のコネクタは、ETLスタックの複数のレイヤーで動作します。たとえば、構造化ストリーミングで標準コネクタを使用して完全なカスタマイズを行ったり、宣言型パイプラインで LakeFlow より管理されたエクスペリエンスを使用したりできます。

ETLスタック図

Databricks では、最も管理されたレイヤーから始めることをお勧めします。要件を満たさない場合 (たとえば、データソースをサポートしていない場合) は、次のレイヤーにドロップダウンします。

次の表では、インジェスト製品の 3 つのレイヤーを、最もカスタマイズ可能なものから最も管理しやすいものの順に説明しています。

層	説明
構造化ストリーミング	Apache Spark 構造化ストリーミングは、 Spark APIsを使用した exactly-once 処理保証を備えたエンドツーエンドのフォールトトレランスを提供するストリーミングエンジンです。
Lakeflow 宣言型パイプライン	Lakeflow 宣言型パイプラインは、構造化ストリーミングに基づいて構築されており、データパイプラインを作成するためのより宣言的なフレームワークを提供します。データに対して実行する変換を定義でき、 Lakeflow 宣言型パイプラインはオーケストレーション、モニタリング、データ品質、エラーなどを管理します。したがって、構造化ストリーミングよりも多くの自動化とより少ないオーバーヘッドを提供します。
マネージドコネクタ	フルマネージドコネクタ Lakeflow 宣言型パイプラインに基づいて構築されており、最も一般的なデータソースにさらに自動化を提供します。宣言型パイプラインの機能を拡張し Lakeflow ソース固有の認証、 CDC、エッジケース処理、長期 API メンテナンス、自動再試行、自動スキーマ進化なども含まれます。したがって、サポートされているデータソースに対してさらに自動化を提供します。

コネクタを選択する

次の表に、データソースとパイプラインのカスタマイズのレベル別の標準インジェストコネクタを示します。完全に自動化されたインジェストエクスペリエンスを実現するには、代わりにマネージドコネクタを使用します。

クラウドオブジェクトストレージからの増分取り込みの SQL 例では CREATE STREAMING TABLE 構文を使用します。SQL ユーザーにスケーラブルで堅牢なインジェストエクスペリエンスを提供するため、 COPY INTOの代替手段として推奨されます。

ソース	その他のカスタマイズ	いくつかのカスタマイズ	さらなる自動化
クラウドオブジェクトストレージ	Auto Loader with 構造化ストリーミング Python Scala	Auto LoaderLakeFlow宣言型パイプラインを使用した Python SQL	Auto LoaderDatabricks SQL SQL
Apache Kafka	Kafka ソースを使用した構造化ストリーミング Python Scala	LakeFlow Declarative パイプライン with Kafka ソース Python SQL	Databricks SQL と Kafka ソース SQL
Amazon Kinesis	Kinesis ソースを使用した構造化ストリーミング Python Scala	LakeFlow Declarative パイプライン with Kinesis ソース Python SQL	Databricks SQL と Kinesis ソース SQL
Google Pub/Sub	Pub/Sub ソースによる構造化ストリーミング Python Scala	LakeFlow Declarative パイプライン with Pub/Sub ソース Python SQL	Databricks SQL と Pub/Sub ソース SQL
Apache パルサー	構造化ストリーミング with Pulsar ソース Python Scala	LakeFlow Declarative パイプライン with Pulsar ソース Python SQL	Databricks SQL と Pulsar ソース SQL

ソース

その他のカスタマイズ

いくつかのカスタマイズ

さらなる自動化

クラウドオブジェクトストレージ

Auto Loader with 構造化ストリーミング

Python

Scala

Auto LoaderLakeFlow宣言型パイプラインを使用した

Python

SQL

Auto LoaderDatabricks SQL

SQL

Apache Kafka

Kafka ソースを使用した構造化ストリーミング

Python

Scala

LakeFlow Declarative パイプライン with Kafka ソース

Python

SQL

Databricks SQL と Kafka ソース

SQL

Amazon Kinesis

Kinesis ソースを使用した構造化ストリーミング

Python

Scala

LakeFlow Declarative パイプライン with Kinesis ソース

Python

SQL

Databricks SQL と Kinesis ソース

SQL

Google Pub/Sub

Pub/Sub ソースによる構造化ストリーミング

Python

Scala

LakeFlow Declarative パイプライン with Pub/Sub ソース

Python

SQL

Databricks SQL と Pub/Sub ソース

SQL

Apache パルサー

構造化ストリーミング with Pulsar ソース

Python

Scala

LakeFlow Declarative パイプライン with Pulsar ソース

Python

SQL

Databricks SQL と Pulsar ソース

SQL

インジェストスケジュール

インジェストパイプラインは、定期的なスケジュールで実行するか、継続的に実行するように構成できます。

ユースケース	パイプラインモード
バッチ取り込み	トリガー: スケジュールに従って、または手動でトリガーされたときに新しいデータを処理します。
ストリーミングインジェスト	連続: ソースに到着した新しいデータを処理します。

ETLスタックのレイヤー​

コネクタを選択する​

インジェスト スケジュール​

ETLスタックのレイヤー

コネクタを選択する

インジェストスケジュール