Lakeflowコネクトの標準コネクタ

このページでは、 Databricks Lakeflow Connectの標準コネクタについて説明し、マネージドコネクタと比較してより高いレベルのインジェストパイプラインのカスタマイズを提供します。

ETLスタックのレイヤー

一部のコネクタは ETL スタックの 1 つのレベルで動作します。たとえば、 Databricks 、Salesforce などのエンタープライズアプリケーションやSQL Serverなどのデータベース用のフルマネージドコネクタを提供します。その他のコネクタは、ETL スタックの複数のレイヤーで動作します。たとえば、構造化ストリーミングで標準コネクタを使用して完全なカスタマイズを行うことも、 Lakeflow Spark宣言型パイプラインでより管理されたエクスペリエンスを使用することもできます。

ETLスタック図

Databricks では、最も管理されたレイヤーから始めることをお勧めします。要件を満たさない場合 (たとえば、データソースをサポートしていない場合) は、次のレイヤーにドロップダウンします。

次の表では、インジェスト製品の 3 つのレイヤーを、最もカスタマイズ可能なものから最も管理しやすいものの順に説明しています。

層	説明
構造化ストリーミング	Apache Spark 構造化ストリーミングは、 Spark APIsを使用した exactly-once 処理保証を備えたエンドツーエンドのフォールトトレランスを提供するストリーミングエンジンです。
Lakeflow Spark宣言型パイプライン	Lakeflow Spark宣言型パイプラインは構造化ストリーミングに基づいて構築されており、データパイプラインを作成するための宣言型フレームワークを提供します。データに対して実行する変換を定義でき、 Lakeflow Spark宣言型パイプラインがオーケストレーション、モニタリング、データ品質、エラーなどを管理します。したがって、構造化ストリーミングよりも自動化が進み、オーバーヘッドが少なくなります。
マネージドコネクタ	フルマネージドコネクタはLakeflow Spark宣言型パイプライン上に構築されており、最も人気のあるデータソースのさらなる自動化を提供します。これらは、 Lakeflow Spark宣言型パイプライン機能を拡張し、ソース固有の認証、 CDC 、エッジケース処理、長期APIメンテナンス、自動再試行、自動スキーマ進化なども組み込みます。したがって、サポートされているデータソースに対してさらに高度な自動化が提供されます。

コネクタを選択する

次の表に、データソースとパイプラインのカスタマイズのレベル別の標準インジェストコネクタを示します。完全に自動化されたインジェストエクスペリエンスを実現するには、代わりにマネージドコネクタを使用します。

クラウドオブジェクトストレージからの増分取り込みの SQL 例では CREATE STREAMING TABLE 構文を使用します。SQL ユーザーにスケーラブルで堅牢なインジェストエクスペリエンスを提供するため、 COPY INTOの代替手段として推奨されます。

ソース	その他のカスタマイズ	いくつかのカスタマイズ	さらなる自動化
クラウドオブジェクトストレージ	Auto Loader with 構造化ストリーミング Python Scala	Lakeflow Spark宣言型パイプラインを使用したAuto Loader Python SQL	Auto LoaderDatabricks SQL SQL
SFTPサーバー	SFTPサーバーからファイルを取り込む (Python、SQL)	N/A	N/A
Apache Kafka	Kafka ソースを使用した構造化ストリーミング Python Scala	Kafkaソースを使用したLakeflow Spark宣言型パイプライン Python SQL	Databricks SQL と Kafka ソース SQL
Amazon Kinesis	Kinesis ソースを使用した構造化ストリーミング Python Scala	Kinesisソースを使用したLakeflow Spark宣言型パイプライン Python SQL	Databricks SQL と Kinesis ソース SQL
Google Pub/Sub	Pub/Sub ソースによる構造化ストリーミング Python Scala	Lakeflow Spark宣言型パイプライン (Pub/Sub ソース付き) Python SQL	Databricks SQL と Pub/Sub ソース SQL
Apache パルサー	構造化ストリーミング with Pulsar ソース Python Scala	Lakeflow Spark宣言型パイプライン with Pulsar ソース Python SQL	Databricks SQL と Pulsar ソース SQL

ソース

その他のカスタマイズ

いくつかのカスタマイズ

さらなる自動化

クラウドオブジェクトストレージ

Auto Loader with 構造化ストリーミング

Python

Scala

Lakeflow Spark宣言型パイプラインを使用したAuto Loader

Python

SQL

Auto LoaderDatabricks SQL

SQL

SFTPサーバー

SFTPサーバーからファイルを取り込む

(Python、SQL)

N/A

Apache Kafka

Kafka ソースを使用した構造化ストリーミング

Python

Scala

Kafkaソースを使用したLakeflow Spark宣言型パイプライン

Python

SQL

Databricks SQL と Kafka ソース

SQL

Amazon Kinesis

Kinesis ソースを使用した構造化ストリーミング

Python

Scala

Kinesisソースを使用したLakeflow Spark宣言型パイプライン

Python

SQL

Databricks SQL と Kinesis ソース

SQL

Google Pub/Sub

Pub/Sub ソースによる構造化ストリーミング

Python

Scala

Lakeflow Spark宣言型パイプライン (Pub/Sub ソース付き)

Python

SQL

Databricks SQL と Pub/Sub ソース

SQL

Apache パルサー

構造化ストリーミング with Pulsar ソース

Python

Scala

Lakeflow Spark宣言型パイプライン with Pulsar ソース

Python

SQL

Databricks SQL と Pulsar ソース

SQL

インジェストスケジュール

インジェストパイプラインは、定期的なスケジュールで実行するか、継続的に実行するように構成できます。

ユースケース	パイプラインモード
バッチ取り込み	トリガー: スケジュールに従って、または手動でトリガーされたときに新しいデータを処理します。
ストリーミングインジェスト	連続: ソースに到着した新しいデータを処理します。

ETLスタックのレイヤー​

コネクタを選択する​

インジェスト スケジュール​

ETLスタックのレイヤー

コネクタを選択する

インジェストスケジュール