メインコンテンツまでスキップ

Lakeflowコネクトの標準コネクタ

このページでは、 Databricks LakeFlow Connectの標準コネクタについて説明し、マネージド コネクタと比較してより高いレベルのインジェスト パイプラインのカスタマイズを提供します。

ETLスタックのレイヤー

一部のコネクタは、ETL スタックの 1 つのレベルで動作します。たとえば、Databricks は、Salesforce などのエンタープライズ アプリケーションや SQL Server などのデータベース用のフルマネージド コネクタを提供しています。その他のコネクタは、ETLスタックの複数のレイヤーで動作します。たとえば、構造化ストリーミングで標準コネクタを使用して完全なカスタマイズを行ったり、宣言型パイプラインで LakeFlow より管理されたエクスペリエンスを使用したりできます。

ETLスタック図

Databricks では、最も管理されたレイヤーから始めることをお勧めします。要件を満たさない場合 (たとえば、データソースをサポートしていない場合) は、次のレイヤーにドロップダウンします。

次の表では、インジェスト製品の 3 つのレイヤーを、最もカスタマイズ可能なものから最も管理しやすいものの順に説明しています。

説明

構造化ストリーミング

Apache Spark 構造化ストリーミングは、 Spark APIsを使用した exactly-once 処理保証を備えたエンドツーエンドのフォールト トレランスを提供するストリーミング エンジンです。

Lakeflow 宣言型パイプライン

Lakeflow 宣言型パイプラインは、構造化ストリーミングに基づいて構築されており、データパイプラインを作成するためのより宣言的なフレームワークを提供します。 データに対して実行する変換を定義でき、 Lakeflow 宣言型パイプラインはオーケストレーション、モニタリング、データ品質、エラーなどを管理します。 したがって、構造化ストリーミングよりも多くの自動化とより少ないオーバーヘッドを提供します。

マネージド コネクタ

フルマネージド コネクタ Lakeflow 宣言型パイプラインに基づいて構築されており、最も一般的なデータソースにさらに自動化を提供します。 宣言型パイプラインの機能を拡張し Lakeflow ソース固有の認証、 CDC、エッジケース処理、長期 API メンテナンス、自動再試行、自動スキーマ進化なども含まれます。 したがって、サポートされているデータソースに対してさらに自動化を提供します。

コネクタを選択する

次の表に、データソースとパイプラインのカスタマイズのレベル別の標準インジェスト コネクタを示します。 完全に自動化されたインジェスト エクスペリエンスを実現するには、代わりに マネージド コネクタ を使用します。

クラウドオブジェクトストレージからの増分取り込みの SQL 例では CREATE STREAMING TABLE 構文を使用します。SQL ユーザーにスケーラブルで堅牢なインジェスト エクスペリエンスを提供するため、 COPY INTOの代替手段として推奨されます。

ソース

その他のカスタマイズ

いくつかのカスタマイズ

さらなる自動化

クラウドオブジェクトストレージ

Auto Loader with 構造化ストリーミング

チェックマーク:はいPython

チェックマーク:はいScala

Auto LoaderLakeFlow宣言型パイプラインを使用した

チェックマーク:はいPython

チェックマーク:はいSQL

Auto LoaderDatabricks SQL

チェックマーク:はいSQL

Apache Kafka

Kafka ソースを使用した構造化ストリーミング

チェックマーク:はいPython

チェックマーク:はいScala

LakeFlow Declarative パイプライン with Kafka ソース

チェックマーク:はいPython

チェックマーク:はいSQL

Databricks SQL と Kafka ソース

チェックマーク:はいSQL

Amazon Kinesis

Kinesis ソースを使用した構造化ストリーミング

チェックマーク:はいPython

チェックマーク:はいScala

LakeFlow Declarative パイプライン with Kinesis ソース

チェックマーク:はいPython

チェックマーク:はいSQL

Databricks SQL と Kinesis ソース

チェックマーク:はいSQL

Google Pub/Sub

Pub/Sub ソースによる構造化ストリーミング

チェックマーク:はいPython

チェックマーク:はいScala

LakeFlow Declarative パイプライン with Pub/Sub ソース

チェックマーク:はいPython

チェックマーク:はいSQL

Databricks SQL と Pub/Sub ソース

チェックマーク:はいSQL

Apache パルサー

構造化ストリーミング with Pulsar ソース

チェックマーク:はいPython

チェックマーク:はいScala

LakeFlow Declarative パイプライン with Pulsar ソース

チェックマーク:はいPython

チェックマーク:はいSQL

Databricks SQL と Pulsar ソース

チェックマーク:はいSQL

インジェスト スケジュール

インジェスト パイプラインは、定期的なスケジュールで実行するか、継続的に実行するように構成できます。

ユースケース

パイプラインモード

バッチ取り込み

トリガー: スケジュールに従って、または手動でトリガーされたときに新しいデータを処理します。

ストリーミング インジェスト

連続: ソースに到着した新しいデータを処理します。