Lakeflowコネクトの標準コネクタ
このページでは、 Databricks LakeFlow Connectの標準コネクタについて説明し、マネージド コネクタと比較してより高いレベルのインジェスト パイプラインのカスタマイズを提供します。
ETLスタックのレイヤー
一部のコネクタは、ETL スタックの 1 つのレベルで動作します。たとえば、Databricks は、Salesforce などのエンタープライズ アプリケーションや SQL Server などのデータベース用のフルマネージド コネクタを提供しています。その他のコネクタは、ETLスタックの複数のレイヤーで動作します。たとえば、構造化ストリーミングで標準コネクタを使用して完全なカスタマイズを行ったり、宣言型パイプラインで LakeFlow より管理されたエクスペリエンスを使用したりできます。
Databricks では、最も管理されたレイヤーから始めることをお勧めします。要件を満たさない場合 (たとえば、データソースをサポートしていない場合) は、次のレイヤーにドロップダウンします。
次の表では、インジェスト製品の 3 つのレイヤーを、最もカスタマイズ可能なものから最も管理しやすいものの順に説明しています。
層 | 説明 |
---|---|
Apache Spark 構造化ストリーミングは、 Spark APIsを使用した exactly-once 処理保証を備えたエンドツーエンドのフォールト トレランスを提供するストリーミング エンジンです。 | |
Lakeflow 宣言型パイプラインは、構造化ストリーミングに基づいて構築されており、データパイプラインを作成するためのより宣言的なフレームワークを提供します。 データに対して実行する変換を定義でき、 Lakeflow 宣言型パイプラインはオーケストレーション、モニタリング、データ品質、エラーなどを管理します。 したがって、構造化ストリーミングよりも多くの自動化とより少ないオーバーヘッドを提供します。 | |
フルマネージド コネクタ Lakeflow 宣言型パイプラインに基づいて構築されており、最も一般的なデータソースにさらに自動化を提供します。 宣言型パイプラインの機能を拡張し Lakeflow ソース固有の認証、 CDC、エッジケース処理、長期 API メンテナンス、自動再試行、自動スキーマ進化なども含まれます。 したがって、サポートされているデータソースに対してさらに自動化を提供します。 |
コネクタを選択する
次の表に、データソースとパイプラインのカスタマイズのレベル別の標準インジェスト コネクタを示します。 完全に自動化されたインジェスト エクスペリエンスを実現するには、代わりに マネージド コネクタ を使用します。
クラウドオブジェクトストレージからの増分取り込みの SQL 例では CREATE STREAMING TABLE
構文を使用します。SQL ユーザーにスケーラブルで堅牢なインジェスト エクスペリエンスを提供するため、 COPY INTO
の代替手段として推奨されます。
ソース | その他のカスタマイズ | いくつかのカスタマイズ | さらなる自動化 |
---|---|---|---|
クラウドオブジェクトストレージ |
| Auto LoaderLakeFlow宣言型パイプラインを使用した
|
|
Apache Kafka |
| LakeFlow Declarative パイプライン with Kafka ソース
|
|
Amazon Kinesis |
| LakeFlow Declarative パイプライン with Kinesis ソース
|
|
Google Pub/Sub |
| LakeFlow Declarative パイプライン with Pub/Sub ソース
|
|
Apache パルサー |
| LakeFlow Declarative パイプライン with Pulsar ソース
|
|
インジェスト スケジュール
インジェスト パイプラインは、定期的なスケジュールで実行するか、継続的に実行するように構成できます。
ユースケース | パイプラインモード |
---|---|
バッチ取り込み | トリガー: スケジュールに従って、または手動でトリガーされたときに新しいデータを処理します。 |
ストリーミング インジェスト | 連続: ソースに到着した新しいデータを処理します。 |