メインコンテンツまでスキップ

Lakeflowコネクトの標準コネクタ

このページでは、 Databricks Lakeflow Connectの標準コネクタについて説明し、マネージド コネクタと比較してより高いレベルのインジェスト パイプラインのカスタマイズを提供します。

ETLスタックのレイヤー

一部のコネクタは ETL スタックの 1 つのレベルで動作します。たとえば、 Databricks 、Salesforce などのエンタープライズ アプリケーションやSQL Serverなどのデータベース用のフルマネージド コネクタを提供します。 その他のコネクタは、ETL スタックの複数のレイヤーで動作します。たとえば、構造化ストリーミングで標準コネクタを使用して完全なカスタマイズを行うことも、 Lakeflow Spark宣言型パイプラインでより管理されたエクスペリエンスを使用することもできます。

ETLスタック図

Databricks では、最も管理されたレイヤーから始めることをお勧めします。要件を満たさない場合 (たとえば、データソースをサポートしていない場合) は、次のレイヤーにドロップダウンします。

次の表では、インジェスト製品の 3 つのレイヤーを、最もカスタマイズ可能なものから最も管理しやすいものの順に説明しています。

説明

構造化ストリーミング

Apache Spark 構造化ストリーミングは、 Spark APIsを使用した exactly-once 処理保証を備えたエンドツーエンドのフォールト トレランスを提供するストリーミング エンジンです。

Lakeflow Spark宣言型パイプライン

Lakeflow Spark宣言型パイプラインは構造化ストリーミングに基づいて構築されており、データパイプラインを作成するための宣言型フレームワークを提供します。 データに対して実行する変換を定義でき、 Lakeflow Spark宣言型パイプラインがオーケストレーション、モニタリング、データ品質、エラーなどを管理します。 したがって、構造化ストリーミングよりも自動化が進み、オーバーヘッドが少なくなります。

マネージド コネクタ

フルマネージド コネクタはLakeflow Spark宣言型パイプライン上に構築されており、最も人気のあるデータ ソースのさらなる自動化を提供します。 これらは、 Lakeflow Spark宣言型パイプライン機能を拡張し、ソース固有の認証、 CDC 、エッジケース処理、長期APIメンテナンス、自動再試行、自動スキーマ進化なども組み込みます。 したがって、サポートされているデータ ソースに対してさらに高度な自動化が提供されます。

コネクタを選択する

次の表に、データソースとパイプラインのカスタマイズのレベル別の標準インジェスト コネクタを示します。 完全に自動化されたインジェスト エクスペリエンスを実現するには、代わりに マネージド コネクタ を使用します。

クラウドオブジェクトストレージからの増分取り込みの SQL 例では CREATE STREAMING TABLE 構文を使用します。SQL ユーザーにスケーラブルで堅牢なインジェスト エクスペリエンスを提供するため、 COPY INTOの代替手段として推奨されます。

インジェスト スケジュール

インジェスト パイプラインは、定期的なスケジュールで実行するか、継続的に実行するように構成できます。

ユースケース

パイプラインモード

バッチ取り込み

トリガー: スケジュールに従って、または手動でトリガーされたときに新しいデータを処理します。

ストリーミング インジェスト

連続: ソースに到着した新しいデータを処理します。