Lakeflowコネクトのマネージドコネクタ

注記

Lakeflowコネクトのマネージドコネクタは、さまざまなリリース状態にあります。

このページでは、 SaaSアプリケーションおよびデータベースからデータを取り込むためのDatabricks LakeFlow Connectのマネージドコネクタの概要を説明します。結果として得られる取り込みパイプラインはUnity Catalogによって管理され、サーバレスコンピュートとLakeFlow Spark宣言型パイプラインによって強化されます。マネージドコネクタは、効率的な増分読み取りと書き込みを活用して、データの取り込みをより高速かつスケーラブルでコスト効率の高いものにすると同時に、データを下流での使用に備えて最新の状態に維持します。

コネクタの種類

- SaaSコネクタ
- Salesforce、HubSpot、Jira、Workdayなど、エンタープライズ向けSaaSアプリケーションからデータを取り込みます。
- データベースコネクタ（CDC）
- チェンジデータキャプチャを使用して、 MySQL 、 PostgreSQL 、 SQL Serverなどのリレーショナルデータベースからデータを取り込みます。

アーキテクチャ

コネクタの種類ごとに、それぞれ異なる構成部品があります。SaaSコネクタは、接続、取り込みパイプライン、および宛先テーブルを使用します。データベースコネクタには、継続的な変更の捕捉をサポートするための取り込みゲートウェイとステージングストレージも含まれています。詳細については、 LakeFlow ConnectのSaaSコネクタおよびLakeFlow Connectのデータベースコネクタを参照してください。

オーケストレーション

インジェストパイプラインは、1 つ以上のカスタムスケジュールで実行できます。パイプラインに追加するスケジュールごとに、 Lakeflow Connect によってそのジョブが自動的に作成されます。インジェストパイプラインは、ジョブ内のタスクです。オプションで、ジョブにタスクを追加できます。

SaaS コネクタのパイプラインオーケストレーション図

データベースコネクタの場合、取り込みゲートウェイは、連続タスクとして独自のジョブで実行されます。

データベースコネクタのパイプラインオーケストレーション図

増分取り込み

Lakeflow Connect では、増分インジェストを使用してパイプラインの効率を向上させます。パイプラインの最初の実行時に、選択したすべてのデータがソースから取り込まれます。並行して、ソースデータへの変更を追跡します。パイプラインの後続の各実行では、その変更追跡を使用して、可能な場合は前の実行から変更されたデータのみを取り込みます。

正確なアプローチは、データソースで利用可能なものによって異なります。たとえば、変更の追跡とチェンジデータキャプチャ (CDC) の両方を SQL Serverで使用できます。これに対し、Salesforce コネクタは、設定されたオプションのリストからカーソル列を選択します。

一部のソースまたは特定のテーブルでは、現時点では増分取り込みはサポートされていません。Databricks は、増分サポートの対象範囲を拡大する予定です。

ネットワーキング

SaaS アプリケーションまたはデータベースに接続するには、いくつかのオプションがあります。

SaaSアプリケーション用のコネクタは、ソースのAPIに手を差し伸べます。また、サーバレスのエグレスコントロールとも自動的に互換性があります。
クラウドデータベースのコネクタは、Private Link を介してソースに接続できます。あるいは、ワークスペースに、データベースをホストしている VNet または VPC とピアリングされている仮想ネットワーク (VNet) または仮想プライベートクラウド (VPC) がある場合は、その中にゲートウェイをデプロイできます。
オンプレミスデータベース用のコネクタは、AWS Direct Connect や Azure ExpressRoute などのサービスを使用して接続できます。

配備

宣言型自動化バンドルを使用すると、取り込みパイプラインをデプロイできます。これにより、ソース管理、コードレビュー、テスト、継続的インテグレーションおよびデリバリー（CI/CD）などのベストプラクティスが可能になります。バンドルはDatabricks CLIを使用して管理され、開発、ステージング、本番運用などのさまざまなターゲットワークスペースで実行できます。

障害復旧

フルマネージドサービスとして、 Lakeflowコネクトは可能な限り問題から自動的に回復することを目指しています。たとえば、コネクタに障害が発生すると、エクスポネンシャルバックオフで自動的に再試行されます。

ただし、エラーによって介入が必要になる可能性があります (たとえば、資格情報の有効期限が切れた場合など)。このような場合、コネクタはカーソルの最後の位置を格納することで、データの欠落を回避しようとします。その後、可能な場合は、パイプラインの次の実行でその位置から再開できます。

モニタリング

LakeFlow Connectパイプラインの維持に役立つ堅牢なアラートとモニタリングを提供します。これには、イベントログ、クラスターログ、パイプラインヘルスメトリクス、およびデータ品質メトリクスが含まれます。 system.billing.usageテーブルを使用してコストを追跡し、パイプラインの使用状況を監視することもできます。「マネージドインジェスチョンパイプラインのコストを監視する」を参照してください。

データベースコネクタの場合、イベントログを使用してゲートウェイの進行状況をリアルタイムで監視できます。「イベントログを使用してインジェストゲートウェイの進行状況を監視する」を参照してください。

外部サービスへの依存

DatabricksのSaaS、データベース、およびその他のフルマネージドコネクタは、接続先のアプリケーション、データベース、または外部サービスのアクセシビリティ、互換性、安定性に依存します。Databricks はこれらの外部サービスを制御していないため、変更、更新、およびメンテナンスに対する影響力は (あったとしても) 制限されています。

外部サービスに関連する変更、中断、または状況により、コネクタの運用が妨げられたり、非現実的になったりした場合、Databricks はそのコネクタの保守を中止または中止することができます。Databricksは、該当するドキュメントの更新を含む、メンテナンスの中止または中止を顧客に通知するために合理的な努力を払います。

コネクタの種類​

アーキテクチャ​

オーケストレーション​

増分取り込み​

ネットワーキング​

配備​

障害復旧​

モニタリング​

外部サービスへの依存​