メインコンテンツまでスキップ

Lakeflowコネクト のマネージド コネクタ

注記

Lakeflowコネクト のマネージド コネクタは、さまざまなリリース状態にあります。

このページでは、 SaaSアプリケーションおよびデータベースからデータを取り込むためのDatabricks LakeFlow Connectのマネージド コネクタの概要を説明します。 結果として得られる取り込みパイプラインはUnity Catalogによって管理され、サーバレス コンピュートとLakeFlow Spark宣言型パイプラインによって強化されます。 マネージド コネクタは、効率的な増分読み取りと書き込みを活用して、データの取り込みをより高速かつスケーラブルでコスト効率の高いものにすると同時に、データを下流での使用に備えて最新の状態に維持します。

コネクタの種類

    • データベースコネクタ(CDC)
    • チェンジデータ キャプチャを使用して、 MySQL 、 PostgreSQL 、 SQL Serverなどのリレーショナル データベースからデータを取り込みます。
    • ファイルソースコネクタ
    • Google DriveやSharePointなどのエンタープライズファイルストレージサービスから、非構造化および構造化ファイルをインジェストします。
    • クエリーベースのコネクタ
    • チェンジデータキャプチャ (CDC) の設定を必要とせずに、ソースを直接クエリすることでデータベースからデータを取り込みます。
    • SaaSコネクタ
    • Salesforce、HubSpot、Jira、Workdayなど、エンタープライズ向けSaaSアプリケーションからデータを取り込みます。
    • ストリーミングコネクタ
    • RabbitMQ を含むメッセージバスやイベントストリーミングソースから継続的にデータを取り込みます。

アーキテクチャ

各コネクタタイプには、独自のコンポーネントセットがあります。SaaSコネクタは接続、取り込みパイプライン、および宛先テーブルを使用します。データベースコネクタには、継続的な変更キャプチャをサポートする取り込みゲートウェイとステージングストレージも含まれています。詳細については、Managed SaaS connectorsおよびマネージドデータベースコネクタを参照してください。

クエリベースのコネクタコンポーネント

クエリベースのコネクタは、ゲートウェイやステージングストレージを介さずに、スケジュールに基づいてソースデータベースに直接クエリを実行します。クエリベースのコネクタの仕組みの概要については、 「クエリベースのコネクタ」を参照してください。

コンポーネント

説明

接続

認証データベースの認証情報を格納する、 Unity Catalogセキュリティ保護可能なオブジェクト。 Unity Catalogの直接接続 (外部接続の取り込みの場合) またはUnity Catalogフォーリンカタログ (レイクハウスフェデレーションを使用したフォーリンカタログの取り込みの場合)。

取り込みパイプライン

ソースデータベースに直接クエリを実行し、その結果をストリーミングテーブルに書き込むパイプライン。サーバーレスコンピュートでパイプラインを実行 by 当然。

宛先テーブル

取り込みパイプラインがデータを書き込むストリーミングテーブル

ストリーミングコネクタコンポーネント

ストリーミングコネクタは、メッセージバスまたはイベントストリーミングソースからメッセージを継続的に読み取り、ストリーミングテーブルに書き込みます。ストリーミングコネクタの仕組みの概要については、マネージド ストリーミング コネクタを参照してください。

コンポーネント

説明

接続

ストリーミングソースのソースエンドポイントと認証資格情報を格納する、Unity Catalog のセキュリティ保護可能なオブジェクトです。マネージド コネクタは、パイプライン構成で資格情報を必要とせずに、この接続を使用して認証を行います。

取り込みパイプライン

ストリーミングソースからメッセージを継続的に読み取り、結果をストリーミングテーブルに書き込むパイプライン。パイプラインはサーバレスコンピュートで実行されます。

宛先テーブル

取り込みパイプラインがデータを書き込むストリーミングテーブル

オーケストレーション

インジェスト パイプラインは、1 つ以上のカスタム スケジュールで実行できます。パイプラインに追加するスケジュールごとに、 Lakeflow Connect によってその ジョブ が自動的に作成されます。 インジェスト パイプラインは、ジョブ内のタスクです。オプションで、ジョブにタスクを追加できます。

SaaS コネクタのパイプライン オーケストレーション図

データベース コネクタの場合、取り込み ゲートウェイは、連続タスクとして独自のジョブで実行されます。

データベース コネクタのパイプライン オーケストレーション図

増分取り込み

Lakeflow Connect では、増分インジェストを使用してパイプラインの効率を向上させます。 パイプラインの最初の実行時に、選択したすべてのデータがソースから取り込まれます。並行して、ソース データへの変更を追跡します。パイプラインの後続の各実行では、その変更追跡を使用して、可能な場合は前の実行から変更されたデータのみを取り込みます。

正確なアプローチは、データソースで利用可能なものによって異なります。 たとえば、変更の追跡とチェンジデータキャプチャ (CDC) の両方を SQL Serverで使用できます。 これに対し、Salesforce コネクタは、設定されたオプションのリストからカーソル列を選択します。

一部のソースまたは特定のテーブルでは、現時点では増分取り込みはサポートされていません。Databricks は、増分サポートの対象範囲を拡大する予定です。

ネットワーキング

SaaS アプリケーションまたはデータベースに接続するには、いくつかのオプションがあります。

  • SaaSアプリケーション用のコネクタは、ソースのAPIに手を差し伸べます。また、サーバレスのエグレスコントロールとも自動的に互換性があります。
  • クラウド データベースのコネクタは、Private Link を介してソースに接続できます。あるいは、ワークスペースに、データベースをホストしている VNet または VPC とピアリングされている仮想ネットワーク (VNet) または仮想プライベート クラウド (VPC) がある場合は、その中にゲートウェイをデプロイできます。
  • オンプレミス データベース用のコネクタは、AWS Direct Connect や Azure ExpressRoute などのサービスを使用して接続できます。

配備

宣言型自動化バンドルを使用すると、取り込みパイプラインをデプロイできます。これにより、ソース管理、コードレビュー、テスト、継続的インテグレーションおよびデリバリー(CI/CD)などのベストプラクティスが可能になります。バンドルはDatabricks CLIを使用して管理され、開発、ステージング、本番運用などのさまざまなターゲット ワークスペースで実行できます。

障害復旧

フルマネージドサービスとして、 Lakeflowコネクト は可能な限り問題から自動的に回復することを目指しています。 たとえば、コネクタに障害が発生すると、エクスポネンシャル バックオフで自動的に再試行されます。

ただし、エラーによって介入が必要になる可能性があります (たとえば、資格情報の有効期限が切れた場合など)。このような場合、コネクタはカーソルの最後の位置を格納することで、データの欠落を回避しようとします。その後、可能な場合は、パイプラインの次の実行でその位置から再開できます。

モニタリング

LakeFlow Connectパイプラインの維持に役立つ堅牢なアラートとモニタリングを提供します。 これには、イベント ログ、クラスター ログ、パイプライン ヘルス メトリクス、およびデータ品質メトリクスが含まれます。 system.billing.usageテーブルを使用してコストを追跡し、パイプラインの使用状況を監視することもできます。「マネージド インジェスチョン パイプラインのコストを監視する」を参照してください。

データベース コネクタの場合、イベント ログを使用してゲートウェイの進行状況をリアルタイムで監視できます。「イベント ログを使用してインジェスト ゲートウェイの進行状況を監視する」を参照してください。

コミュニティコネクター

コミュニティ コネクタは、マネージド コネクタのサポートなしでLakeFlow Connect to ソースを拡張します。 これらはコミュニティによって構築および維持されます。 既存のコネクタを使用することも、独自のコネクタを作成することもできます。LakeFlow Connectのコミュニティ コネクタを参照してください。

外部サービスへの依存

DatabricksのSaaS、データベース、およびその他のフルマネージド コネクタは、接続先のアプリケーション、データベース、または外部サービスのアクセシビリティ、互換性、安定性に依存します。Databricks はこれらの外部サービスを制御していないため、変更、更新、およびメンテナンスに対する影響力は (あったとしても) 制限されています。

外部サービスに関連する変更、中断、または状況により、コネクタの運用が妨げられたり、非現実的になったりした場合、Databricks はそのコネクタの保守を中止または中止することができます。Databricksは、該当するドキュメントの更新を含む、メンテナンスの中止または中止を顧客に通知するために合理的な努力を払います。