LakeFlow Connectとは?
LakeFlow Connect は、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、ローカルファイル、メッセージバスなどからデータを取り込むためのシンプルで効率的なコネクタを提供します。 このページでは、 LakeFlow Connect で ETL パフォーマンスを向上させる方法をいくつか紹介します。 また、一般的なユース ケースと、フルマネージド コネクタから完全にカスタマイズ可能なフレームワークまで、サポートされているインジェスト ツールの範囲についても説明します。
柔軟なサービスモデル
LakeFlow Connect は、エンタープライズ アプリケーション、クラウド ストレージ、データベース、メッセージ バスなどに対応する幅広いコネクタを提供しています。 また、フルマネージドサービスとカスタムパイプラインのどちらかを柔軟に選択することもできます。マネージドサービスは、シンプルなUIと強力な APIでデータアクセスを民主化する、すぐに使えるコネクタを備えています。 これにより、長期的なメンテナンスコストを最小限に抑えながら、堅牢なインジェストパイプラインを迅速に作成できます。さらにカスタマイズが必要な場合は、DLTまたは構造化ストリーミングを使用できます。最終的に、この汎用性により、 LakeFlow Connect は組織の特定のニーズを満たすことができます。
Databricks のコアツールによる統合
LakeFlow Connect は、 Databricks のコア機能を使用して、包括的なデータマネジメントを提供します。 たとえば、 Unity Catalogを使用したガバナンス、 LakeFlow ジョブを使用したオーケストレーション、パイプライン全体にわたる全体的なモニタリングを提供します。 これにより、組織はデータのセキュリティ、品質、コストを管理しながら、インジェストプロセスを他のデータエンジニアリングツールと統合できます。LakeFlow Connect はオープンなデータインテリジェンスプラットフォーム上に構築されており、お好みのサードパーティツールを完全に組み込むための完全な柔軟性を備えています。 これにより、既存のインフラストラクチャと将来のデータ戦略に合わせたカスタマイズされたソリューションが保証されます。
高速でスケーラブルな取り込み
LakeFlow Connect は、増分読み取りと増分書き込みを使用して、効率的なインジェストを可能にします。 下流の増分変換と組み合わせると、ETLのパフォーマンスを大幅に向上させることができます。
一般的な使用例
お客様は、データをインジェストして、組織の最も困難な問題を解決します。 使用例には、次のようなものがあります。
ユースケース | 説明 |
---|---|
キャンペーンのパフォーマンスと顧客リードのスコアリングの測定 | |
履歴モデルと予測モデルによるROIの最大化 | |
顧客の購入体験をパーソナライズする | |
一元化されたヒューマンリソース | 組織の従業員をサポート |
製造効率の向上 | |
ユーザーがポリシーや製品などを理解するのに役立つチャットボットの構築 |
ETLスタックのレイヤー
次の表では、インジェスト製品の 3 つのレイヤーを、最もカスタマイズ可能なものから最も管理しやすいものの順に説明しています。
層 | 説明 |
---|---|
構造化ストリーミングは、ほぼリアルタイムで増分ストリーム処理を行うためのAPIです。強力なパフォーマンス、スケーラビリティ、およびフォールトトレランスを提供します。 | |
DLT は構造化ストリーミングに基づいて構築されており、データパイプラインを作成するためのより宣言的なフレームワークを提供します。 データに対して実行する変換を定義でき、オーケストレーション、モニタリング、データ品質、エラーなどを DLT で管理します。 したがって、構造化ストリーミングよりも多くの自動化とより少ないオーバーヘッドを提供します。 | |
フルマネージド コネクタは DLT上に構築されており、最も人気のあるデータソースにさらに多くの自動化を提供します。 DLTの機能が拡張され、ソース固有の認証、CDC、エッジケース処理、長期APIメンテナンス、自動再試行、自動スキーマ進化なども含まれます。したがって、サポートされているデータソースに対してさらに自動化を提供します。 |
一部のコネクタは、このETLスタックの1つのレベルで動作します。たとえば、Databricks は、エンタープライズ (SaaS) アプリケーション (Salesforce など) とデータベース (SQL Server など) 用のフルマネージド コネクタを提供します。他のコネクタは、このETLスタックの複数のレイヤーで動作します。たとえば、Auto Loader と構造化ストリーミングを使用して完全なカスタマイズを行ったり、DLTを使用してより管理されたエクスペリエンスを実現したりできます。これは、Apache Kafka、Amazon Kinesis、Google Pub/Sub、Apache Pulsar からのデータのストリーミングにも当てはまります。
Databricks では、最も管理されたレイヤーから始めることをお勧めします。要件を満たさない場合 (たとえば、データソースをサポートしていない場合) は、次のレイヤーにドロップダウンします。 Databricks は、3 つのレイヤーすべてでより多くのコネクタのサポートを拡大する予定です。
ファイルのアップロードとダウンロード
ローカルネットワーク上に存在するファイル、ボリュームにアップロードされたファイル、またはインターネットの場所からダウンロードされたファイルを取り込むことができます。「ファイル」を参照してください。
フルマネージド コネクタ
フルマネージド コネクタを使用して、SaaS アプリケーションやデータベースから取り込むことができます。使用可能なコネクタは次のとおりです。
カスタマイズ可能なコネクタ
フルマネージドコネクタに加えて、Databricks にはデータを取り込む方法が多数用意されています。これには、クラウドオブジェクトストレージやKafkaなどのストリーミングソース用のカスタマイズ可能なコネクタが含まれます。LakeFlow Connectの標準コネクタを参照してください。