マネージド コネクタに関する FAQ
この記事では、 Databricks LakeFlow Connectのマネージド コネクタに関してよく寄せられる質問に回答します。
managed connectors、レイクハウスフェデレーション、 Delta Sharingの違いは何ですか?
レイクハウスフェデレーションを使用すると、データを移動せずに外部データソースをクエリできます。 Delta Sharing を使用すると、プラットフォーム、クラウド、リージョン間でライブ データを安全に共有できます。Databricks では、大量のデータ、低遅延のクエリ、サードパーティの API 制限に対応するようにスケーリングするため、マネージド コネクタを使用したインジェストをお勧めします。ただし、データを移動せずにクエリを実行することもできます。
managed connectors、 Lakehouseフェデレーション、 Delta Sharingのいずれかを選択する場合は、次のシナリオで Delta Sharing を選択します。
- データの重複を制限する。
- 可能な限り最新のデータをクエリします。
次のシナリオでは、 レイクハウスフェデレーション を選択します。
- ETL パイプラインでのアドホック レポート作成または概念実証作業。
マネージド コネクタと Auto Loaderの違いは何ですか?
マネージド コネクタを使用すると、Salesforce などの SaaS アプリケーションや SQL Server などのデータベースからデータを段階的に取り込むことができます。Auto Loader は、S3、ADLS、GCS に到着したファイルを段階的に取り込むことができるクラウド オブジェクト ストレージ コネクタです。構造化ストリーミングと DLT と互換性がありますが、フルマネージドのインジェスト パイプラインは提供されません。
マネージド コネクタは、サードパーティのアプリやデータベースに書き戻すことができますか?
いいえ。この機能に関心がある場合は、アカウント チームにお問い合わせください。
SCDタイプ1とタイプ2の違いは何ですか?
緩やかに変化するディメンション(SCD)設定は、時間の経過に伴うデータの変化をどのように処理するかを決定します。 SCD タイプ 1 (履歴追跡オフ) を有効にすると、ソースで更新および削除される古いレコードが上書きされます。SCD タイプ 2 (履歴追跡オン) を有効にして、これらの変更の履歴を維持します。テーブルまたはカラムを削除しても、SCD タイプ 1 が選択されている場合でも、そのデータはコピー先から削除されないことに注意してください。
すべてのコネクタが履歴追跡 (SCD タイプ 2) をサポートしているわけではありません。
マネージド コネクタのコストはいくらですか?
マネージド コネクタには、コンピュートベースの価格モデルがあります。
SaaS ソース(Salesforce や Workday など)は、サーバレス インフラストラクチャ上でのみ実行されるため、サーバレス DLT DBU の料金が発生します。
SQL Serverのようなデータベース ソースの場合、インジェスト ゲートウェイはソースに応じてクラシック モードまたはサーバレス モードで実行でき、インジェスト パイプラインはサーバレスで実行できます。その結果、クラシックとサーバレスの両方の DLT DBU 料金を受け取ることができます。
料金の詳細については、 DLTの価格ページを参照してください。
セールスフォース
Salesforce インジェスト コネクタは Salesforce Data Cloud をサポートしていますか?
Salesforce インジェスト コネクタは、Salesforce Sales Cloud をサポートしています。Salesforce データには対応していません クラウドですが、レイクハウスフェデレーションを使用すると、データを移動せずにSalesforce Data Cloudでクエリを実行できます。 「 Salesforce Data Cloud での統合クエリの実行」を参照してください。
サービスナウ
コネクタは ServiceNow からデータをどのようにプルしますか?
connector-name コネクタは、 ServiceNow Table API v2 を使用します。
Table API を使用すると、ServiceNow インスタンスに影響を与える可能性がありますか?
はい。ただし、影響は取り込まれるデータの量によって異なります。たとえば、通常、増分読み取り中よりも初期スナップショットでより顕著になります。
ServiceNow の取り込みパフォーマンスが遅いのはなぜですか?
Databricks では、ServiceNow 管理者と協力して、カーソル フィールドで ServiceNow 側のインデックス作成を有効にすることをお勧めします。カーソル列は、 sys_updated_on
(最初の選択肢)、 sys_created_on
(2 番目の選択肢)、 sys_archived
(3 番目の選択肢) のリストから、可用性と好みの順に選択されます。これは、ServiceNow APIsを使用して取り込む際のパフォーマンスを向上させるための標準的なアプローチです。 インデックスを設定すると、Databricks は、大規模な更新のボトルネックとなる可能性のある sys_updated_on
列全体を完全にスキャンすることを回避できます。手順については、ServiceNow ドキュメントの「 テーブル インデックスの作成 」を参照してください。問題が解決しない場合は、 サポート チケットを作成します。
Microsoft SQL Server
Databricks は SQL Server にどのように接続しますか?
Databricks は、トランスポート層セキュリティ (TLS) を使用して SQL Server に接続します。資格情報は Unity Catalog 内に安全に格納され、インジェスト フローを実行しているユーザーが適切なアクセス許可を持っている場合にのみ取得できます。データを取り込むために SQL Server に別のユーザーを作成し、使用したくないデータベースまたはテーブルがある場合は、組み込みの SQL Server アクセス許可を使用して、取り込みユーザーがそれらのエンティティにアクセスできないようにすることができます。
これは一方向の接続ですか?
はい。リバースETLはサポートされていません。
パイプラインが失敗した場合、インジェストはデータ損失なしに再開されますか?
はい。Databricks は、ソースから抽出した内容と、宛先に適用した内容を追跡します。何か問題が発生した場合、Databricks はその時点で再開できます。