PostgreSQLコネクタに関するよくある質問

備考

プレビュー

LakeFlow ConnectのPostgreSQLコネクタはパブリックプレビュー段階です。パブリックプレビューに登録するには、Databricks アカウントチームにお問い合わせください。

このページでは、 Databricks LakeFlow ConnectのPostgreSQLコネクタに関するよくある質問に回答します。

一般的なマネージドコネクタに関する FAQ

マネージドコネクタの FAQ の回答は、Lakeflowコネクトのすべてのマネージドコネクタに適用されます。コネクタ固有の FAQ については、引き続きお読みください。

Databricks はどのように PostgreSQL に接続しますか?

Databricksは、トランスポート層セキュリティ（TLS）とJDBC接続を使用してPostgreSQLに接続します。新しく作成されたパイプラインは、サーバーのTLS証明書を検証して、サーバーの身元を確認します。詳細および設定オプションについては、「TLSサーバー証明書の検証」を参照してください。認証情報はUnity Catalogに安全に保存され、取り込みフローを実行するユーザーが適切な権限を持っている場合にのみ取得できます。 Databricksは、データを取り込むためにPostgreSQLに別のレプリケーションユーザーを作成することを推奨しています。このユーザーに公開したくないデータベースやテーブルがある場合は、 PostgreSQLアクセス許可を使用できます。

パイプラインが失敗した場合、データの損失なしに取り込みが再開されますか?

はい。Databricks は、コネクタがソースから抽出し、宛先に適用した内容を追跡します。何か問題が発生した場合、レプリケーションスロットおよび先行書き込みログ (WAL) データがソースデータベースに残っている限り、Databricks はその時点から再開できます。これは、WAL 保持期間またはレプリケーションスロットの制限に達する前にパイプラインが実行されず、ターゲットテーブルを完全に更新する必要がある場合に影響を受ける可能性があります。

コネクタはどの PostgreSQL バリエーションをサポートしていますか?

このコネクタは、 AWS RDS PostgreSQL 、Aurora PostgreSQL 、 Amazon EC2 、 Azure Database for PostgreSQL 、 Azure仮想マシン、およびGCPクラウドSQL for PostgreSQLをサポートしています。これには、仮想マシン上で動作するPostgreSQLも含まれます。コネクタは、十分な帯域幅が利用可能な場合、Azure ExpressRoute、AWS Direct Connect、およびVPNを使用したオンプレミスのPostgreSQLもサポートします。クロスクラウド接続の詳細については、「ネットワーク接続」を参照してください。

コネクタはどのようにしてデータを段階的に取得するのでしょうか?

コネクタは、 pgoutputプラグインを使用した PostgreSQL 論理レプリケーションを使用します。論理レプリケーションは、ソースデータベースのパフォーマンスに大きな影響を与えることなく、先行書き込みログを通じてすべてのデータ変更操作 (挿入、更新、削除) をキャプチャします。

コネクタは日付と時刻の列のタイムゾーンをキャプチャしますか?

コネクタは、 TIMESTAMP WITH TIME ZONE列のタイムゾーン情報を保持します。TIMESTAMP WITHOUT TIME ZONE列とTIME列は、タイムゾーン変換なしで元の形式の文字列として取り込まれます。

インジェストゲートウェイのスケジュールをカスタマイズできますか?

いいえ、インジェストゲートウェイは継続モードで実行する必要があります。これは、PostgreSQL にとって、Write-Ahead Log (WAL) の肥大化を防ぎ、レプリケーションスロットに未使用の変更が蓄積されないようにするために重要です。ゲートウェイが長期間停止すると、レプリケーションスロットにより WAL ファイルがソースデータベースに蓄積され、ディスク領域がいっぱいになる可能性があります。

コネクタは主キーのないテーブルをどのように処理しますか?

レプリカ ID がFULLに設定されている場合、コネクタは主キーなしでテーブルを複製できます。この場合、コネクタは大きなオブジェクトを除くすべての列をバンドルされた主キーとして扱います。ソーステーブルに重複行がある場合、履歴追跡を有効にしない限り、これらの行は宛先テーブルに 1 つの行として取り込まれます。

取り込みパイプラインをどのくらいの頻度で実行するようにスケジュールできますか?

取り込みパイプラインの実行をスケジュールできる頻度に制限はありません。ただし、サーバレスコンピュートの起動には時間がかかるため、 Databricks間隔を 5 分以上空けることをお勧めします。 Databricks は、連続モードでの取り込みパイプラインの実行をサポートしていません。

最初のパイプライン実行でデータベースのすべての行が表示されないのはなぜですか?

インジェスチョンゲートウェイは、実行を開始するとすぐに履歴データと CDC データを抽出します。すべてのデータが抽出される前に取り込みパイプラインが実行され、ターゲットテーブルにデータの一部しか適用されなくなる可能性があります。すべてのデータを抽出してターゲットテーブルに適用するには、取り込みパイプラインを数回実行する必要がある場合があります。

リードレプリカまたはスタンバイインスタンスから取り込むことはできますか?

いいえ。論理レプリケーションはリードレプリカまたはスタンバイインスタンスではサポートされていないため、サポートはプライマリ PostgreSQL インスタンスに限定されます。

パイプラインを削除すると、レプリケーションスロットはどうなりますか?

インジェストパイプラインを削除しても、レプリケーションスロットはソース PostgreSQL データベースから自動的に削除されません。先行書き込みログ (WAL) の蓄積を防ぐには、レプリケーションスロットを手動で削除する必要があります。レプリケーションスロットをクリーンアップする手順については、「レプリケーションスロットのクリーンアップ」を参照してください。

必要な PostgreSQL バージョンは何ですか?

PostgreSQL 13 以上が必要です。

CDC 取り込みでは wal_level = logical は必須ですか?

はい。論理レプリケーションを有効にするには、 wal_level問題をlogicalに設定する必要があります。

1 つのパイプラインで複数の PostgreSQL データベースからテーブルを複製できますか?

はい。ingestion_definitionのsource_catalogフィールドには複数のソースデータベースを指定できます。ただし、各ソースデータベースには独自のUnity Catalog接続と公開構成が必要です。

1 つのパイプラインでいくつのテーブルを取り込むことができますか?

Databricks では、最適なパフォーマンスを得るために、パイプラインごとに 250 個以下のテーブルを取り込むことを推奨しています。ただし、これらのオブジェクト内でサポートされる行数や列数には厳密な制限はありません。

私のデータ取り込みゲートウェイは起動に時間がかかります。どうすれば直せますか？

Gateways はクラシックコンピュート上で実行され、起動するたびに仮想マシン (VM) をプロビジョニングします。起動に数分以上かかる場合は、以下の点を検討してください。

現在のパイプラインチャンネルに切り替えます。これは最も一般的な解決策です。プレビューチャンネルのビルドは起動時間が長くなります。これは、UI (チャンネルのパイプ ライン の詳細設定)、バンドルリソースファイル、またはパイプライン仕様で変更できます。
取り込み実行の間にゲートウェイを再起動しないでください。ゲートウェイは継続的に実行するように設計されています。停止して再起動すると、再起動のたびにVMが再プロビジョニングされ、ゲートウェイが停止している間にソースが変更ログを切り捨てた場合、変更ログが欠落するリスクがあります。

ゲートウェイが起動状態のまま15分以上経過する場合は、サポートチケットを作成してください。

これはゲートウェイにのみ適用されます。サーバレスコンピュート上で取り込みパイプラインを実行し、素早く起動します。

コネクタはユーザー定義型と拡張機能をサポートしていますか?

コネクタは、配列や JSONB を含むほとんどの PostgreSQL データ型をサポートしています。ユーザー定義型とサードパーティの拡張型は文字列として取り込まれます。サポートされている型マッピングの完全なリストについては、 PostgreSQL コネクタリファレンスを参照してください。

一般的なマネージドコネクタに関する FAQ​

Databricks はどのように PostgreSQL に接続しますか?​

パイプラインが失敗した場合、データの損失なしに取り込みが再開されますか?​

コネクタはどの PostgreSQL バリエーションをサポートしていますか?​

コネクタはどのようにしてデータを段階的に取得するのでしょうか?​

コネクタは日付と時刻の列のタイムゾーンをキャプチャしますか?​

インジェストゲートウェイのスケジュールをカスタマイズできますか?​

コネクタは主キーのないテーブルをどのように処理しますか?​

取り込みパイプラインをどのくらいの頻度で実行するようにスケジュールできますか?​

最初のパイプライン実行でデータベースのすべての行が表示されないのはなぜですか?​

リードレプリカまたはスタンバイインスタンスから取り込むことはできますか?​

パイプラインを削除すると、レプリケーション スロットはどうなりますか?​

必要な PostgreSQL バージョンは何ですか?​

CDC 取り込みでは wal_level = logical は必須ですか?​

1 つのパイプラインで複数の PostgreSQL データベースからテーブルを複製できますか?​

1 つのパイプラインでいくつのテーブルを取り込むことができますか?​

私のデータ取り込みゲートウェイは起動に時間がかかります。どうすれば直せますか？​

コネクタはユーザー定義型と拡張機能をサポートしていますか?​