クエリベースのデータ取り込みパイプラインを作成する

このページではLakeFlow Connectでクエリベースの取り込みパイプラインを作成する方法を示します。

要件

クエリベースの取り込みパイプラインを作成する前に、次の要件を満たす必要があります。

Unity CatalogがDatabricksワークスペースに対して有効になっています。
サーバーレスコンピュート環境では、ソースデータベースへのネットワーク接続が可能です。レイクハウスフェデレーションのネットワーキングとネットワーキングの推奨事項を参照してください。
外部接続によるデータ取り込み の場合：ソースデータベースへの既存の接続があるか、メタストアに対する権限がCREATE CONNECTIONある必要があります。管理対象のデータ取り込みソースへの接続を参照してください。
フォーリンカタログの取り込み :レイクハウスフェデレーションに登録されている既存のフォーリンカタログ、またはフォーリンカタログを作成する権限を持っています。
宛先カタログとスキーマに対して、 CREATEとUSE SCHEMA権限が付与されています。

オプション1：外部接続からの取り込み

ソースデータベースの認証情報を保存している接続がある場合は、この方法を使用してください。サポートされているデータソースには、Oracle、Teradata、SQL Server、MySQL、MariaDB、PostgreSQLが含まれます。

Databricks UI
Declarative Automation Bundles

Databricks UI は、クエリーベースのパイプラインをServerlessコンピュートにデプロイします。代わりにクラシックコンピュートにデプロイするには、 「Declarative Automation Bundles」tab を参照してください。

Databricksワークスペースのサイドバーで、 「データ取り込み」を クリックします。
「データの追加」 ページで、 「Databricksコネクタ」 の下にあるソース（たとえば、 Oracle または SQL Server ）をクリックします。取り込みウィザードが開きます。
インジェストパイプライン ページで、パイプラインの名前を入力します。
「宛先カタログ」 には、取り込んだデータを保存するUnity Catalogを選択してください。
特定のデータベースにアクセスするために必要な認証情報が保存されているUnity Catalog接続を選択してください。

既存の接続がない場合は、 「接続を作成」 をクリックして接続の詳細を入力してください。メタストアに対してCREATE CONNECTION権限が必要です。
パイプラインの作成および続行 をクリックします。
ソース ページで、取り込むスキーマとテーブルを選択します。
各テーブルについて、 カーソル列 を指定します。これは、値が単調増加する単一の列である必要があります（たとえば、 updated_atまたはrow_id ）。単調増加するカーソル列を選択しない場合、コネクタは実行ごとにフルロードを実行します。
必要に応じて、デフォルトの履歴追跡設定を変更できます。詳細については、「履歴追跡を有効にする（ SCDタイプ2）」を参照してください。
次へをクリックします。
宛先ページで、書き込む Unity Catalog カタログとスキーマを選択します。

既存のスキーマを使用しない場合は、 「スキーマの作成」 をクリックしてください。親カタログに対してUSE CATALOGとCREATE SCHEMA権限が必要です。
保存して続行 をクリックします。
（オプション）設定ページで、 [スケジュールの作成]を クリックし、更新頻度を設定します。
(オプション) パイプラインの成功または失敗に関する電子メール通知を設定します。
パイプラインの保存と実行 をクリックします。

直接デプロイエンジンで Declarative Automation Bundles を使用して、クエリーベースの取り込みパイプラインをデプロイします。バンドルにはパイプラインとジョブの YAML 定義が含まれており、Databricks CLI で管理され、複数のターゲットワークスペースにデプロイできます。直接デプロイエンジンは、Terraform を使用せずにバンドルをデプロイし、serverless および photon などのコンピュート設定に従います。詳細については、Declarative Automation Bundles とは何ですか? および直接デプロイエンジンへの移行を参照してください。

この例では、パイプラインをサーバレスコンピュート（デフォルト）にデプロイします。代わりにクラシックコンピュートにデプロイするには、クラシックコンピュートの例をご覧ください。

バンドルを作成する:
Bash
```
databricks bundle init
```
直接デプロイメントエンジンを有効にします。Databricks CLI バージョン1.3.0以降で作成された新しいバンドルは、defaultで直接デプロイメントエンジンを使用します。バンドルが以前のバージョンで作成された場合は、databricks.ymlでトップレベルのbundle.engineフィールドを設定します（ターゲットごとの設定ではありません）：
YAML
```
bundle:
  engine: direct
```
バンドルが以前にTerraformデプロイメントエンジンでデプロイされていた場合は、デプロイする前に各ターゲットのデプロイ状態を移行します。そうでない場合は、デプロイはサイレントにTerraformエンジンにフォールバックします。各ターゲットでdatabricks bundle deployment migrate -t <target>をランします。詳細については、「既存のバンドルを移行する」を参照してください。

パイプライン定義ファイルをバンドルに追加します（例： resources/query_based_pipeline.yml ）：

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

resources:
  pipelines:
    pipeline_query_based:
      name: query-based-ingestion-pipeline
      ingestion_definition:
        connection_name: <your-uc-connection-name>
        objects:
          - table:
              source_catalog: <source-catalog>
              source_schema: <source-schema>
              source_table: <source-table>
              table_configuration:
                query_based_connector_config:
                  cursor_columns:
                    - updated_at
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
      target: ${var.dest_schema}
      catalog: ${var.dest_catalog}

取り込みスケジュールを制御するジョブ定義ファイルを追加します（例： resources/query_based_job.yml ）。

YAML
resources:
  jobs:
    query_based_job:
      name: query_based_job

      trigger:
        periodic:
          interval: 1
          unit: HOURS

      email_notifications:
        on_failure:
          - <email-address>

      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: ${resources.pipelines.pipeline_query_based.id}

バンドルをデプロイします。
Bash
```
databricks bundle deploy
```

Classic コンピュート（Beta）の例

備考

Beta

Classic compute for query-based ingestion pipelines is in Beta. Databricks recommends serverless compute for most workloads.

クラシックコンピュートにデプロイするには、serverless: falseを設定し、パイプライン定義にclustersブロックを追加します。直接デプロイメントエンジンは、serverlessフィールドとphotonなどの他のコンピュート設定を考慮します。デプロイ後、serverless: falseはパイプライン仕様に表示されなくなりますが、clustersブロックは保持され、パイプラインはクラシックコンピュートで実行されます。サポートされているクラスターフィールドの全範囲については、「パイプライン用のクラシックコンピュートの構成」を参照してください。

バンドルを作成する:
Bash
```
databricks bundle init
```
直接デプロイメントエンジンを有効にします。Databricks CLI バージョン1.3.0以降で作成された新しいバンドルは、defaultで直接デプロイメントエンジンを使用します。バンドルが以前のバージョンで作成された場合は、databricks.ymlでトップレベルのbundle.engineフィールドを設定します（ターゲットごとの設定ではありません）：
YAML
```
bundle:
  engine: direct
```
バンドルが以前にTerraformデプロイメントエンジンでデプロイされていた場合は、デプロイする前に各ターゲットのデプロイ状態を移行します。そうでない場合は、デプロイはサイレントにTerraformエンジンにフォールバックします。各ターゲットでdatabricks bundle deployment migrate -t <target>をランします。詳細については、「既存のバンドルを移行する」を参照してください。

パイプライン定義ファイルをバンドルに追加します（例： resources/query_based_pipeline.yml ）：

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

resources:
  pipelines:
    pipeline_query_based:
      name: query-based-ingestion-pipeline
      serverless: false
      clusters:
        - label: default
          node_type_id: r6i.xlarge
          driver_node_type_id: i3.large
          autoscale:
            min_workers: 1
            max_workers: 5
      ingestion_definition:
        connection_name: <your-uc-connection-name>
        objects:
          - table:
              source_catalog: <source-catalog>
              source_schema: <source-schema>
              source_table: <source-table>
              table_configuration:
                query_based_connector_config:
                  cursor_columns:
                    - updated_at
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
      target: ${var.dest_schema}
      catalog: ${var.dest_catalog}

取り込みスケジュールを制御するジョブ定義ファイルを追加します（例： resources/query_based_job.yml ）。

YAML
resources:
  jobs:
    query_based_job:
      name: query_based_job

      trigger:
        periodic:
          interval: 1
          unit: HOURS

      email_notifications:
        on_failure:
          - <email-address>

      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: ${resources.pipelines.pipeline_query_based.id}

バンドルをデプロイします。
Bash
```
databricks bundle deploy
```

オプション 2: フォーリンカタログの取り込み

レイクハウスフェデレーションに登録されたフォーリンカタログから取り込みたい場合にこのアプローチを使用します。フォーリンカタログの取り込みは、すべてのレイクハウスフェデレーションデータソースと削除トラッキングをサポートします。

Databricks UI
Direct Bundles

Databricks UIは、クエリーベースのパイプラインをServerlessコンピュートにデプロイします。代わりにクラシックコンピュートにデプロイするには、[ Direct Bundles ] tabを参照してください。

Databricksワークスペースのサイドバーで、 「データ取り込み」を クリックします。
「データの追加」 ページで、 「Databricksコネクタ」 の下にあるソースをクリックします。取り込みウィザードが開きます。
インジェストパイプライン ページで、パイプラインの名前を入力します。
「宛先カタログ」 には、取り込んだデータを保存するUnity Catalogを選択してください。
接続タイプ には フォーリンカタログ を選択し、レイクハウスフェデレーションに登録されているフォーリンカタログを選択します。
パイプラインの作成および続行 をクリックします。
ソース ページで、取り込むスキーマとテーブルを選択します。
各テーブルについて、 カーソル列 を指定します。これは、値が単調増加する単一の列である必要があります（たとえば、 updated_atまたはrow_id ）。
必要に応じて、デフォルトの履歴追跡設定を変更できます。詳細については、「履歴追跡を有効にする（ SCDタイプ2）」を参照してください。
次へをクリックします。
宛先ページで、書き込む Unity Catalog カタログとスキーマを選択します。

既存のスキーマを使用しない場合は、 「スキーマの作成」 をクリックしてください。親カタログに対してUSE CATALOGとCREATE SCHEMA権限が必要です。
保存して続行 をクリックします。
（オプション）設定ページで、 [スケジュールの作成]を クリックし、更新頻度を設定します。
(オプション) パイプラインの成功または失敗に関する電子メール通知を設定します。
パイプラインの保存と実行 をクリックします。

ダイレクトデプロイメントエンジンを使用して、宣言型オートメーションバンドルでフォーリンカタログ取り込みパイプラインをデプロイします。バンドルにはパイプラインとジョブのYAML定義が含まれており、Databricks CLIで管理され、複数のターゲットワークスペースにデプロイできます。ダイレクトデプロイメントエンジンは、Terraformなしでバンドルをデプロイし、serverlessやphotonなどのコンピュート設定を尊重します。詳細については、「宣言型オートメーションバンドルとは何ですか？」および「ダイレクトデプロイメントエンジンへの移行」を参照してください。

バンドルを作成する:
Bash
```
databricks bundle init
```
直接デプロイメントエンジンを有効にします。Databricks CLI バージョン1.3.0以降で作成された新しいバンドルは、defaultで直接デプロイメントエンジンを使用します。バンドルが以前のバージョンで作成された場合は、databricks.ymlでトップレベルのbundle.engineフィールドを設定します（ターゲットごとの設定ではありません）：
YAML
```
bundle:
  engine: direct
```
バンドルが以前にTerraformデプロイメントエンジンでデプロイされていた場合は、デプロイする前に各ターゲットのデプロイ状態を移行します。そうでない場合は、デプロイはサイレントにTerraformエンジンにフォールバックします。各ターゲットでdatabricks bundle deployment migrate -t <target>をランします。詳細については、「既存のバンドルを移行する」を参照してください。

パイプライン定義ファイルをバンドルに追加します（例： resources/foreign_catalog_pipeline.yml ）：

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

resources:
  pipelines:
    pipeline_foreign_catalog:
      name: foreign-catalog-ingestion-pipeline
      ingestion_definition:
        ingest_from_uc_foreign_catalog: true
        objects:
          - table:
              source_catalog: <foreign-catalog-name>
              source_schema: <source-schema>
              source_table: <source-table>
              table_configuration:
                primary_keys:
                  - id
                query_based_connector_config:
                  cursor_columns:
                    - updated_at
                  deletion_condition: 'deleted_at IS NOT NULL'
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
      target: ${var.dest_schema}
      catalog: ${var.dest_catalog}

ジョブ定義ファイルを追加します（例： resources/foreign_catalog_job.yml ）：

YAML
resources:
  jobs:
    foreign_catalog_job:
      name: foreign_catalog_job

      trigger:
        periodic:
          interval: 1
          unit: HOURS

      email_notifications:
        on_failure:
          - <email-address>

      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: ${resources.pipelines.pipeline_foreign_catalog.id}

バンドルをデプロイします。
Bash
```
databricks bundle deploy
```

Classic コンピュート（Beta）の例

備考

Beta

Classic compute for query-based ingestion pipelines is in Beta. Databricks recommends serverless compute for most workloads.

バンドルを作成する:
Bash
```
databricks bundle init
```
直接デプロイメントエンジンを有効にします。Databricks CLI バージョン1.3.0以降で作成された新しいバンドルは、defaultで直接デプロイメントエンジンを使用します。バンドルが以前のバージョンで作成された場合は、databricks.ymlでトップレベルのbundle.engineフィールドを設定します（ターゲットごとの設定ではありません）：
YAML
```
bundle:
  engine: direct
```
バンドルが以前にTerraformデプロイメントエンジンでデプロイされていた場合は、デプロイする前に各ターゲットのデプロイ状態を移行します。そうでない場合は、デプロイはサイレントにTerraformエンジンにフォールバックします。各ターゲットでdatabricks bundle deployment migrate -t <target>をランします。詳細については、「既存のバンドルを移行する」を参照してください。

パイプライン定義ファイルをバンドルに追加します（例： resources/foreign_catalog_pipeline.yml ）：

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

resources:
  pipelines:
    pipeline_foreign_catalog:
      name: foreign-catalog-ingestion-pipeline
      serverless: false
      clusters:
        - label: default
          node_type_id: r6i.xlarge
          driver_node_type_id: i3.large
          autoscale:
            min_workers: 1
            max_workers: 5
      ingestion_definition:
        ingest_from_uc_foreign_catalog: true
        objects:
          - table:
              source_catalog: <foreign-catalog-name>
              source_schema: <source-schema>
              source_table: <source-table>
              table_configuration:
                primary_keys:
                  - id
                query_based_connector_config:
                  cursor_columns:
                    - updated_at
                  deletion_condition: 'deleted_at IS NOT NULL'
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
      target: ${var.dest_schema}
      catalog: ${var.dest_catalog}

ジョブ定義ファイルを追加します（例： resources/foreign_catalog_job.yml ）：

YAML
resources:
  jobs:
    foreign_catalog_job:
      name: foreign_catalog_job

      trigger:
        periodic:
          interval: 1
          unit: HOURS

      email_notifications:
        on_failure:
          - <email-address>

      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: ${resources.pipelines.pipeline_foreign_catalog.id}

バンドルをデプロイします。
Bash
```
databricks bundle deploy
```

増分追跡を設定する

クエリーベースのコネクタは、前回のパイプライン実行後にどの行が新規であるか、または更新されたかを判断するためにカーソル列を使用します。カーソル列の選定は、効果的な増分取り込みに不可欠です。

カーソル列を選択する際には、以下の点を考慮してください。

可能であれば、タイムスタンプ列を使用してください。updated_atやlast_modifiedのような列は、行が最後に変更された日時を直接反映するため、理想的です。
整数IDは追記専用ソースで機能します。行が更新されない場合、自動インクリメントID列（例: id や row_id）をカーソルとして使用できます。IDを変更せずに、行が更新される場合は、整数IDをカーソルとして使用しないでください。
列は単調に増加する必要があります。値は決して減少してはなりません。バックフィルなどのプロセスによって列が過去の値に設定された場合、コネクタは以前のハイウォーターマークより前に書き込まれた行を再インジェストしません。
カーソル列は1つしか指定できません。複合カーソルとして複数の列を指定することはできません。

コネクタがカーソルハイウォーターマークを保存した後、次のランで、ハイウォーターマークをフィルターの下限(cursor_column > last_value)として使用します。コネクタは、NULLカーソル値を持つ行を取り込みません。

履歴追跡（SCD）を設定する

宛先テーブルの行変更履歴全体を追跡するには、SCDタイプ2を構成します。「履歴追跡を有効にする（SCDタイプ2）」を参照してください。

一般的なパターン

高度なパイプライン構成については、「管理された取り込みパイプラインの一般的なパターン」を参照してください。

要件​

オプション1：外部接続からの取り込み​

オプション 2: フォーリンカタログの取り込み​

増分追跡を設定する​

履歴追跡（SCD）を設定する​

一般的なパターン​

その他のリソース​

要件

オプション1：外部接続からの取り込み

オプション 2: フォーリンカタログの取り込み

増分追跡を設定する

履歴追跡（SCD）を設定する

一般的なパターン

その他のリソース