メインコンテンツまでスキップ

登録済みのコミュニティコネクタを使用する

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

このページでは、登録済みのコミュニティコネクタを使用して、サポートされているソースからDatabricksにデータを取り込む方法について説明します。まだサポートされていないソース用のカスタムコネクタを作成するには、 「カスタムコネクタの作成」を参照してください。

要件

  • Unity Catalogが有効になっているDatabricksワークスペース
  • 取り込みたいソースへの接続、または接続を作成するための権限
  • 取り込まれたテーブルのカタログとスキーマへの書き込みアクセス権

取り込みパイプラインを作成する

登録済みのコミュニティコネクタを使用するには:

  1. Databricksワークスペースのサイドバーで、 [+新規 ] > [データの追加またはアップロード] をクリックし、 [コミュニティ コネクタ] の下にあるソースを選択します。

  2. 「+接続を作成」 をクリックするか、既存の接続を選択してから、 「次へ」 をクリックします。

  3. [パイプライン名] にパイプライン の名前を入力します。

  4. イベントログの保存場所 には、カタログ名とスキーマ名を入力してください。Databricksはパイプラインのイベントログをここに保存します。取り込まれたテーブルも、デフォルトではここに書き込まれます。

  5. ルートパス には、ワークスペースのパスを入力してください(例: /Workspace/Users/<your-email>/connectors )。Databricksはコネクタのソースコードをここに複製して保存します。

  6. パイプラインの作成 をクリックします。

  7. パイプラインエディタで、 ingest.pyを開き、 オブジェクト フィールドを更新して、取り込みたいテーブルを含めます。例えば:

    Python
    from databricks.labs.community_connector.pipeline import ingest

    pipeline_spec = {
    "connection_name": "my_stripe_connection", # Required: UC connection name
    "objects": [
    {"table": {"source_table": "charges"}},
    {"table": {"source_table": "customers",
    "destination_table": "stripe_customers"}},
    ],
    }

    ingest(spark, pipeline_spec)
  8. パイプラインを手動で実行するか、スケジュール設定してください。

パイプライン構成オプション

ingest.pyでは、以下のオプションを設定できます。

オプション

説明

connection_name

必須。ソースの認証情報を保存する接続の名前。

objects

必須。取り込むテーブルのリスト。各エントリは{"table": {"source_table": "..."}}形式です。tableオブジェクト内にオプションのdestination_tableを指定することもできます。

destination_catalog

取り込まれたテーブルが書き込まれるカタログ。デフォルトでは、パイプライン作成時に設定されたカタログが使用されます。

destination_schema

取り込まれたテーブルが書き込まれるスキーマ。デフォルトでは、パイプライン作成時に設定されたスキーマが使用されます。

scd_type

ゆっくりと変化する次元戦略: SCD_TYPE_1SCD_TYPE_2 、またはAPPEND_ONLY 。 デフォルトはSCD_TYPE_1です。

primary_keys

テーブルのデフォルトの主キーを上書きします。列名の一覧を提供してください。