登録済みのコミュニティコネクタを使用する

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

このページでは、登録済みのコミュニティコネクタを使用して、サポートされているソースからDatabricksにデータを取り込む方法について説明します。まだサポートされていないソース用のカスタムコネクタを作成するには、「カスタムコネクタの作成」を参照してください。

要件

Unity Catalogが有効になっているDatabricksワークスペース
取り込みたいソースへの接続、または接続を作成するための権限
取り込まれたテーブルのカタログとスキーマへの書き込みアクセス権

取り込みパイプラインを作成する

登録済みのコミュニティコネクタを使用するには：

Databricksワークスペースのサイドバーで、 [+新規 ] > [データの追加またはアップロード] をクリックし、 [コミュニティコネクタ] の下にあるソースを選択します。
「+接続を作成」 をクリックするか、既存の接続を選択してから、 「次へ」 をクリックします。
[パイプライン名] にパイプライン の名前を入力します。
イベントログの保存場所 には、カタログ名とスキーマ名を入力してください。Databricksはパイプラインのイベントログをここに保存します。取り込まれたテーブルも、デフォルトではここに書き込まれます。
ルートパス には、ワークスペースのパスを入力してください（例： /Workspace/Users/<your-email>/connectors ）。Databricksはコネクタのソースコードをここに複製して保存します。
パイプラインの作成 をクリックします。

パイプラインエディタで、 ingest.pyを開き、 オブジェクト フィールドを更新して、取り込みたいテーブルを含めます。例えば：

Python
from databricks.labs.community_connector.pipeline import ingest

pipeline_spec = {
    "connection_name": "my_stripe_connection",  # Required: UC connection name
    "objects": [
        {"table": {"source_table": "charges"}},
        {"table": {"source_table": "customers",
                   "destination_table": "stripe_customers"}},
    ],
}

ingest(spark, pipeline_spec)

パイプラインを手動で実行するか、スケジュール設定してください。

パイプライン構成オプション

ingest.pyでは、以下のオプションを設定できます。

オプション	説明
`connection_name`	必須。ソースの認証情報を保存する接続の名前。
`objects`	必須。取り込むテーブルのリスト。各エントリは`{"table": {"source_table": "..."}}`形式です。`table`オブジェクト内にオプションの`destination_table`を指定することもできます。
`destination_catalog`	取り込まれたテーブルが書き込まれるカタログ。デフォルトでは、パイプライン作成時に設定されたカタログが使用されます。
`destination_schema`	取り込まれたテーブルが書き込まれるスキーマ。デフォルトでは、パイプライン作成時に設定されたスキーマが使用されます。
`scd_type`	ゆっくりと変化する次元戦略: `SCD_TYPE_1` 、 `SCD_TYPE_2` 、または`APPEND_ONLY` 。デフォルトは`SCD_TYPE_1`です。
`primary_keys`	テーブルのデフォルトの主キーを上書きします。列名の一覧を提供してください。

要件​

取り込みパイプラインを作成する​

パイプライン構成オプション​

要件

取り込みパイプラインを作成する

パイプライン構成オプション