登録済みのコミュニティコネクタを使用する
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。
このページでは、登録済みのコミュニティコネクタを使用して、サポートされているソースからDatabricksにデータを取り込む方法について説明します。まだサポートされていないソース用のカスタムコネクタを作成するには、 「カスタムコネクタの作成」を参照してください。
要件
- Unity Catalogが有効になっているDatabricksワークスペース
- 取り込みたいソースへの接続、または接続を作成するための権限
- 取り込まれたテーブルのカタログとスキーマへの書き込みアクセス権
取り込みパイプラインを作成する
登録済みのコミュニティコネクタを使用するには:
-
Databricksワークスペースのサイドバーで、 [+新規 ] > [データの追加またはアップロード] をクリックし、 [コミュニティ コネクタ] の下にあるソースを選択します。
-
「+接続を作成」 をクリックするか、既存の接続を選択してから、 「次へ」 をクリックします。
-
[パイプライン名] にパイプライン の名前を入力します。
-
イベントログの保存場所 には、カタログ名とスキーマ名を入力してください。Databricksはパイプラインのイベントログをここに保存します。取り込まれたテーブルも、デフォルトではここに書き込まれます。
-
ルートパス には、ワークスペースのパスを入力してください(例:
/Workspace/Users/<your-email>/connectors)。Databricksはコネクタのソースコードをここに複製して保存します。 -
パイプラインの作成 をクリックします。
-
パイプラインエディタで、
ingest.pyを開き、 オブジェクト フィールドを更新して、取り込みたいテーブルを含めます。例えば:Pythonfrom databricks.labs.community_connector.pipeline import ingest
pipeline_spec = {
"connection_name": "my_stripe_connection", # Required: UC connection name
"objects": [
{"table": {"source_table": "charges"}},
{"table": {"source_table": "customers",
"destination_table": "stripe_customers"}},
],
}
ingest(spark, pipeline_spec) -
パイプラインを手動で実行するか、スケジュール設定してください。
パイプライン構成オプション
ingest.pyでは、以下のオプションを設定できます。
オプション | 説明 |
|---|---|
| 必須。ソースの認証情報を保存する接続の名前。 |
| 必須。取り込むテーブルのリスト。各エントリは |
| 取り込まれたテーブルが書き込まれるカタログ。デフォルトでは、パイプライン作成時に設定されたカタログが使用されます。 |
| 取り込まれたテーブルが書き込まれるスキーマ。デフォルトでは、パイプライン作成時に設定されたスキーマが使用されます。 |
| ゆっくりと変化する次元戦略: |
| テーブルのデフォルトの主キーを上書きします。列名の一覧を提供してください。 |