データソースと外部サービスへの接続

このページでは、 Databricks と外部データソースおよびサービス間の接続を構成する管理者およびパワーユーザー向けの推奨事項を示します。

Databricks アカウントは、クラウドオブジェクトストレージ、リレーショナルデータベース管理システム、ストリーミングデータサービス、CRM などのエンタープライズプラットフォームなどのデータソースに接続できます。Databricks アカウントを AWS Glue や AWS Secrets Manager などの外部サービスに接続することもできます。

クラウドオブジェクトストレージへの接続の構成

Databricks ワークロードで使用されるほとんどのデータは、AWS S3 や Cloudflare R2 などのクラウドオブジェクトストレージに保存されます。クラウド・オブジェクト・ストレージへのアクセスは、以下のいずれかを使用して管理できます。

Unity Catalog (推奨): クラウドオブジェクトストレージ内の構造化データと非構造化データの両方に対してデータガバナンスを提供します。「Unity Catalog を使用してクラウドオブジェクトストレージに接続する」を参照してください。
従来のコネクタと接続パターン。「レガシパターンを使用して Databricks のクラウドオブジェクトストレージへのアクセスを構成する」を参照してください。

Unity Catalogとの連携

Unity Catalog接続は、外部システムにアクセスするために必要なエンドポイントと認証情報を格納する、セキュリティ保護可能なオブジェクトです。接続機能により、フェデレーション、マネージドインジェスト、JDBC、HTTPなどの外部データシステムの認証と構成を管理するための統制された方法が提供されます。すべての接続タイプとその選択方法の概要については、 Unity Catalog接続」を参照してください。

外部データシステムへの接続の設定

Databricks には、外部データシステムへの接続を構成するためのオプションがいくつか用意されています。次の表に、これらのオプションの概要を示します。

オプション	説明
フェデレーションコネクタのクエリ	クエリフェデレーションは、JDBC経由でUnity Catalogクエリをプッシュダウンすることにより、外部リレーショナルデータベースへの読み取り専用アクセスを提供します。サポートされているデータソースには、PostgreSQL、MySQL、SQL Server、Snowflakeなどが含まれます。
カタログフェデレーションコネクタ	カタログフェデレーションは、Hive metastore、AWS Glue、またはSnowflake Horizon Catalogなどの外部カタログプラットフォームと接続します。これにより、データの移動なしでファイルストレージ内のデータを直接クエリできます。
マネージドインジェストコネクタ	Lakeflowコネクトを使用すると、管理者ユーザーはデータ取り込み UI で接続と管理取り込みパイプラインを同時に作成できます。 Lakeflowコネクトの管理対象コネクタを参照してください。パイプラインを作成するユーザーが管理者以外のユーザーである場合、またはDatabricks APIs 、 Databricks SDK、 Databricks CLI 、または Declarative Automation Bundle を使用する予定の場合、管理者はまずカタログエクスプローラーで接続を作成する必要があります。これらのインターフェースでは、パイプラインを作成する際に、ユーザーが既存の接続を指定する必要があります。管理対象のデータ取り込みソースへの接続を参照してください。
ストリーミングコネクタ	Databricksは、多くのストリーミングデータシステム用に最適化されたコネクタを提供します。すべてのストリーミングデータソースについて、アクセスを提供する資格情報を生成し、これらの資格情報をDatabricksに読み込む必要があります。Databricksでは、すべての構成オプションとすべてのアクセスモードでシークレットを使用できるため、シークレットを使用して資格情報を格納することをお勧めします。ストリーミングソースのすべてのデータコネクタでは、ストリーミングクエリを定義するときに、オプションを使用した資格情報の受け渡しがサポートされています。Lakeflowコネクトの標準コネクタを参照してください。
サードパーティの統合	サードパーティのツールを使用して外部データソースに接続し、レイクハウスへのデータの取り込みを自動化します。一部のソリューションには、リバースETLや外部システムからのレイクハウスデータへの直接アクセスも含まれています。「Databricks Partner Connect とは」を参照してください。
Spark データソース API	Spark データソース API を使用して、外部データベースから読み取りおよび書き込みを行ってください。Databricks Runtime には一般的なソース用のコネクタが同梱されています。また、独自の JDBC ドライバ JAR を使用して Unity Catalog 接続を利用したり、専用クラスタにサードパーティ製コネクタをインストールしたり、PySpark DataSource API を使用してカスタムコネクタを構築したりすることもできます。Spark データソースを参照してください。 Databricks は、読み取り専用アクセスにレイクハウスフェデレーションをお勧めします。
JDBC	Unity Catalog接続を使用してJDBC経由で外部データベースに接続することで、アクセス制御、認証情報の分離、および相互運用性のサポートを実現します。 JDBC接続を参照してください。 Unity Catalog ガバナンスのない従来の JDBC 構成については、「JDBC を使用したデータベースのクエリ」を参照してください。読み取り専用のクエリフェデレーションの場合は、レイクハウスフェデレーションが常に優先されます。

オプション	説明
フェデレーションコネクタのクエリ	クエリフェデレーションは、JDBC経由でUnity Catalogクエリをプッシュダウンすることにより、外部リレーショナルデータベースへの読み取り専用アクセスを提供します。サポートされているデータソースには、PostgreSQL、MySQL、SQL Server、Snowflakeなどが含まれます。
カタログフェデレーションコネクタ	カタログフェデレーションは、Hive metastore、AWS Glue、またはSnowflake Horizon Catalogなどの外部カタログプラットフォームと接続します。これにより、データの移動なしでファイルストレージ内のデータを直接クエリできます。
マネージドインジェストコネクタ	Lakeflowコネクトを使用すると、管理者ユーザーはデータ取り込み UI で接続と管理取り込みパイプラインを同時に作成できます。 Lakeflowコネクトの管理対象コネクタを参照してください。パイプラインを作成するユーザーが管理者以外のユーザーである場合、またはDatabricks APIs 、 Databricks SDK、 Databricks CLI 、または Declarative Automation Bundle を使用する予定の場合、管理者はまずカタログエクスプローラーで接続を作成する必要があります。これらのインターフェースでは、パイプラインを作成する際に、ユーザーが既存の接続を指定する必要があります。管理対象のデータ取り込みソースへの接続を参照してください。
ストリーミングコネクタ	Databricksは、多くのストリーミングデータシステム用に最適化されたコネクタを提供します。すべてのストリーミングデータソースについて、アクセスを提供する資格情報を生成し、これらの資格情報をDatabricksに読み込む必要があります。Databricksでは、すべての構成オプションとすべてのアクセスモードでシークレットを使用できるため、シークレットを使用して資格情報を格納することをお勧めします。ストリーミングソースのすべてのデータコネクタでは、ストリーミングクエリを定義するときに、オプションを使用した資格情報の受け渡しがサポートされています。Lakeflowコネクトの標準コネクタを参照してください。
サードパーティの統合	サードパーティのツールを使用して外部データソースに接続し、レイクハウスへのデータの取り込みを自動化します。一部のソリューションには、リバースETLや外部システムからのレイクハウスデータへの直接アクセスも含まれています。「Databricks Partner Connect とは」を参照してください。
Spark データソース API	Spark データソース API を使用して、外部データベースから読み取りおよび書き込みを行ってください。Databricks Runtime には一般的なソース用のコネクタが同梱されています。また、独自の JDBC ドライバ JAR を使用して Unity Catalog 接続を利用したり、専用クラスタにサードパーティ製コネクタをインストールしたり、PySpark DataSource API を使用してカスタムコネクタを構築したりすることもできます。Spark データソースを参照してください。 Databricks は、読み取り専用アクセスにレイクハウスフェデレーションをお勧めします。
JDBC	Unity Catalog接続を使用してJDBC経由で外部データベースに接続することで、アクセス制御、認証情報の分離、および相互運用性のサポートを実現します。 JDBC接続を参照してください。 Unity Catalog ガバナンスのない従来の JDBC 構成については、「JDBC を使用したデータベースのクエリ」を参照してください。読み取り専用のクエリフェデレーションの場合は、レイクハウスフェデレーションが常に優先されます。

ストレージ以外のクラウドサービスへの接続を構成する

Unity Catalog は、 サービス資格情報 と呼ばれるセキュリティ保護可能なオブジェクトを使用して、非ストレージのクラウドサービスへのアクセスを管理します。サービス資格情報は、ユーザーが Databricks から接続する必要がある非ストレージクラウドサービスへのアクセスを提供する長期的なクラウド資格情報をカプセル化します。Unity Catalog を使用して外部クラウドサービスに接続するを参照してください。

データソースと外部サービスへのアクセスを管理およびリクエストする

ほとんどの接続方法では、外部データソースまたはサービスと Databricks ワークスペースの両方に対する昇格された権限が必要です。一般的な組織では、Databricks または外部のデータおよびストレージプロバイダーでデータ接続を自分で構成するための十分な権限を持つユーザーはほとんどいません。

組織では、このページからリンクされている記事で説明されているパターンのいずれかを使用して、データソースまたはサービスへのアクセスを既に構成している場合があります。データやサードパーティサービスへのアクセスをリクエストするための明確なプロセスが組織にある場合、Databricks ではそのプロセスに従うことをお勧めします。データソースへのアクセス方法がわからない場合は、次の手順が役立つ場合があります。

カタログエクスプローラを使用して、アクセスできるテーブルとボリュームを表示します。カタログエクスプローラとはを参照してください。
チームメイトやマネージャーに、アクセスできるデータソースについて問い合わせてください。
- ほとんどの組織では、ID プロバイダーから同期されたグループ (Okta や Microsoft Entra ID など) を使用して、ワークスペースユーザーのアクセス許可を管理しています。アクセスが必要なデータソースにチームの他のメンバーがアクセスできる場合は、ワークスペース管理者に適切なグループに追加してもらい、アクセス権を付与してもらいます。
- 特定のテーブル、ボリューム、またはデータソースがコワーカーによって設定された場合、その個人がデータへのアクセスを許可できる必要があります。

一部の組織では、特定のコンピュートクラスターと SQLウェアハウスにデータアクセス許可をアタッチしています。これは従来のガバナンスモデルですが、組織で使用されており、特定のコンピュートリソースで利用可能なデータソースを知りたい場合は、 コンピュート タブにリストされているコンピュートクリエーターに連絡してください。

クラウドオブジェクトストレージへの接続の構成​

Unity Catalogとの連携​

外部データシステムへの接続の設定​

ストレージ以外のクラウドサービスへの接続を構成する​

データソースと外部サービスへのアクセスを管理およびリクエストする​

クラウドオブジェクトストレージへの接続の構成

Unity Catalogとの連携

外部データシステムへの接続の設定

ストレージ以外のクラウドサービスへの接続を構成する

データソースと外部サービスへのアクセスを管理およびリクエストする