データソースへの接続
この記事では、管理者やその他のパワー ユーザーが Databricks とデータソース間の接続を構成する方法について、意見を述べる推奨事項を提供します。 外部システムからデータを読み取るためのアクセス権があるかどうかを判断しようとしている場合は、まず、ワークスペースでアクセスできるデータを確認します。 データの検出を参照してください。
必ずしもデータソースではない外部サービスへの接続に関する情報については、サービス資格情報を使用して外部クラウド サービスへのアクセスを管理するを参照してください。
Databricksアカウントは、クラウドオブジェクトストレージ、リレーショナルデータベース管理システム、ストリーミングデータサービス、CRMなどのエンタープライズプラットフォームなどのデータソースに接続できます。接続の構成に必要な特定の権限は、データソース、Databricksワークスペースでのアクセス許可の構成方法、ソース内のデータを操作するために必要なアクセス許可、データガバナンスモデル、および優先する接続方法によって異なります。
ほとんどの方法では、システムを統合するために必要な権限を設定するために、データソースと Databricks ワークスペースの両方に対する昇格された権限が必要です。 これらの権限を持たないユーザーは、ヘルプをリクエストする必要があります。 データソースへのアクセスを要求するを参照してください。
オブジェクトストレージ接続の設定
クラウド オブジェクト ストレージは、Databricks にほとんどのデータを格納するための基盤を提供します。 クラウド オブジェクト ストレージと Databricks がデータを格納する場所の詳細については、 Databricks がデータを書き込む場所を参照してください。
Databricks では、Unity Catalog を使用してクラウド オブジェクト ストレージへのアクセスを構成することをお勧めします。 Unity Catalog は、クラウドオブジェクトストレージ内の構造化データと非構造化データの両方に対してデータガバナンスを提供します。 Unity Catalog を使用してクラウド オブジェクト ストレージとサービスに接続するを参照してください。
Unity Catalogを使用しないお客様は、従来の方法を使用して接続を構成する必要があります。Databricks のクラウド オブジェクト ストレージへのアクセスを構成するを参照してください。
クラウド・オブジェクト・ストレージへのネットワーキングを構成するには、 ネットワーキングを参照してください。
外部データシステムへの接続の設定
Databricksでは、外部データシステムへの接続を構成するために、ニーズに応じていくつかのオプションを推奨しています。次の表は、これらのオプションの概要を示しています。
オプション | 説明 |
---|---|
レイクハウスフェデレーション | エンタープライズ・データ・システム内のデータへの読み取り専用アクセスを提供します。 接続は、Unity Catalog を介してカタログまたはスキーマ レベルで構成され、1 つの構成で複数のテーブルを同期します。 レイクハウスフェデレーションとはを参照してください。 |
Partner Connect | 技術パートナー ソリューションを活用して、外部データソースに接続し、レイクハウスへのデータの取り込みを自動化します。 一部のソリューションには、リバースETLや外部システムからのレイクハウスデータへの直接アクセスも含まれています。 Databricks Partner Connect とはを参照してください。 |
ドライバー | Databricks には、各 Databricks Runtime に外部データ システム用のドライバーが含まれています。 オプションで、サードパーティのドライバーをインストールして、他のシステムのデータにアクセスできます。 テーブルごとに接続を設定する必要があります。 一部のドライバーには書き込みアクセスが含まれています。 外部システムへの接続を参照してください。 |
JDBC | 外部システム用のいくつかの付属ドライバは、ネイティブ JDBC サポートに基づいて構築されており、JDBC オプションは、他のシステムへの接続を設定するための拡張可能なオプションを提供します。 テーブルごとに接続を設定する必要があります。 JDBC を使用したデータベースのクエリを参照してください。 |
ストリーミングデータソースへの接続
Databricksは、多くのストリーミングデータシステム用に最適化されたコネクタを提供します。
すべてのストリーミングデータソースについて、アクセスを提供する資格情報を生成し、これらの資格情報をDatabricksに読み込む必要があります。Databricksでは、すべての構成オプションとすべてのアクセスモードでシークレットを使用できるため、シークレットを使用して資格情報を格納することをお勧めします。
ストリーミング ソースのすべてのデータ コネクタでは、ストリーミング クエリを定義するときに、オプションを使用した資格情報の受け渡しがサポートされています。 ストリーミングデータソースの設定を参照してください。
データソースへのアクセスをリクエストする
多くの組織では、ほとんどのユーザーはデータ接続を構成するための十分な権限をDatabricksまたは外部データソースのいずれにも持っていません。
貴社の組織は、このページからリンクされている記事で説明されているパターンのいずれかを使用して、データソースへのアクセスをすでに設定しているかもしれません。データへのアクセスを要求するプロセスが組織に明確に定義されている場合、Databricksはそのプロセスに従うことを推奨しています。
データソースへのアクセス方法がわからない場合は、次の手順を実行してください。
-
Catalog Explorer を使用して、アクセスできるテーブルとボリュームを表示します。 カタログエクスプローラとはを参照してください。
-
チームメイトやマネージャーに、アクセスできるデータソースについて問い合わせてください。
- ほとんどの組織は、IDプロバイダー(Okta や Microsoft Entra ID など)から同期されたグループを使用してワークスペースユーザーの権限を管理しています。アクセスする必要があるデータソースにチームの他のメンバーがアクセスできる場合は、ワークスペース管理者に依頼してご自身を適切なグループに追加してもらい、アクセス権を取得してください。
- 特定のテーブル、ボリューム、またはデータソースが同僚によって構成されている場合、その人はデータへのアクセスを許可する権限を持っているはずです。
-
組織によっては、コンピュートクラスターやSQLウェアハウスの設定を通じてデータアクセス権限を構成しています。
- データソースへのアクセスはコンピュートによって異なります。
- コンピュート作成者は [コンピュート] タブで確認できます。作成者に連絡して、アクセス可能であるべきデータソースについて確認します。