データソースへの接続
この記事では、管理者やその他のパワー ユーザーが Databricks とデータソース間の接続を構成する方法について、意見を述べる推奨事項を提供します。 外部システムからデータを読み取るためのアクセス権があるかどうかを判断しようとしている場合は、まず、ワークスペースでアクセスできるデータを確認します。 データの検出を参照してください。
必ずしもデータソースではない外部サービスへの接続に関する情報については、サービス資格情報を使用して外部クラウド サービスへのアクセスを管理するを参照してください。
Databricksアカウントは、クラウドオブジェクトストレージ、リレーショナルデータベース管理システム、ストリーミングデータサービス、CRMなどのエンタープライズプラットフォームなどのデータソースに接続できます。接続の構成に必要な特定の権限は、データソース、Databricksワークスペースでのアクセス許可の構成方法、ソース内のデータを操作するために必要なアクセス許可、データガバナンスモデル、および優先する接続方法によって異なります。
ほとんどの方法では、システムを統合するために必要な権限を設定するために、データソースと Databricks ワークスペースの両方に対する昇格された権限が必要です。 これらの権限を持たないユーザーは、ヘルプをリクエストする必要があります。 データソースへのアクセスを要求するを参照してください。
オブジェクトストレージ接続の設定
クラウド オブジェクト ストレージは、Databricks にほとんどのデータを格納するための基盤を提供します。 クラウド オブジェクト ストレージと Databricks がデータを格納する場所の詳細については、 Databricks がデータを書き込む場所を参照してください。
Databricks では、Unity Catalog を使用してクラウド オブジェクト ストレージへのアクセスを構成することをお勧めします。 Unity Catalog は、クラウドオブジェクトストレージ内の構造化データと非構造化データの両方に対してデータガバナンスを提供します。 Unity Catalog を使用してクラウド オブジェクト ストレージとサービスに接続するを参照してください。
Unity Catalogを使用しないお客様は、従来の方法を使用して接続を構成する必要があります。Databricks のクラウド オブジェクト ストレージへのアクセスを構成するを参照してください。
クラウド・オブジェクト・ストレージへのネットワーキングを構成するには、 ネットワーキングを参照してください。
外部システムへの接続を構成する
Databricksでは、外部データシステムへの接続を構成するために、ニーズに応じていくつかのオプションを推奨しています。次の表は、これらのオプションの概要を示しています。
-
- オプション
- 説明
-
- フェデレーション コネクタのクエリ
- レイクハウスフェデレーションは、エンタープライズデータシステム内のデータへの読み取り専用アクセスを提供します。 接続は、Unity Catalog を介してカタログまたはスキーマ レベルで構成され、1 つの構成で複数のテーブルを同期します。「レイクハウスフェデレーションとは」を参照してください。
-
-
マネージド インジェスト コネクタ
-
LakeFlow Connect を使用すると、管理者ユーザーはデータ取り込み UI で接続と管理取り込みパイプラインを同時に作成できます。 LakeFlow Connectのコネクタを参照してください。
パイプラインを作成するユーザーが管理者以外のユーザーである場合、または Databricks APIsSDK、 Databricks SDK、 Databricks CLI、または Databricks アセット バンドルを使用する予定の場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 これらのインターフェイスでは、ユーザーがパイプラインを作成するときに既存の接続を指定する必要があります。「管理された取り込みソースに接続する」を参照してください。
-
-
-
ストリーミング コネクタ
-
Databricksは、多くのストリーミングデータシステム用に最適化されたコネクタを提供します。
すべてのストリーミングデータソースについて、アクセスを提供する資格情報を生成し、これらの資格情報をDatabricksに読み込む必要があります。Databricksでは、すべての構成オプションとすべてのアクセスモードでシークレットを使用できるため、シークレットを使用して資格情報を格納することをお勧めします。
ストリーミングソースのすべてのデータコネクタは、ストリーミングクエリーを定義するときに、オプションを使用した認証資格情報の受け渡しをサポートします。Databricks レイクハウスへのデータの取り込みを参照してください。
-
-
- サードパーティの統合
- サードパーティのツールを使用して外部データソースに接続し、レイクハウスへのデータの取り込みを自動化します。一部のソリューションには、リバースETLや外部システムからのレイクハウスデータへの直接アクセスも含まれています。「Databricks Partner Connect とは」を参照してください。
-
- ドライバー
- Databricks には、各 Databricks Runtime に外部データ システム用のドライバーが含まれています。 オプションで、サードパーティのドライバーをインストールして、他のシステムのデータにアクセスできます。 テーブルごとに接続を設定する必要があります。 一部のドライバーには書き込みアクセスが含まれています。 外部システムへの接続を参照してください。
-
- JDBC
- 外部システム用のいくつかの付属ドライバは、ネイティブ JDBC サポートに基づいて構築されており、JDBC オプションは、他のシステムへの接続を設定するための拡張可能なオプションを提供します。 テーブルごとに接続を設定する必要があります。 JDBC を使用したデータベースのクエリを参照してください。
データソースへのアクセスをリクエストする
多くの組織では、ほとんどのユーザーはデータ接続を構成するための十分な権限をDatabricksまたは外部データソースのいずれにも持っていません。
貴社の組織は、このページからリンクされている記事で説明されているパターンのいずれかを使用して、データソースへのアクセスをすでに設定しているかもしれません。データへのアクセスを要求するプロセスが組織に明確に定義されている場合、Databricksはそのプロセスに従うことを推奨しています。
データソースへのアクセス方法がわからない場合は、次の手順を実行してください。
-
Catalog Explorer を使用して、アクセスできるテーブルとボリュームを表示します。 カタログエクスプローラとはを参照してください。
-
チームメイトやマネージャーに、アクセスできるデータソースについて問い合わせてください。
- ほとんどの組織は、IDプロバイダー(Okta や Microsoft Entra ID など)から同期されたグループを使用してワークスペースユーザーの権限を管理しています。アクセスする必要があるデータソースにチームの他のメンバーがアクセスできる場合は、ワークスペース管理者に依頼してご自身を適切なグループに追加してもらい、アクセス権を取得してください。
- 特定のテーブル、ボリューム、またはデータソースが同僚によって構成されている場合、その人はデータへのアクセスを許可する権限を持っているはずです。
-
組織によっては、コンピュートクラスターやSQLウェアハウスの設定を通じてデータアクセス権限を構成しています。
- データソースへのアクセスはコンピュートによって異なります。
- コンピュート作成者は [コンピュート] タブで確認できます。作成者に連絡して、アクセス可能であるべきデータソースについて確認します。