データソースに接続する

この記事では、管理者と他のパワーユーザーがDatabricksとデータソース間の接続を構成する方法について、独自の推奨事項を提供します。外部システムからデータを読み取るためのアクセス権があるかどうかを判断する場合は、まず、ワークスペースでアクセス権があるデータを確認します。「データの検出」を参照してください。

Databricksアカウントは、クラウドオブジェクトストレージ、リレーショナルデータベース管理システム、ストリーミングデータサービス、CRMなどのエンタープライズプラットフォームなどのデータソースに接続できます。接続の構成に必要な特定の権限は、データソース、Databricksワークスペースでのアクセス許可の構成方法、ソース内のデータを操作するために必要なアクセス許可、データガバナンスモデル、および優先する接続方法によって異なります。

ほとんどの方法では、システムを統合するために必要なアクセス許可を構成するために、データソースと Databricks ワークスペースの両方に対する管理者特権が必要です。これらの権限を持たないユーザーは、ヘルプをリクエストする必要があります。「データソースへのアクセスを要求する」を参照してください。

オブジェクトストレージ接続の構成

クラウドオブジェクトストレージは、Databricksにほとんどのデータを格納するための基盤を提供します。クラウドオブジェクトストレージとDatabricksがデータを格納する場所の詳細については、「 Databricks がデータを書き込む場所」を参照してください。

Databricksでは、Unity Catalogを使用してクラウドオブジェクトストレージへのアクセスを構成することをお勧めします。Unity Catalogは、クラウドオブジェクトストレージ内の構造化データと非構造化データの両方にデータガバナンスを提供します。「 Unity Catalogを使用したクラウドオブジェクトストレージへの接続」を参照してください。

Unity Catalogを使用しない場合は、従来の方法を使用して接続を設定する必要があります。「Databricksのクラウドオブジェクトストレージへのアクセスを構成する」を参照してください。

クラウドオブジェクトストレージへのネットワークを構成するには、 「ネットワーク」を参照してください。

外部データシステムへの接続を構成する

Databricksでは、外部データシステムへの接続を構成するために、ニーズに応じていくつかのオプションを推奨しています。次の表は、これらのオプションの概要を示しています。

オプション

説明

レイクハウスフェデレーション

エンタープライズデータシステム内のデータへの読み取り専用アクセスを提供します。接続はUnity Catalogを介してカタログまたはスキーマレベルで構成され、複数のテーブルを単一の構成で同期します。「レイクハウスフェデレーションとは」を参照してください。

Partner Connect

技術パートナーのソリューションを活用して、外部データソースに接続し、レイクハウスへのデータの取り込みを自動化します。 一部のソリューションには、リバースETLや外部システムからのレイクハウスデータへの直接アクセスも含まれています。 「Databricks Partner Connectとは」を参照してください。

ドライバー

Databricksには、各Databricks Runtimeに外部データシステム用のドライバーが含まれています。オプションで、サードパーティのドライバをインストールして、他のシステムのデータにアクセスすることができます。テーブルごとに接続を構成する必要があります。一部のドライバーには書き込みアクセスが含まれています。「外部システムへの接続」を参照してください。

JDBC

JDBCオプションは、他のシステムへの接続を設定するための拡張可能なオプションを提供します。テーブルごとに接続を構成する必要があります。「JDBCを使用したデータベースのクエリー」を参照してください。

ストリーミングデータソースに接続する

Databricksは、多くのストリーミングデータシステム用に最適化されたコネクタを提供します。

すべてのストリーミングデータソースについて、アクセスを提供する資格情報を生成し、これらの資格情報をDatabricksに読み込む必要があります。Databricksでは、すべての構成オプションとすべてのアクセスモードでシークレットを使用できるため、シークレットを使用して資格情報を格納することをお勧めします。

ストリーミングソースのすべてのデータコネクタは、ストリーミングクエリーを定義するときに、オプションを使用した認証資格情報の受け渡しをサポートします。「ストリーミングデータソースの構成 」を参照してください。

データソースへのアクセスを要求する

多くの組織では、ほとんどのユーザーはデータ接続を構成するための十分な権限をDatabricksまたは外部データソースのいずれにも持っていません。

貴社の組織は、このページからリンクされている記事で説明されているパターンのいずれかを使用して、データソースへのアクセスをすでに設定しているかもしれません。データへのアクセスを要求するプロセスが組織に明確に定義されている場合、Databricksはそのプロセスに従うことを推奨しています。

データソースへのアクセス方法がわからない場合は、次の手順を実行してください。

  1. カタログエクスプローラーを使用して、アクセス可能なテーブルとボリュームを表示します。「カタログエクスプローラとは」を参照してください。

  2. チームメイトやマネージャーに、アクセスできるデータソースについて問い合わせてください。

    • ほとんどの組織は、IDプロバイダー(Okta や Microsoft Entra ID など)から同期されたグループを使用してワークスペースユーザーの権限を管理しています。アクセスする必要があるデータソースにチームの他のメンバーがアクセスできる場合は、ワークスペース管理者に依頼してご自身を適切なグループに追加してもらい、アクセス権を取得してください。

    • 特定のテーブル、ボリューム、またはデータソースが同僚によって構成されている場合、その人はデータへのアクセスを許可する権限を持っているはずです。

  3. 組織によっては、コンピュートクラスターやSQLウェアハウスの設定を通じてデータアクセス権限を構成しています。

    • データソースへのアクセスはコンピュートによって異なります。

    • コンピュート作成者は [コンピュート] タブで確認できます。作成者に連絡して、アクセス可能であるべきデータソースについて確認します。