データソースに接続する

この記事では、管理者と他のパワー ユーザーが Databricks とデータソース間の接続を構成する方法について、独自の推奨事項を提供します。 外部システムからデータを読み取るためのアクセス権があるかどうかを判断する場合は、まず、ワークスペースでアクセス権があるデータを確認します。 「データの検出」を参照してください。

Databricks アカウントは、クラウドオブジェクトストレージ、リレーショナルデータベース管理システム、ストリーミングデータサービス、CRM などのエンタープライズプラットフォームなどのデータソースに接続できます。接続の構成に必要な特定の権限は、データソース、Databricks ワークスペースでのアクセス許可の構成方法、ソース内のデータを操作するために必要なアクセス許可、データガバナンスモデル、および優先する接続方法によって異なります。

ほとんどの方法では、システムを統合するために必要なアクセス許可を構成するために、データソースと Databricks ワークスペースの両方に対する管理者特権が必要です。 これらの権限を持たないユーザーは、ヘルプをリクエストする必要があります。 「データソースへのアクセスを要求する」を参照してください。

オブジェクトストレージ接続の構成

クラウドオブジェクトストレージは、Databricks にほとんどのデータを格納するための基盤を提供します。 クラウドオブジェクトストレージと Databricks がデータを格納する場所の詳細については、「 Databricks がデータを書き込む場所」を参照してください。

Databricks では、Unity Catalog を使用してクラウドオブジェクトストレージへのアクセスを構成することをお勧めします。 Unity Catalog は、クラウドオブジェクトストレージ内の構造化データと非構造化データの両方にデータガバナンスを提供します。 「 Unity Catalog を使用したクラウドオブジェクトストレージへの接続」を参照してください。

Unity Catalog を使用しない場合は、従来の方法を使用して接続を設定する必要があります。 「Databricks のクラウドオブジェクトストレージへのアクセスを構成する」を参照してください。

クラウドオブジェクトストレージへのネットワークを構成するには、 「ネットワーク」を参照してください。

外部データシステムへの接続を構成する

Databricks では、必要に応じて、外部データ システムへの接続を構成するためのいくつかのオプションをお勧めします。 次の表に、これらのオプションの概要を示します。

オプション

説明

レイクハウスフェデレーション

エンタープライズ・データ・システム内のデータへの読み取り専用アクセスを提供します。 接続は Unity Catalog を介してカタログまたはスキーマ レベルで構成され、複数のテーブルを単一の構成で同期します。 「レイクハウスフェデレーションとは」をご覧ください。

Partner Connect

技術パートナーのソリューションを活用して、外部データソースに接続し、レイクハウスへのデータの取り込みを自動化します。 一部のソリューションには、リバースETLや外部システムからのレイクハウスデータへの直接アクセスも含まれています。 「 Databricks Partner Connect とは」を参照してください。

ドライバー

Databricks には、各 Databricks Runtime に外部データ システム用のドライバーが含まれています。 オプションで、サードパーティのドライバをインストールして、他のシステムのデータにアクセスすることができます。 テーブルごとに接続を構成する必要があります。 一部のドライバーには書き込みアクセスが含まれています。 「外部システムへの接続」を参照してください。

JDBC

外部システム用のいくつかの付属ドライバは、ネイティブJDBCサポートに基づいて構築されており、JDBCオプションは、他のシステムへの接続を構成するための拡張可能なオプションを提供します。 テーブルごとに接続を構成する必要があります。 クエリー JDBC を使用したデータベースを参照してください。

ストリーミングデータソースに接続する

Databricksは、多くのストリーミングデータシステム用に最適化されたコネクタを提供します。

すべてのストリーミングデータソースについて、アクセスを提供する資格情報を生成し、これらの資格情報を Databricks に読み込む必要があります。 Databricks では、すべての構成オプションとすべてのアクセス モードでシークレットを使用できるため、シークレットを使用して資格情報を格納することをお勧めします。

ストリーミングソースのすべてのデータコネクタは、ストリーミングクエリーを定義するときに、オプションを使用した認証資格情報の受け渡しをサポートします。 「ストリーミングデータソースの構成」を参照してください。

データソースへのアクセスを要求する

多くの組織では、ほとんどのユーザーは、データ接続を構成するための Databricks または外部データソースに対する十分な権限を持っていません。

組織では、このページからリンクされている記事で説明されているパターンのいずれかを使用して、データソースへのアクセスを既に構成している場合があります。 組織にデータへのアクセスを要求するための明確に定義されたプロセスがある場合は、 Databricks そのプロセスに従うことをお勧めします。

データソースにアクセスする方法がわからない場合は、この手順が役立つ場合があります。

  1. カタログエクスプローラーを使用して、アクセス可能なテーブルとボリュームを表示します。 「カタログエクスプローラとは」を参照してください。

  2. チームメイトやマネージャーに、アクセスできるデータソースについて尋ねます。

    • ほとんどの組織では、ID プロバイダー (Okta や Microsoft Entra ID (旧称 Azure Active Directory) など) から同期されたグループを使用して、ワークスペース ユーザーのアクセス許可を管理しています。 チームの他のメンバーが、アクセスが必要なデータソースにアクセスできる場合は、ワークスペース管理者に適切なグループに追加してもらい、アクセス権を付与してもらいます。

    • 特定のテーブル、ボリューム、またはデータソースがコワーカーによって構成されている場合、その個人には、データへのアクセス権を付与する権限が必要です。

  3. 一部の組織では、コンピュート クラスターと SQLウェアハウスの設定を使用してデータ アクセス許可を構成します。

    • データソースへのアクセスはコンピュートによって異なります。

    • コンピュート作成者は [コンピュート] タブで確認できます。 作成者に連絡して、アクセス可能であるべきデータソースについて確認します。