メインコンテンツまでスキップ

Azureデータレイクストレージに接続する

注記

Azureデータレイク ストレージ ( ADLS ) に接続できるのは、 Azureにデプロイされた SAP Databricksアカウントのみです。

ADLS ストレージがファイアウォールで保護されている場合は、Databricks アカウント チームに問い合わせて、それらのファイアウォールで Databricks を許可リストに登録する方法のサポートを受けてください。

この記事では、 Azureデータレイク ストレージ ( ADLS ) に接続するためのストレージ資格情報と外部ロケーションを作成する方法について説明します。

ストレージ認証情報 には、クラウド ストレージへのアクセスを提供する長期的なクラウド認証情報が含まれています。外部ストレージへのアクセスを制御するために Unity Catalog で 外部ロケーション を作成するときに、クラウド ストレージ パスとともにストレージ資格情報を参照します。

要件

  • SAP Databricks では、ワークスペースに接続された Unity Catalog メタストアに対するCREATE STORAGE CREDENTIAL権限が必要です。アカウント管理者とメタストア管理者は、デフォルトでこの権限を持ちます。
  • Azure テナントの場合:
    • Azureデータレイク Storage ストレージ コンテナーにアクセスできる必要があります。 送信料金を回避するには、データにアクセスするワークスペースと同じリージョンに配置する必要があります。ストレージ アカウントには階層型名前空間が必要です。
    • Azure リソース グループの共同作成者または所有者。
    • ストレージ アカウントの所有者、またはユーザー アクセス管理者 Azure RBAC ロールを持つユーザー。

Azureデータレイク ストレージにアクセスするストレージ資格情報を作成する

サービス プリンシパルを使用して、ストレージ アカウントへのアクセスを承認します。 まず、サービスプリンシパルを作成し、次にストレージ アカウントにアクセス許可を割り当て、最後にストレージ資格情報を作成します。

サービスプリンシパルを作成する

Microsoft Entra ID アプリケーションを登録し、適切なアクセス許可を割り当てると、 Azureデータレイク ストレージまたは Blob Storage リソースにアクセスできるサービス プリンシパルが作成されます。

Microsoft Entra ID アプリケーションを登録するには、Microsoft Entra ID のApplication AdministratorロールまたはApplication.ReadWrite.All権限が必要です。

  1. Azure ポータルで、 Microsoft Entra ID サービスに移動します。
  2. [管理] で、 アプリの登録 をクリックします。
  3. +新規登録を クリックします。アプリケーションの名前を入力し、 「登録する」 をクリックします。
  4. 証明書とシークレット をクリックします。
  5. + 新しいクライアントのシークレット 」をクリックします。
  6. シークレットの説明を追加し、 「追加」 をクリックします。
  7. 新しいシークレットの値をコピーして保存します。
  8. アプリケーション登録の概要で、 アプリケーション (クライアント) IDディレクトリ (テナント) ID を コピーして保存します。

ストレージアカウントに権限を割り当てる

ストレージ アカウントに Microsoft Entra ID アプリケーションを割り当てることで、ストレージ リソースへのアクセスを制御します。ストレージ アカウントにロールを割り当てるには、ストレージ アカウントに対する所有者またはユーザー アクセス管理者の Azure RBAC ロールが必要です。

  1. Azure ポータルで、 ストレージ アカウント サービスに移動します。
  2. このアプリケーション登録で使用する Azure ストレージ アカウントを選択します。
  3. アクセス制御(IAM) をクリックします。
  4. + 追加 をクリックし、ドロップダウン メニューから ロールの割り当てを追加 を選択します。
  5. 選択 フィールドを Microsoft Entra ID アプリケーション名に設定し、 ロールストレージ BLOB データ共同作成者 に設定します。
  6. 保存 をクリックします。

ストレージ アカウントでのファイル イベント アクセスを有効にするには、 Azureデータレイク ストレージ アカウントが含まれているAzureリソース グループに対して、所有者またはユーザー アクセス管理者のAzure RBAC ロールが必要です。

  1. 上記のステップに従いますが、 Storage Queue Data ContributorStorage Account Contributor の役割を追加します。
  2. Azureデータレイク ストレージ アカウントが存在するAzureリソース グループに移動します。
  3. [アクセス制御 (IAM)] に移動し、 [+ 追加] をクリックして、 [ロールの割り当ての追加] を選択します。
  4. EventGrid EventSubscription Contributor ロールを選択し、 [次へ] をクリックします。
  5. [アクセス権の割り当て] で、 [サービスプリンシパル] を選択します。
  6. [+Select Members] をクリックし、サービスプリンパルシを選択して、 [Review and Assign] をクリックします。

あるいは、 ストレージ キュー データ共同作成者 ロールにサービスプリンシパルのみを付与し、リソース グループにはロールを付与しないことで、アクセスを制限することもできます。 この場合、SAP Databricks はユーザーに代わってファイル イベントを構成することはできません。

ストレージ資格情報を作成する

サービスプリンシパルを使用してストレージ資格情報を作成するには、SAP Databricksアカウント管理者である必要があります。 サービスプリンシパル ストレージ資格情報を作成するアカウント管理者は、所有権を別のユーザーまたはグループに委任して、その資格情報に対するアクセス許可を管理できます。

カタログ エクスプローラーを使用してサービスプリンシパル ストレージ資格情報を追加することはできません。 代わりに、 Storage Credentials APIを使用してください。例えば:

Bash
curl -X POST -n \
https://<databricks-instance>/api/2.1/unity-catalog/storage-credentials \
-d '{
"name": "<storage-credential-name>",
"read_only": true,
"azure_service_principal": {
"directory_id": "<directory-id>",
"application_id": "<application-id>",
"client_secret": "<client-secret>"
},
"skip_validation": "false"
}'

Terraform を使用してストレージ資格情報を作成することもできます。databricks_storage_credentialを参照してください。

外部ロケーションを作成する

外部ロケーションは、外部ストレージへのアクセスを制御するために使用されます。

  1. メタストアに接続されているワークスペースにログインします。

  2. サイドバーでクリックデータアイコン。 カタログ

  3. [クイック アクセス ] ページで、 [外部データ >] ボタンをクリックし、 [外部ロケーション ] タブに移動して、 [ロケーションの作成] を クリックします。

  4. 外部ロケーション名 を入力します。

  5. ストレージの種類 を選択します: Azureデータレイク ストレージ または R2

  6. [URL] で、外部ロケーションへのパスを入力または選択します。

  7. 外部ロケーションへのアクセスを許可するストレージ資格情報を選択します。

  8. (オプション)ユーザーに外部ロケーションへの読み取り専用アクセス権を付与する場合は、[ 詳細オプション ] をクリックして[ 読み取り専用 ]を選択します。

  9. (オプション) 外部ロケーションがHive metastoreフェデレーション カタログを対象としている場合は、 [詳細オプション] をクリックして、 フォールバック モード を有効にします。

  10. (オプション) 外部ロケーションで変更通知を購読する機能を有効にするには、 [詳細オプション] をクリックし、 [ファイル イベントを有効にする] を選択します。

  11. 作成 をクリックします。

  12. (オプション) 外部ロケーションを特定のワークスペースにバインドします。

    もちろん、特権ユーザーはメタストアに接続されたワークスペースの外部ロケーションを使用できます。 特定のワークスペースからのみアクセスを許可したい場合は、 「ワークスペース」 タブに移動してワークスペースを割り当てます。 「外部ロケーションを 1 つ以上のワークスペースにバインドする」を参照してください。

  13. 「許可」 タブに移動して、外部ロケーションを使用する許可を与えます。

    誰でも外部ロケーションを使用するには、次の権限を付与する必要があります。

    • 外部ロケーションを使用して、メタストア、カタログ、またはスキーマにマネージドストレージロケーションを追加するには、 CREATE MANAGED LOCATION 特権を付与します。
    • 外部テーブルまたはボリュームを作成するには、 CREATE EXTERNAL TABLEまたはCREATE EXTERNAL VOLUMEを付与します。

外部ロケーションを 1 つ以上のワークスペースにバインドする

特定のワークスペースに外部ロケーションを割り当てるには、カタログ エクスプローラーを使用できます。

必要な権限 : メタストア管理者、外部ロケーションの所有者、または外部ロケーションのMANAGE

メタストアの管理者は、カタログエクスプローラ を使用してメタストア内のすべての外部ロケーションを表示でき、外部ロケーションの所有者は、外部ロケーションが現在のワークスペースに割り当てられているかどうかに関係なく、メタストア内で所有するすべての外部ロケーションを表示できます。 ワークスペースに割り当てられていない外部ロケーションはグレー表示されます。

  1. メタストアにリンクされているワークスペースにログインします。

  2. サイドバーでクリックデータアイコン。 カタログ

  3. クイック アクセス ページで、 外部データ > ボタンをクリックして外部 ロケーション タブに移動します。

  4. 外部ロケーションを選択し、 「ワークスペース」 タブに移動します。

  5. [ ワークスペース ] タブで、[ すべてのワークスペースがアクセス可能] チェックボックスをオフにします。

    外部ロケーションがすでに 1 つ以上のワークスペースにバインドされている場合、このチェックボックスはすでにオフになっています。

  6. [ ワークスペースに割り当てる ] をクリックし、割り当てるワークスペースを入力または検索します。

アクセス権を取り消すには、[ ワークスペース ] タブに移動し、ワークスペースを選択して、[ 取り消し ] をクリックします。すべてのワークスペースからのアクセスを許可するには、[ すべてのワークスペースがアクセス可能 ] チェックボックスをオンにします。