AWS Glue メタストア のHiveメタストアフェデレーションを有効にする

プレビュー

この機能はパブリックプレビュー段階です。

この記事では、組織がUnity Catalogを使用してHiveメタストアテーブルを操作できるように、AWS Glueメタストアをフェデレーションする方法について説明します。

Hiveメタストアのフェデレーションの概要については、Hiveメタストアのフェデレーション:Hiveメタストアに登録されたテーブルを管理するためのUnity Catalog の有効化 を参照してください。

始める前に

Hive metastore フェデレーションでサポートされているサービスと機能の一覧 (要件、サポートされている機能、制限事項) を確認します。

各ステップの具体的な要件は、以下のとおりです。

ステップ1: Unity CatalogをAWS GlueのHiveメタストア に接続します

AWS GlueのHiveメタストアを Databricksに接続するには、次のことを行う必要があります。

  1. AWS Glue リソースへの一時的なアクセスをDatabricksに付与する信頼ポリシーを用いて IAMロールを作成します。

  2. Unity CatalogでIAMロールを登録する サービス資格情報 を作成します。サービス資格情報は、長期的なクラウド資格情報をカプセル化する Unity Catalog のセキュリティ保護可能なオブジェクトです。

  3. DatabricksからAWS glueカタログへの Unity Catalogの接続 を作成します。接続は、データベース システムにアクセスするためのパスと資格情報を指定する Unity Catalog のセキュリティ保護可能なオブジェクトです。

要件

次のものが必要です。

  • AWS Glue カタログへのアクセスを許可する IAMロールを作成する機能。

  • AWS Glue カタログを含む AWS アカウントのリージョンとアカウント ID。

  • Unity Catalog メタストアに対する CREATE SERVICE CREDENTIALCREATE CONNECTION の特権。 メタストア管理者は、デフォルトによってこれらの特権を持っています。

IAMロールとサービスの資格情報を作成する

ステップ 1: IAM ロールを作成する の手順を使用して、AWS Glue リソースへの一時的なアクセスをDatabricksに許可するIAMロールを作成します 。この IAMロールは自己仮定である必要があるため、このプロセスには次の 3 つの手順が必要です。

これらの手順に含まれている AWS Glue のサンプル IAM ポリシーを使用する必要があります。 自己引き受けロールの要件については、これらの手順でも説明します。

接続を作成する

接続を作成するには、カタログエクスプローラーを使用するか、Databricksノートブックまたは Databricks SQLクエリーエディタで CREATE CONNECTION SQLコマンドを使用できます。

注:

Databricks REST API または Databricks CLI を使用して接続を作成することもできます。 POST /api/2.1/unity-catalog/connections および Unity Catalog コマンドを参照してください。

  1. Databricks ワークスペースで、カタログアイコン カタログ をクリックします。

  2. クイック アクセスページで、データの追加] > [接続の追加をクリックします。

  3. ユーザーフレンドリーな接続名を入力します。

  4. 接続タイプHive metastoreを、メタストア・タイプAWS Glueを選択します。

  5. ホスト・データベースの次の 接続詳細 を入力します。

    • AWS リージョン: AWS Glue カタログを保持している AWS アカウントのリージョン。

    • AWS アカウント ID: AWS アカウントのアカウント ID。

    • 資格情報: 前の手順で作成したサービス資格情報を選択します。

  6. (オプション)コメントを追加します。

  7. (オプション) 詳細オプションを展開し、 Hive ウェアハウス ディレクトリへの完全修飾パスを入力します。

    これは、デフォルトの場所を使用しない場合にのみ必要です。

  8. 作成をクリックします。

ノートブックまたはDatabricks SQLクエリーエディタで次のコマンドを実行します。

warehouse_directoryにデフォルトHive ウェアハウス ディレクトリの場所を使用しない場合にのみ、Hive metastore を含めます。

CREATE CONNECTION <connection-name> TYPE glue
OPTIONS (
  aws_region '<aws-region-ID>',
  aws_account_id '<aws-account-ID>',
  credential '<service-credential-ID>',
);

ステップ2: Hiveメタストア内のデータ用の外部ロケーションを作成する

この手順では、お使いのAWS Glue Hiveメタストアに登録されているクラウドストレージロケーションへのアクセスを制御するために、Unity Catalogの外部ロケーションを設定します。

外部ロケーション は、Unity Catalog ストレージ資格情報 をクラウド ストレージ コンテナー パスに関連付ける セキュリティ保護可能なオブジェクトです。外部ロケーションとストレージの認証情報を参照してください。

要件

クラウド ストレージとDatabricksのアクセス許可の要件については、クラウド ストレージを Databricksに接続するための外部ロケーションを作成するの「始める前に」を参照してください。

外部ロケーションを作成するためのオプション

Databricks Unity Catalogで外部ロケーションを作成するために推奨されるプロセスは、状況によって異なります。

外部ロケーションでフォールバックモードを有効にする

Unity Catalogで外部ロケーションを作成するとすぐに、その外部ロケーションで表されるパスへのアクセスは、 Unity Catalog対応コンピュート ( シングル ユーザー、共有、またはSQL ウェアハウス) でクエリを実行するときに、 Unity Catalogのアクセス許可によって適用されます。これにより、パスにアクセスするための適切な Unity Catalog アクセス許可を持たない既存のワークロードが中断される可能性があります。

外部ロケーションがフォールバックモードの場合、システムはまず、そのロケーションに対するクエリプリンシパルの Unity Catalog アクセス許可を確認し、それが成功しない場合は、インスタンスプロファイルや Apache Spark 設定プロパティなど、既存のクラスタリングまたはノートブックスコープの認証情報を使用してフォールバックし、既存のワークロードが中断なく実行し続けるようにします。

フォールバックモードは、レガシーワークロードの移行中に便利です。 Unity Catalogアクセス許可を使用して正常に実行するようにワークロードを更新したら、フォールバック モードを無効にして、従来のクラスタリング スコープの資格情報がUnity Catalog データ ガバナンスのバイパスに使用されないようにする必要があります。

フォールバック モードは、Catalog Explorer または Unity Catalog 外部ロケーション REST APIを使用して有効にできます。

必要な権限: 外部ロケーションの所有者。

  1. Databricks ワークスペースで、カタログアイコン カタログ をクリックします。

  2. クイック アクセス ページで、外部データ データ >をクリックします。

  3. 更新する外部ロケーションを選択します。

  4. フォールバック モードトグルをオンにし、有効にするをクリックして確定します。

次の curl の例は、外部ロケーションを作成するとき、および既存の外部ロケーションを更新するときにフォールバック モードを有効にする方法を示しています。

新しい外部ロケーションの作成:

curl -X POST -H 'Authorization: Bearer <token>' \
https://<workspace-URL>/api/2.1/unity-catalog/external-locations \
--data
'{
  "name": "fallback_mode_enabled_external_location",
  "url": "s3://external_location_bucket/url",
  "credential_name": "external_location_credential",
  "fallback": true
  "skip_validation": true
}'

外部ロケーションの更新:

curl -X PATCH \
-H 'Authorization: Bearer <token>' \
-H 'Content-Type: application/json' \
https://<workspace-URL>/api/2.1/unity-catalog/external-locations/<external-location-name> \
--data
 '{
   "comment": "fallback mode enabled",
   "fallback": true
  }'

ステップ 3: フェデレーションカタログを作成する

このステップでは、ステップ 1 で作成した接続を使用して、ステップ 2 で作成した外部ロケーションを指すフェデレーテッド・カタログを Unity Catalog に作成します。フェデレーテッド・カタログは フォーリンカタログの一種で、外部データ・システム内のデータベースまたはカタログをミラーリングする Unity Catalog 内のセキュリティ保護可能なオブジェクトであり、 Databricks ワークスペース内のそのデータに対してクエリを実行し、アクセスを Unity Catalogで管理できます。 この場合、ミラーリングされたカタログは、 Hive metastoreに登録されているデータです。

ユーザーまたはワークフローがフェデレーションカタログと対話するたびに、メタデータは Hive metastoreから同期されます。

要件

権限要件:

フォーリンカタログを作成するには:

  • Unity Catalog メタストアに対する CREATE CATALOG 特権。

  • 接続の所有権または接続に対する CREATE FOREIGN CATALOG 権限。

  • フォーリンカタログの許可パスを入力するには、それらのパスをカバーする外部ロケーションに対する CREATE FOREIGN SECURABLE 権限が必要です。 外部ロケーションの所有者は、デフォルトによってこの特権を持っています。

フォーリンカタログを操作するには:

  • カタログの所有権 USE CATALOG

コンピュートの要件:

  • Catalog Explorerを使用してカタログを作成するには、コンピュートは必要ありません。

  • SQL を使用してカタログを作成するには: Databricks Runtime 13.3 LTS 以降。

  • カタログを操作するには: Databricks Runtime 13.3 LTS、 14.3 LTS、 15.1 以降での共有クラスター。

フォーリンカタログの作成

フォーリンカタログを作成するには、カタログ エクスプローラー、または Databricks ノートブックまたは SQL クエリ エディターのCREATE FOREIGN CATALOG SQL コマンドを使用できます。

注:

Unity Catalog API を使用することもできます。 Databricks REST API リファレンスの カタログの作成 を参照してください。

  1. Databricks ワークスペースで、カタログアイコンカタログをクリックしてカタログエクスプローラーを開きます。

  2. クイックアクセスページで、データボタンを追加をクリックし、カタログを追加を選択します。

  3. カタログ名を入力し、カタログのタイプ外部 を選択します。

  4. ステップ 1 で作成した 接続 をドロップダウンから選択します。

  5. 認証済みパスフィールドに、ステップ 2 で外部ロケーションとして定義したクラウドストレージロケーションへのパスを入力します。たとえば、s3://demo,s3://depts/finance

    許可されたパスは、フェデレーテッド・カタログ専用のセキュリティ・レイヤーです。 許可されたパスとはを参照してください。

  6. 作成をクリックします。

  7. (オプション) 構成をクリックして、カタログに対するアクセス許可の付与とタグの追加を順を追って説明するウィザードを開きます。 これらの手順は、後で実行することもできます。

    Unity Catalog での特権の管理Unity Catalog のセキュリティ保護可能なオブジェクトへのタグの適用を参照してください。

  8. (オプション)カタログを特定のワークスペースにバインドします。

    デフォルトにより、カタログは、 Unity Catalog メタストアにアタッチされた任意のワークスペースからアクセスできます(ユーザー権限によって制限されます)。 特定のワークスペースからのアクセスのみを許可する場合は、 ワークスペース タブに移動してワークスペースを割り当てます。 カタログへのアクセスを特定のワークスペースに制限するを参照してください。

  9. フェデレーテッド・カタログに Hive metastore メタデータを取り込みます。

    ユーザーまたはワークフローがフェデレーションカタログと対話するたびに、メタデータは Hive metastoreから同期されます。 最初のインタラクションでは、Unity Catalog にカタログが入力され、その内容が Catalog Explorer UI に表示されます。 カタログにデータを取り込むには、Catalog Explorer で サポートされているコンピュート リソース を選択して開始します。 カタログの所有者 (カタログの作成により所有者になります) または USE CATALOG 権限を持つユーザーである必要があります。

    ノートブックまたはSQLクエリーエディタで次のSQLコマンドを実行します。括弧内の項目はオプションです。プレースホルダーの値を置き換えます。

    • <catalog-name>:Databricksのカタログの名前。

    • <connection-name>: ステップ 1 で作成した接続オブジェクトの名前。

    • <path1>,<path2>: ステップ 2 で外部ロケーションとして定義したクラウドストレージロケーションへのパス。たとえば、 s3://demo,s3://depts/finance. 許可されたパスは、フェデレーテッド・カタログ専用のセキュリティ・レイヤーです。 許可されたパスとはを参照してください。

    CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
    OPTIONS (authorized_paths '<path1>,<path2>');
    

    ユーザーまたはワークフローがフェデレーションカタログと対話するたびに、メタデータは Hive metastoreから同期されます。

フォーリンカタログの管理と操作も参照してください。