レガシー Hive metastore と並行して作業 Unity Catalog

この記事では、Databricksワークスペースが Unity Catalogに対して有効になっている場合に、従来のワークスペースごとの Hiveメタストアを引き続き使用するための 1つの方法について説明します。

ワークスペースが Unity Catalogで有効になる前にサービスに含まれていた場合は、引き続き使用するデータを含む Hive metastore が含まれている可能性があります。この記事では、 Hive metastoreに登録されているテーブルを引き続き操作する方法について説明します。

重要

ワークスペースごとの Hive metastore は従来の機能であり、この記事で説明する手順は従来のワークフローを表しています。

Hive metastore内のテーブルは、組み込み監査、リネージ、アクセス制御など、 Unity Catalogによって提供されるセキュリティおよびガバナンス機能の完全なセットの恩恵を受けることはできません。 Databricks 、これらのテーブルとそれらを参照するワークロードをUnity Catalogに移行し、 Hive metastoreへの直接アクセスを無効にすることをお勧めします。

次の 2 つの移行パスを使用できます。

Hive metastoreに登録されているすべてのテーブルを Unity Catalogにアップグレードします。
Hiveメタストアフェデレーションを使用してHiveメタストアをUnity Catalog にフェデレーションし、より段階的なアプローチを実現します。Hive metastoreフェデレーションは、HiveメタストアをミラーリングするフォーリンカタログをUnity Catalogに作成します。

DatabricksワークスペースをUnity Catalogにアップグレードする」を参照してください。

Hive metastoreでレガシをクエリするUnity Catalog

Unity Catalogメタストアは付加的であるため、Databricks のワークスペースごとのHiveメタストアと共に使用できます。Hive metastoreは、3 レベルの名前空間に hive_metastore という最上位のカタログとして表示されます。

たとえば、レガシ Hive metastore のsalesスキーマで sales_raw というテーブルを参照するには、次の表記を使用します。

SQL
Python
R
Scala

SQL
SELECT * from hive_metastore.sales.sales_raw;

Python
display(spark.table("hive_metastore.sales.sales_raw"))

R
library(SparkR)

display(tableToDF("hive_metastore.sales.sales_raw"))

Scala
display(spark.table("hive_metastore.sales.sales_raw"))

USE ステートメントでカタログとスキーマを指定することもできます。

SQL
Python
R
Scala

SQL
USE hive_metastore.sales;
SELECT * from sales_raw;

Python
spark.sql("USE hive_metastore.sales")
display(spark.table("sales_raw"))

R
library(SparkR)

sql("USE hive_metastore.sales")
display(tableToDF("sales_raw"))

Scala
spark.sql("USE hive_metastore.sales")
display(spark.table("sales_raw"))

レガシーなHiveメタストアと比較したUnity Catalogのアクセス制御

Hiveメタストアでレガシーテーブルアクセスコントロールを設定した場合、 Databricksは、標準アクセスモードで実行されているクラスターにおいては、hive_metastore カタログ内のデータに対して、これらのアクセス制御を引き続き適用します。

Unity Catalog のアクセスモデルは、従来のアクセス制御とは少し異なります。

メタストア : Unity Catalog はアカウントレベルのオブジェクトであり、 Hive metastore はワークスペースレベルのオブジェクトです。 hive_metastoreカタログ内で定義された権限は、常にワークスペース内のローカルユーザーとグループを参照します。
アカウントグループ : Access control ポリシー in Unity Catalog はアカウントグループに適用され、 Hive metastore のアクセス制御ポリシーはワークスペース-local グループに適用されます。「グループソース」を参照してください。
カタログまたはスキーマ内のオブジェクトに対するすべての操作には、カタログとスキーマに対するUSE CATALOGおよびUSE SCHEMAのパーミッションが必要です。テーブルに対するプリンシパルの権限に関係なく、プリンシパルは、スキーマにアクセスするための親カタログに対する USE CATALOG 権限と、スキーマ内のオブジェクトにアクセスするための USE SCHEMA 権限も必要です。一方、ワークスペースレベルのテーブルアクセスコントロールでは、ルートカタログで USAGE を付与すると、すべてのデータベースに対する USAGE が自動的に付与されますが、ルートカタログでの USAGE は必要ありません。
ビュー : Unity Catalog では、ビューの所有者は、ビューの参照されるテーブルとビューの所有者である必要はありません。SELECT権限があれば、ビューの親スキーマのUSE SCHEMAと親カタログのUSE CATALOGとともに十分です。ワークスペースレベルのテーブルアクセスコントロールでは、ビューの所有者は、参照されるすべてのテーブルとビューの所有者である必要があります。
ANY FILE または ANONYMOUS FUNCTIONのサポートなし : Unity Catalog には、特権のないユーザーが特権コードを実行できるようにするANY FILEまたはANONYMOUS FUNCTIONのセキュリティ保護可能なオブジェクトの概念はありません。
DENYはサポートされていません : Unity Catalog 特権モデルは、最小特権の原則に基づいて構築されています。付与されていない特権は、暗黙的に拒否されます。
READ_METADATA権限がありません : Unity Catalog は、メタデータの表示へのアクセスを別の方法で管理します。Unity Catalog権限に関するリファレンスを参照してください。

Unity CatalogオブジェクトとHive metastoreオブジェクト間の結合

3 レベルの名前空間表記を使用すると、 Unity Catalog メタストアのデータを従来の Hive metastoreのデータと結合できます。

注記

レガシ Hive metastore のデータとの結合は、そのデータが存在するワークスペースでのみ機能します。このような結合を別のワークスペースで実行しようとすると、エラーが発生します。 Databricks では、従来のテーブルとビューを Unity Catalog にアップグレードすることをお勧めします。

次の例では、order_id フィールドが等しい場合に、レガシ Hive metastore メタストアの sales_current テーブルと Unity Catalog メタストアの sales_historical テーブルを結合します。

SQL
Python
R
Scala

SQL
SELECT * FROM hive_metastore.sales.sales_current
JOIN main.shared_sales.sales_historical
ON hive_metastore.sales.sales_current.order_id = main.shared_sales.sales_historical.order_id;

Python
dfCurrent = spark.table("hive_metastore.sales.sales_current")
dfHistorical = spark.table("main.shared_sales.sales_historical")

display(dfCurrent.join(
  other = dfHistorical,
  on = dfCurrent.order_id == dfHistorical.order_id
))

R
library(SparkR)

dfCurrent = tableToDF("hive_metastore.sales.sales_current")
dfHistorical = tableToDF("main.shared_sales.sales_historical")

display(join(
  x = dfCurrent,
  y = dfHistorical,
  joinExpr = dfCurrent$order_id == dfHistorical$order_id))

Scala
val dfCurrent = spark.table("hive_metastore.sales.sales_current")
val dfHistorical = spark.table("main.shared_sales.sales_historical")

display(dfCurrent.join(
  right = dfHistorical,
  joinExprs = dfCurrent("order_id") === dfHistorical("order_id")
))

デフォルトカタログ

デフォルトカタログは、 Unity Catalogが有効になっているワークスペースごとに構成されます。

データ操作を実行するときに最上位のカタログ名を省略すると、デフォルトのカタログが想定されます。

ワークスペースに対して最初に構成されたデフォルトカタログは、ワークスペースが Unity Catalogに対してどのように有効にされたかによって異なります。

ワークスペースが自動的に Unity Catalog 有効になっている場合、 ワークスペースカタログ はデフォルトカタログとして設定されています。 Unity Catalog の概要を参照してください。
ワークスペースで手動で Unity Catalog が有効になっている場合、hive_metastore カタログはデフォルトカタログとして設定されています。

既存のワークスペース内で Hive メタストアから Unity Catalog に移行する場合は、完全に移行を完了していない場合は、 Hive メタストアを参照する既存のコードに影響を与えないように、hive_metastore をデフォルトカタログとして使用するのが合理的です。

デフォルトカタログを取得して切り替える方法については、「デフォルトカタログの管理」を参照してください

クラスタースコープのデータアクセス権限

Hive metastore を Unity Catalogと共に使用すると、クラスターに関連付けられたデータアクセス資格情報は、Hive metastoreデータへのアクセスに使用されますが、Unity Catalogに登録されているデータへのアクセスには使用されません。

ユーザーが Unity Catalog の外部にあるパス (テーブルまたは外部ロケーションとして登録されていないパスなど) にアクセスする場合は、クラスターに割り当てられたアクセス資格情報が使用されます。

Hive metastoreデータベースの接続制限

Databricksがホストする従来のHive metastoreには、並列 (アクティブ) 接続や 1 時間あたりの接続数などの、信頼性を確保するためのリソース制限があります。ワークロードがこれらの制限を超えると、クラスターとジョブでメタストア接続エラーが発生したり、起動に失敗したりする可能性があります。

これらの制限に達しないようにするには:

Unity Catalogへの移行 ：最も効果的な方法は、テーブルをアップグレードし、 Hive metastoreへの直接アクセスを無効にすることです。 Unity Catalog従来のHive metastore使用しないため、 Hive metastore固有のデータベース接続制限は適用されなくなりました。 DatabricksワークスペースをUnity Catalogにアップグレードする」を参照してください。
ワークロードオーケストレーションを最適化してピーク同時実行をスムーズにします 。同期したジョブとクラスターの起動を回避し、バーストファンアウトを制限し、接続制限違反の可能性を高める一時的なHive metastoreアクティビティのスパイクを最小限に抑えます。

移行後にHive metastoreアクセスを無効にする

テーブルをUnity Catalogに移行した後、 Databricks Hive metastoreへの直接アクセスを明示的に無効にすることを推奨します。もちろん、 Hive metastoreへのアクセスを明示的に無効にしない限り、 Databricksコンピュートクラスターは移行後も Hive Hive metastoreストアに接続し続けます。

Hive metastoreへの直接アクセスをワークスペース全体で無効にすることも、コンピュートクラスターごとに個別に無効にすることもできます。 Databricksワークスペースで使用されるHive metastoreへのアクセスを無効にする」を参照してください。

Hive metastoreでレガシ をクエリするUnity Catalog​

レガシーなHiveメタストアと比較したUnity Catalogのアクセス制御​

Unity CatalogオブジェクトとHive metastoreオブジェクト間の結合​

デフォルトカタログ​

クラスター スコープのデータ アクセス権限​

Hive metastoreデータベースの接続制限​

移行後にHive metastoreアクセスを無効にする​