メインコンテンツまでスキップ

Unity Catalog GA リリースノート

important

このドキュメントは廃止されており、更新されない可能性があります。 このコンテンツに記載されている製品、サービス、またはテクノロジはサポートされなくなりました。 「Unity Catalog とは」を参照してください。

2022年8月25日

Unity Catalog が Databricks で一般公開されました。

この記事では、GA リリース日時点の Unity Catalog について説明します。 主に、パブリック プレビュー以降に Unity Catalog に追加された機能と更新に焦点を当てています。 Unity Catalog の最新情報については、「 Unity Catalog とは」を参照してください。 GA 以降の Unity Catalog の更新について説明するリリースノートについては、Databricks プラットフォームのリリースノートDatabricks Runtime リリースノートのバージョンと互換性をご覧ください。

メタストアの制限とリソースクォータ

2022年8月25日現在

  • Databricks アカウントは、リージョンごとに 1 つのメタストアのみを持つことができます
  • メタストアには、最大 1000 個のカタログを含めることができます。
  • カタログには、最大 10,000 個のスキーマを含めることができます。
  • スキーマには、最大 10,000 個のテーブルを含めることができます。

現在の Unity Catalog のクォータについては、「 リソース クォータ」を参照してください。

GA でサポートされているストレージ形式

2022年8月25日現在:

  • すべてのマネージド Unity Catalog テーブルは、 Delta Lake
  • 外部 Unity Catalog テーブルと外部ロケーションは、デルタ レイク、JSON、CSV、Avro、Parquet、ORC、およびテキスト データをサポートします。

現在 Unity Catalog でサポートされているテーブル形式については、「 ファイル形式のサポート」を参照してください。

アカウント コンソールから Unity Catalog リソースを管理する

Databricks アカウント コンソール UI を使用して、次の操作を行います。

サポートされているクラスターの種類と Databricks Runtime バージョン

Unity Catalog には、11.1 以降 Databricks Runtime 実行するクラスターが必要です。 Unity Catalog は、すべての SQLウェアハウス コンピュート バージョンでデフォルトによってサポートされています。

以前のバージョンの Databricks Runtime では、Unity Catalog のプレビュー バージョンがサポートされていました。 以前のバージョンの Databricks Runtime で実行されているクラスターでは、 Unity Catalog GA のすべての機能がサポートされているわけではありません。

Unity Catalog では、新しいクラスターを作成するときに、次のいずれかのアクセス モードが必要です。

  • 共有

    • 言語: SQL または Python
    • 複数のユーザーが共有できる安全なクラスタリング。 クラスタリング ユーザーは、互いのデータや資格情報を表示できないように、完全に分離されています。
  • シングルユーザー

    • 言語:SQL、Scala、Python、R
    • 指定した 1 人のユーザーのみが使用できる安全なクラスター。

クラスター アクセス モードの詳細については、「 アクセス モード」を参照してください。

以降の バージョンで更新された 機能に関する情報については、各バージョンのUnity Catalog Databricks Runtimeリリースノート を参照してください。

システムテーブル

information_schema は、Unity Catalog データアセットで完全にサポートされています。 各メタストアには、 system と呼ばれるカタログが含まれており、このカタログにはメタストア スコープの information_schemaが含まれています。 情報スキーマを参照してください。information_schema を使用して、次のような質問に答えることができます。

「カタログごとのテーブル数をカウントする」

SQL
SELECT table_catalog, count(table_name)
FROM system.information_schema.tables
GROUP BY 1
ORDER by 2 DESC

「過去 24 時間以内に変更されたすべてのテーブルを表示する」

SQL
SELECT table_name, table_owner, created_by, last_altered, last_altered_by, table_catalog
FROM system.information_schema.tables
WHERE datediff(now(), last_altered) < 1

構造化ストリーミングのサポート

構造化ストリーミング ワークロードが Unity Catalog でサポートされるようになりました。 詳細と制限事項については、「 制限事項」を参照してください。

SQL 関数

ユーザー定義の SQL 関数が Unity Catalog で完全にサポートされるようになりました。 SQL UDF の作成方法と使用方法については、CREATE FUNCTION (SQL と Python) を参照してください。

SQLの外部ロケーションの 構文Unity Catalog

Spark SQL では、次のような外部ロケーションに対して、標準のデータ定義コマンドとデータ定義言語コマンドがサポートされるようになりました。

SQL
CREATE | DROP | ALTER | DESCRIBE | SHOW EXTERNAL LOCATION

また、GRANTREVOKESHOW with SQLを使用して外部ロケーションの権限を管理および表示することもできます。 外部ロケーションを参照してください。

構文の例:

SQL
CREATE EXTERNAL LOCATION <your-location-name>
URL `<your-location-path>'
WITH (CREDENTIAL <your-credential-name>);

GRANT READ FILES, WRITE FILES, CREATE EXTERNAL TABLE ON EXTERNAL LOCATION `<your-location-name>`
TO `finance`;

GA での Unity Catalog の制限事項

2022 年 8 月 25 日現在、Unity Catalog には次の制限がありました。 現在の制限事項については、「 制限事項」を参照してください。

  • Scala、R、および機械学習 Runtime を使用するワークロードは、シングル ユーザー アクセス モードを使用したクラスターでのみサポートされます。 これらの言語のワークロードでは、行レベルまたは列レベルのセキュリティに動的ビューを使用できません。

  • シャロークローンは、Unity Catalog をクローンのソースまたはターゲットとして使用する場合、サポートされません。

  • バケット化は、Unity Catalogテーブルではサポートされません。Unity Catalogでバケットテーブルを作成しようとするコマンドを実行すると、例外がスローされます。

  • 一部のクラスターのみがUnity Catalogにアクセスし、他のクラスターがアクセスしない場合、複数のリージョンのワークスペースから同じパスまたはDelta Lakeテーブルに書き込むと、パフォーマンスの信頼性が低下する可能性があります。

  • Unity Catalog への データフレーム 書き込み操作の上書きモードは、Delta テーブルでのみサポートされ、他のファイル形式ではサポートされていません。 ユーザーは、親スキーマに対する CREATE 権限を持ち、既存のオブジェクトの所有者である必要があります。

  • 現在、ストリーミングには次の制限があります。

    • 共有アクセスモードを使用したクラスターではサポートされていません。 ストリーミング ワークロードの場合は、シングル ユーザー アクセス モードを使用する必要があります。
    • 非同期チェックポイント設定はまだサポートされていません。
    • Databricks Runtime バージョン 11.2 以下では、all-purpose または ジョブ クラスターで 30 日以上続くストリーミング クエリは例外をスローします。実行時間の長いストリーミング クエリの場合は、自動ジョブ再試行を構成するか、Databricks Runtime 11.3 以降を使用します。
  • DLT パイプラインからの Unity Catalog テーブルの参照は、現在サポートされていません。

  • ワークスペースで以前に作成したグループは、Unity Catalog の GRANT ステートメントでは使用できません。 これは、ワークスペースにまたがることができるグループの一貫したビューを確保するためです。 GRANTステートメントでグループ を使用するには、アカウントコンソールでグループを作成し、プリンシパルまたはグループ管理 (SCIM、Okta、Microsoft Entra ID コネクタ、Terraformなど) の自動化を更新して、ワークスペースエンドポイントではなくアカウントエンドポイントを参照するようにします。

GA での Unity Catalog の可用性リージョン

2022 年 8 月 25 日現在、Unity Catalog は次のリージョンで利用可能でした。 現在サポートされているリージョンの一覧については、「 Databricks のクラウドとリージョン」を参照してください