メインコンテンツまでスキップ

Delta クライアントから Databricks テーブルを読み取る

このページでは、Unity REST API を使用して、外部の Delta クライアントから Unity Catalog マネージド テーブルと外部テーブルにアクセスする方法の概要について説明します。外部クライアントから外部 Delta テーブルを作成するには、「 外部クライアントからの外部 Delta テーブルの作成」を参照してください。

Iceberg REST カタログを使用して、Apache Spark や DuckDB などのサポートされている Iceberg クライアントから Databricks 上の Unity Catalog に登録されたテーブルを読み取ります。

サポートされている統合の完全な一覧については、「 Unity Catalog の統合」を参照してください

Unity REST API を使用した読み取りと書き込み

Unity REST API は、Unity Catalog に登録されているテーブルへの外部クライアントの読み取りアクセスを提供します。一部のクライアントは、テーブルの作成と既存のテーブルへの書き込みもサポートしています。

エンドポイント /api/2.1/unity-catalogを使用してアクセスを設定します。

必要条件

Databricks は、Unity Catalog の一部としてテーブルへの Unity REST API アクセスをサポートしています。 これらのエンドポイントを使用するには、ワークスペースで Unity Catalog を有効にする必要があります。 次のテーブルタイプは、Unity REST API の読み取りの対象となります。

  • Unity Catalog マネージドテーブル.
  • Unity Catalog の外部テーブル。

Unity REST API を使用して Delta クライアントから Databricks オブジェクトを読み取るためのアクセスを設定するには、次の構成手順を完了する必要があります。

Apache Spark を使用した Delta テーブルの読み取り

Apache Spark を使用して Unity Catalog で管理される外部 Delta テーブルを読み取るには、次の構成が必要です。

"spark.sql.extensions": "io.delta.sql.DeltaSparkSessionExtension",
"spark.sql.catalog.spark_catalog": "io.unitycatalog.spark.UCSingleCatalog",
"spark.sql.catalog.<uc-catalog-name>": "io.unitycatalog.spark.UCSingleCatalog",
"spark.sql.catalog.<uc-catalog-name>.uri": "<workspace-url>/api/2.1/unity-catalog",
"spark.sql.catalog.<uc-catalog-name>.token": "<token>",
"spark.sql.defaultCatalog": "<uc-catalog-name>",
"spark.hadoop.fs.gs.impl": "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem",
"spark.hadoop.fs.AbstractFileSystem.gs.impl": "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS",
"spark.jars.packages": "io.delta:delta-spark_2.12:3.2.1,io.unitycatalog:unitycatalog-spark_2.12:0.2.0",
"spark.jars": "/path/to/gcs-connector-3.0.2-shaded.jar"
注記

GCS コネクタ JAR ファイルを別途ダウンロードする必要があります。ダウンロードしたgcs-connector-3.0.2-shaded.jarファイルを指すようにspark.jarsパスを更新します。

次の変数を代入します。

  • <uc-catalog-name>: テーブルを含む Unity Catalog のカタログの名前。
  • <workspace-url>: Databricks ワークスペースの URL。
  • <token>: 統合を構成するプリンシパルの PAT トークン。
注記

上記のパッケージ バージョンは、このページの最終更新時点での最新版です。新しいバージョンが利用できる可能性があります。パッケージのバージョンが Databricks Runtime バージョンおよび Spark バージョンと互換性があることを確認します。

クラウド オブジェクト ストレージ用に Apache Spark を構成する方法の詳細については、 Unity Catalog OSS ドキュメントを参照してください。