データのクエリ

データのクエリーは、Databricks内のほぼすべてのデータドリブンタスクを実行するための基本的なステップです。使用する言語やツールに関係なく、ワークロードはテーブルやその他のデータソースに対するクエリーを定義し、データから洞察を得るためのアクションを実行することから始まります。この記事では、様々なDatabricks製品でクエリーを実行するための中核となる概念と手順について概説し、ユースケースに合わせたコード例を紹介します。

次を使用してインタラクティブにデータのクエリーを実行できます。

ノートブック
SQLエディタ
ファイルエディタ
ダッシュボード

また、宣言型パイプラインまたはジョブの一部としてクエリを実行することもできます Lakeflow 。

Databricks でのストリーミングクエリの概要については、「ストリーミングデータのクエリ」を参照してください。

Databricks でクエリできるデータ

Databricksは、複数の形式とエンタープライズシステムでのデータクエリーをサポートしています。Databricksを使用してクエリーするデータは、Databricksのレイクハウス内のデータと外部データの2つに大きく分けられます。

Databricks のレイクハウスにはどのようなデータがありますか?

Databricksデータインテリジェンスプラットフォームは、デフォルトですべてのデータをDatabricksレイクハウスに格納します。

これは、基本的な CREATE TABLE ステートメントを実行して新しいテーブルを作成すると、レイクハウステーブルが作成されることを意味します。レイクハウスデータには、次のプロパティがあります。

Delta Lake形式での保存。
クラウドオブジェクトストレージでの保存。
Unity Catalogによる管理。

Databricks上のほとんどのレイクハウスのデータは、マネージドテーブルとしてUnity Catalogに登録されています。マネージドテーブルは、最も簡単な構文を提供し、ほとんどのリレーショナルデータベース管理システムの他のテーブルと同様に動作します。マネージドテーブルは、ほとんどのユースケースで推奨され、データストレージの実装の詳細について心配したくないすべてのユーザーに適しています。

アンマネージドテーブル 、または 外部テーブル は、指定されたLOCATIONで登録されたテーブルです。外部という用語は誤解を招く可能性があります。外部Deltaテーブルは依然としてレイクハウスのデータです。アンマネージドテーブルは、他の Delta リーダークライアントから直接テーブルにアクセスするユーザーに好まれる場合があります。テーブルセマンティクスの違いの概要については、「 Databricks テーブルの概要」を参照してください。

一部のレガシワークロードは、ファイルパスを介して Delta Lake データと排他的に対話し、登録するテーブルをまったく操作しない場合があります。このデータはまだレイクハウスデータですが、Unity Catalog に登録されていないため、検出が難しくなる可能性があります。

注記

ワークスペース管理者が、Unity Catalogを使用するようにデータガバナンスをアップグレードしていない可能性があります。Unity CatalogがなくてもDatabricksレイクハウスのメリットの多くを活用することはできますが、この記事やDatabricksのドキュメントに記載されているすべての機能がサポートされているわけではありません。

どのようなデータが外部と見なされますか?

Databricks レイクハウスにないデータは、外部データと見なすことができます。外部データの例としては、次のようなものがあります。

レイクハウスフェデレーションに登録されたフォーリンテーブル。
ParquetでサポートされるHive metastoreのテーブル。
JSONでサポートされるUnity Catalog内の外部テーブル。
クラウドオブジェクトストレージに保存されたCSVデータ。
Kafkaから読み取られたストリーミングデータ。

Databricks は、多くのデータソースへの接続の構成をサポートしています。「データソースと外部サービスへの接続」を参照してください。

Unity Catalogを使用することえ、複数の形式で外部システムに保存されたデータに対するアクセスを管理してテーブルを定義することができますが、データがレイクハウスに含まれるとみなされるためにはDelta Lakeが必要です。

Delta Lake は、データの完全性と一貫性を維持するために重要な Databricksのすべてのトランザクション保証を提供します。 Databricks データのトランザクション保証とその重要性について詳しく知りたい場合は、「 Databricks の ACID 保証とは」を参照してください。

ほとんどの Databricks ユーザーは、レイクハウスデータと外部データの組み合わせをクエリします。外部データとの接続は、常にデータ取り込みと ETL データをレイクハウスに取り込むパイプラインの最初のステップです。データの取り込みに関する情報については、Lakeflowコネクトの標準コネクタを参照してください。

名前によるテーブルのクエリ

テーブルとして登録されたすべてのデータに対して、Databricksはテーブル名を使用したクエリーを推奨します。

Unity Catalog を使用している場合、テーブルは <catalog-name>.<schema-name>.<table-name>.

Unity Catalogがない場合、テーブル識別子は次の形式を使用します。<schema-name>.<table-name>

注記

Databricksは、SCHEMA と DATABASE を区別しないApache SparkからSQL構文の多くを継承しています。

テーブル名によるクエリーは、すべてのDatabricks実行コンテキストおよび対応言語でサポートされています。

SQL
Python

SQL
SELECT * FROM catalog_name.schema_name.table_name

Python
spark.read.table("catalog_name.schema_name.table_name")

Unity Catalog 識別子の解決

Databricks では、クエリまたはワークロードが複数のスキーマまたはカタログに格納されているデータベースオブジェクトと対話する場合は、完全修飾識別子を使用することをお勧めします。

次の表は、部分修飾識別子と非修飾識別子の動作の概要を示しています。

識別子パターン	挙動
`catalog_name.schema_name.object_name`	識別子で指定されたデータベース・オブジェクトを参照します。
`schema_name.object_name`	現在のカタログ内の指定された `schema_name` および `object_name` に関連付けられたデータベース・オブジェクトを参照します。
`object_name`	現在のカタログとスキーマ内の指定された `object_name` に関連付けられているデータベースオブジェクトを参照します。

現在のカタログとスキーマは何ですか?

対話型のコンピュート環境では、 current_catalog() と current_schema() を使用して、現在のカタログとスキーマを確認します。

Unity Catalog で構成されたすべてのワークスペースには、ワークスペースレベルで設定されたデフォルトカタログがあります。「デフォルトカタログの管理」を参照してください。

次の表では Databricks ワークスペースのデフォルトカタログを上書きする可能性のある製品の構成について説明します。

製品	構成
汎用またはジョブコンピュート	コンピュートを設定するときは、 Spark 設定`spark.databricks.sql.initial.catalog.namespace`を設定します。
Lakeflow 宣言型パイプライン	パイプラインの設定時に指定されたカタログとスキーマは、すべてのパイプラインロジックのワークスペースのデフォルトを上書きします。

注記

デフォルトのカタログまたはスキーマは、外部システムまたはメタストアに接続するときに JDBC 構成によって設定される場合もあります。予期しないデフォルト動作が発生した場合は、 Databricks コンピュートおよび統合システムの構成を担当する管理者に連絡してください。

USE CATALOG または USE SCHEMA 構文を使用して、現在のセッションの現在のカタログまたはスキーマを指定します。現在のカタログまたはスキーマは、クエリまたはステートメントで部分修飾または非修飾の ID を使用する場合に使用されます。

ステートメント	結果
`USE CATALOG catalog_name`	指定された `catalog_name`を使用して現在のカタログを設定します。現在のスキーマを `default`に設定します。
`USE SCHEMA schema_name`	現在のカタログに指定された `schema_name` を使用して、現在のスキーマを設定します。
`USE SCHEMA catalog_name.schema_name`	指定された `catalog_name` を使用して現在のカタログを設定し、指定された `schema_name`を使用して現在のスキーマを設定します。

注記

完全修飾識別子を使用してテーブル、ビュー、関数、モデルなどのオブジェクトと対話するクエリとコマンドは、現在のカタログやスキーマを変更せず、常に指定されたオブジェクトを参照します。

パスでデータをクエリします

ファイルパスを使用して、構造化データ、半構造化データ、非構造化データをクエリできます。 Databricks 上のほとんどのファイルは、クラウドオブジェクトストレージによってサポートされます。「Databricks でのファイルの操作」を参照してください。

Databricks では、Unity Catalog を使用してクラウドオブジェクトストレージへのすべてのアクセスを構成し、直接クエリされるオブジェクトストレージの場所のボリュームを定義することをお勧めします。ボリュームは、ファイルパスのカタログ名とスキーマ名を使用して、クラウドオブジェクトストレージ内の場所とファイルに人間が読めるエイリアスを提供します。「Unity Catalog を使用してクラウドオブジェクトストレージに接続する」を参照してください。

次の例は、Unity Catalog ボリュームパスを使用してJSONデータを読み取る方法を示しています。

SQL
Python

SQL
SELECT * FROM json.`/Volumes/catalog_name/schema_name/volume_name/path/to/data`

Python
spark.read.format("json").load("/Volumes/catalog_name/schema_name/volume_name/path/to/data")

Unity Catalog ボリュームとして構成されていないクラウドの場所の場合は、URI を使用してデータを直接クエリできます。URI を使用してデータを照会するには、クラウド・オブジェクト・ストレージへのアクセスを構成する必要があります。「レガシパターンを使用して Databricks のクラウドオブジェクトストレージへのアクセスを構成する」を参照してください。

次の例は、URIJSON を使用してAzure データレイク Storage、GCS 、およびS3 のデータをクエリする方法を示しています。

SQL
Python

SQL
SELECT * FROM json.`abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data`;

SELECT * FROM json.`gs://bucket_name/path/to/data`;

SELECT * FROM json.`s3://bucket_name/path/to/data`;

Python
spark.read.format("json").load("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

spark.read.format("json").load("gs://bucket_name/path/to/data")

spark.read.format("json").load("s3://bucket_name/path/to/data")

SQLウェアハウスを使用したデータのクエリ

Databricksは、次のインターフェースでのコンピュートにSQLウェアハウスを使用します。

SQLエディタ
Databricks SQLクエリー
ダッシュボード
レガシーダッシュボード
SQLアラート

必要に応じて、SQLウェアハウスを次の製品と共に使用できます。

Databricksノートブック
Databricksファイルエディタ
Lakeflow ジョブ

SQLウェアハウスでデータをクエリーする場合は、SQL構文のみを使用できます。他のプログラミング言語とAPIはサポートされていません。

Unity Catalogに対し有効になっているワークスペースの場合、SQLウェアハウスは常にUnity Catalogを使用してデータソースへのアクセスを管理します。

SQLウェアハウスで実行されるほとんどのクエリーはテーブルをターゲットとしたものです。データファイルをターゲットとするクエリーでは、Unity Catalog ボリュームを活用してストレージの場所へのアクセスを管理する必要があります。

SQLウェアハウスで実行されるクエリでURIを直接使用すると、予期しないエラーが発生する可能性があります。

汎用コンピュートまたはジョブコンピュートを使用してデータをクエリする

Databricksノートブック、ワークフロー、ファイルエディタから実行するクエリーのほとんどは、Databricks Runtimeを使って構成されたコンピュートクラスタに対して実行されます。これらのクラスターは、インタラクティブに実行するように構成することも、ワークフローを強化する ジョブコンピュート としてデプロイすることもできます。Databricksでは、非インタラクティブなワークロードに対して常にジョブコンピュートを使用することをお勧めします。

対話型ワークロードと非対話型ワークロード

多くのユーザーは、開発中に変換が処理されている間にクエリー結果を表示するのが便利だと感じています。対話型ワークロードを汎用コンピュートからジョブコンピュートに移行すると、結果を表示するクエリーを削除することで、時間と処理コストを節約できます。

Apache Spark は遅延コード実行を使用するため、必要な場合にのみ結果が計算され、結果を強制しなければ、データソースに対する複数の変換やクエリを1つのクエリとして最適化できます。これは、 Pandasで使用される Eager 実行モードとは対照的であり、計算を順番に処理してから結果を次のメソッドに渡す必要があります。

クリーンアップされ、変換され、集計されたデータを新しいデータセットとして保存することが目標の場合は、実行をスケジュールする前に、結果を表示するクエリーをコードから削除する必要があります。

小規模なオペレーションや小規模なデータセットの場合、時間とコストはさほど節約できないかもしれません。しかし、大規模なオペレーションでは、手作業では検査できないような結果を計算してノートブックに印刷するのにかなりの時間を費やしてしまう可能性があります。結果を保存した後で、ほとんどコストをかけることなく、保存した出力から同じ結果をクエリーすることが可能です。

Databricks でクエリできるデータ​

Databricks のレイクハウスにはどのようなデータがありますか?​

どのようなデータが外部と見なされますか?​

名前によるテーブルのクエリ​

Unity Catalog 識別子の解決​

現在のカタログとスキーマは何ですか?​

パスでデータをクエリします​

SQLウェアハウスを使用したデータのクエリ​

汎用 コンピュート または ジョブ コンピュートを使用してデータをクエリする​

対話型ワークロードと非対話型ワークロード​