チュートリアル: ノートブックからのデータのクエリと視覚化

このチュートリアルでは、Databricks ノートブックを使用して、SQL、Python、Scala、R を使用して Unity Catalog に保存されているサンプルデータをクエリし、クエリ結果をノートブックで視覚化する方法について説明します。

必要条件

この記事のタスクを完了するには、次の要件を満たす必要があります。

ワークスペースで Unity Catalog が有効になっている必要があります。Unity Catalogの使用を開始する方法については、「Unity Catalogの使用を開始する」を参照してください。
既存のコンピュートリソースを使用するか、新しいコンピュートリソースを作成するには、権限が必要です。「コンピューティング」を参照するか、 Databricks管理者に問い合わせてください。

ワークスペースにノートブックを作成するには、サイドバーの「新規」をクリックし、「 ノートブック 」をクリックします。空白のノートブックがワークスペースで開きます。

ノートブックの作成と管理の詳細については、「ノートブックの管理」を参照してください。

選択した言語を使用して、 Unity Catalog で samples.nyctaxi.trips テーブルをクエリします。

次のコードをコピーして、新しい空のノートブックセルに貼り付けます。このコードは、Unity Catalog の samples.nyctaxi.trips テーブルに対してクエリを実行した結果を表示します。

SQL
SELECT * FROM samples.nyctaxi.trips

Python
display(spark.read.table("samples.nyctaxi.trips"))

Scala
display(spark.read.table("samples.nyctaxi.trips"))

R
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))

乗車距離ごとの平均運賃額を、ピックアップの郵便番号でグループ化して表示します。

CSV ファイルから Unity Catalog にデータを追加し、データを視覚化する方法については、「チュートリアル: ノートブックから CSV データをインポートして視覚化する」を参照してください。
を使用してデータをDatabricks Apache Sparkにロードする方法については、「チュートリアル: を使用してデータをロードおよび変換Apache Sparkデータフレームする」を参照してください。
Databricksへのデータの取り込みについて詳しくは、Lakeflowコネクトの標準コネクタを参照してください。
Databricks を使用したデータのクエリの詳細については、「データのクエリ」を参照してください。
視覚化の詳細については、「 Databricks ノートブックと SQL エディターでの視覚化」を参照してください。
探索的データ分析 (EDA) 手法の詳細については、「チュートリアル: Databricks ノートブックを使用した EDA 手法」を参照してください。