作業の開始: ノートブックからのデータのクエリと視覚化
この入門記事では、Databricks ノートブックを使用して、SQL、Python、Scala、R を使用して Unity Catalog に格納されているサンプル データのクエリを実行し、ノートブックでクエリ結果を視覚化する手順について説明します。
必要条件
この記事のタスクを完了するには、次の要件を満たす必要があります。
- ワークスペースで Unity Catalog が有効になっている必要があります。 Unity Catalogの使用を開始する方法については、「Unity Catalogの設定と管理」を参照してください。
- 既存のコンピュート リソースを使用するか、新しいコンピュート リソースを作成するには、アクセス許可が必要です。 「Databricks の使用を開始する」または「Databricks 管理者に問い合わせてください」を参照してください。
ステップ 1: 新しいノートブックを作成する
ワークスペースにノートブックを作成するには、サイドバーの「 新規 」をクリックし、「 ノートブック 」をクリックします。空白のノートブックがワークスペースで開きます。
ノートブックの作成と管理の詳細については、「 ノートブックの管理」を参照してください。
ステップ 2: テーブルのクエリを実行する
選択した言語を使用して、 Unity Catalog で samples.nyctaxi.trips
テーブルをクエリします。
- 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の
samples.nyctaxi.trips
テーブルに対してクエリを実行した結果を表示します。
- SQL
- Python
- Scala
- R
SQL
SELECT * FROM samples.nyctaxi.trips
Python
display(spark.read.table("samples.nyctaxi.trips"))
Scala
display(spark.read.table("samples.nyctaxi.trips"))
R
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
-
Shift+Enter
を押してセルを実行し、次のセルに移動します。クエリ結果がノートブックに表示されます。
ステップ 3: データを表示する
乗車距離ごとの平均運賃額を、ピックアップの郵便番号でグループ化して表示します。
-
テーブル タブの横にある + をクリックし、 ビジュアライゼーション をクリックします。
ビジュアライゼーションエディタが表示されます。
-
[ビジュアライゼーションのタイプ] ドロップダウンで、 [バー] が選択されていることを確認します。
-
[X] 列 で [
fare_amount
] を選択します。 -
[Y] 列 で [
trip_distance
] を選択します。 -
集計タイプとして [
Average
] を選択します。 -
[グループ化] 列として [
pickup_zip
] を選択します。 -
[ 保存 ]をクリックします。
次のステップ
- CSV ファイルから Unity Catalog にデータを追加し、データを視覚化する方法については、「 作業の開始: ノートブックから CSV データをインポートして視覚化する」を参照してください。
- を使用してデータをDatabricks Apache Sparkにロードする方法については、「チュートリアル: を使用してデータをロードおよび変換Apache SparkDataFrames する」を参照してください。
- Databricks へのデータの取り込みの詳細については、「 Databricks レイクハウスへのデータの取り込み」を参照してください。
- Databricks を使用したデータのクエリの詳細については、「 データのクエリ」を参照してください。
- 視覚化の詳細については、「 Databricks ノートブックでの視覚化」を参照してください。
- 探索的データ分析 (EDA) 手法の詳細については、「 チュートリアル: Databricks ノートブックを使用した EDA 手法」を参照してください。