はじめに: ノートブックからデータをクエリして視覚化する

この入門記事では、Databricks ノートブックを使用して、SQL、Python、Scala、R を使用して Unity Catalog に保存されているサンプル データをクエリし、クエリ結果をノートブックで視覚化する方法について説明します。

要件

この記事のタスクを完了するには、次の要件を満たす必要があります。

ステップ1: 新しいアカウントを作成する

ワークスペースにノートブックを作成するには:

  1. クリック新しいアイコンサイドバーで[新規] をクリックし、 [ノートブック]をクリックします。

  2. 「ノートブックの作成」ページで、以下の操作を行います。

    • ノートブックの一意の名前を指定します。

    • ノートブックのデフォルトの言語を設定し、プロンプトが表示されたら「確認」をクリックします。

    • 「接続」メニューを使用して、コンピュートリソースを選択します。 新しいコンピュートリソースを作成するには、 「コンピュートの使用」を参照してください。

ノートブックの作成と管理の詳細については、「ノートブックの管理」を参照してください。

ステップ2: テーブルをクエリする

選択した言語を使用して、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリします。

  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリした結果を表示します。

SELECT * FROM samples.nyctaxi.trips
  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリした結果を表示します。

display(spark.read.table("samples.nyctaxi.trips"))
  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリした結果を表示します。

display(spark.read.table("samples.nyctaxi.trips"))
  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリした結果を表示します。

library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
  1. Shift+Enterを押すとセルが実行され、次のセルに移動します。

    クエリの結果がノートブックに表示されます。

ステップ3: データを表示する

乗車距離別の平均運賃額を、乗車地の郵便番号でグループ化して表示します。

  1. [テーブル] タブの横にある [+] をクリックし、 [ビジュアライゼーション]をクリックします。

    ビジュアライゼーションエディタが表示されます。

  2. [ビジュアライゼーションのタイプ] ドロップダウンで、 [バー] が選択されていることを確認します。

  3. [X] 列で [fare_amount] を選択します。

  4. [Y] 列で [trip_distance] を選択します。

  5. 集計の種類として [ Average ] を選択します。

  6. グループ化列としてpickup_zipを選択します。

    棒グラフ
  7. [保存]をクリックします。

次のステップ