はじめに: ノートブックからデータをクエリして視覚化する

この入門記事では、Databricks ノートブックを使用して、SQL、Python、Scala、R を使用して Unity Catalog に保存されているサンプル データをクエリし、クエリ結果をノートブックで視覚化する方法について説明します。

要件

この記事のタスクを完了するには、次の要件を満たす必要があります。

  • ワークスペースでUnity Catalog が有効になっている必要があります。 Unity Catalogの使用開始に関する情報については、 Unity Catalogのセットアップと管理」を参照してください。

  • 既存のコンピュート リソースを使用するか、新しいコンピュート リソースを作成するには、アクセス許可が必要です。 「Databricks の使用を開始する」または「Databricks 管理者に問い合わせてください」を参照してください。

ステップ1: 新しいアカウントを作成する

ワークスペースにノートブックを作成するには、新しいアイコンサイドバーで「新規」をクリックし、 「新聞」をクリックします。 ワークスペースに空白のノートブックが開きます。

ノートブックの作成と管理の詳細については、「ノートブックの管理」を参照してください。

ステップ2: テーブルをクエリする

選択した言語を使用して、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリします。

  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリした結果を表示します。

    SELECT * FROM samples.nyctaxi.trips
    
    display(spark.read.table("samples.nyctaxi.trips"))
    
    display(spark.read.table("samples.nyctaxi.trips"))
    
    library(SparkR)
    display(sql("SELECT * FROM samples.nyctaxi.trips"))
    
  2. Shift+Enterを押すとセルが実行され、次のセルに移動します。

    クエリの結果がノートブックに表示されます。

ステップ 3: データを表示する

乗車距離別の平均運賃額を、乗車地の郵便番号でグループ化して表示します。

  1. [テーブル] タブの横にある [+] をクリックし、 [ビジュアライゼーション]をクリックします。

    ビジュアライゼーションエディタが表示されます。

  2. [ビジュアライゼーションのタイプ] ドロップダウンで、 [バー] が選択されていることを確認します。

  3. [X] 列で [fare_amount] を選択します。

  4. [Y] 列で [trip_distance] を選択します。

  5. 集計の種類として [ Average ] を選択します。

  6. グループ化列としてpickup_zipを選択します。

    棒グラフ
  7. [保存]をクリックします。

次のステップ