メインコンテンツまでスキップ

作業の開始: ノートブックからのデータのクエリと視覚化

この入門記事では、Databricks ノートブックを使用して、SQL、Python、Scala、R を使用して Unity Catalog に格納されているサンプル データのクエリを実行し、ノートブックでクエリ結果を視覚化する手順について説明します。

必要条件

この記事のタスクを完了するには、次の要件を満たす必要があります。

  • ワークスペースで Unity Catalog が有効になっている必要があります。 Unity Catalogの使用を開始する方法については、「Unity Catalogの設定と管理」を参照してください。
  • 既存のコンピュート リソースを使用するか、新しいコンピュート リソースを作成するには、アクセス許可が必要です。 「Databricks の使用を開始する」または「Databricks 管理者に問い合わせてください」を参照してください。

ステップ 1: 新しいノートブックを作成する

ワークスペースにノートブックを作成するには、サイドバーの「新しいアイコン 新規 」をクリックし、「 ノートブック 」をクリックします。空白のノートブックがワークスペースで開きます。

ノートブックの作成と管理の詳細については、「 ノートブックの管理」を参照してください。

ステップ 2: テーブルのクエリを実行する

選択した言語を使用して、 Unity Catalog で samples.nyctaxi.trips テーブルをクエリします。

  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の samples.nyctaxi.trips テーブルに対してクエリを実行した結果を表示します。
SQL
SELECT * FROM samples.nyctaxi.trips
  1. Shift+Enterを押してセルを実行し、次のセルに移動します。

    クエリ結果がノートブックに表示されます。

ステップ 3: データを表示する

乗車距離ごとの平均運賃額を、ピックアップの郵便番号でグループ化して表示します。

  1. テーブル タブの横にある + をクリックし、 ビジュアライゼーション をクリックします。

    ビジュアライゼーションエディタが表示されます。

  2. [ビジュアライゼーションのタイプ] ドロップダウンで、 [バー] が選択されていることを確認します。

  3. [X] 列 で [fare_amount] を選択します。

  4. [Y] 列 で [trip_distance] を選択します。

  5. 集計タイプとして [ Average ] を選択します。

  6. [グループ化] 列として [pickup_zip] を選択します。

    棒グラフ

  7. [ 保存 ]をクリックします。

次のステップ