はじめに: ノートブックからデータをクエリして視覚化する
この入門記事では、Databricks ノートブックを使用して、SQL、Python、Scala、R を使用して Unity Catalog に保存されているサンプル データをクエリし、クエリ結果をノートブックで視覚化する方法について説明します。
要件
この記事のタスクを完了するには、次の要件を満たす必要があります。
ワークスペースでUnity Catalog が有効になっている必要があります。 Unity Catalogの使用開始に関する情報については、 Unity Catalogのセットアップと管理」を参照してください。
既存のコンピュート リソースを使用するか、新しいコンピュート リソースを作成するには、アクセス許可が必要です。 「Databricks の使用を開始する」または「Databricks 管理者に問い合わせてください」を参照してください。
ステップ1: 新しいアカウントを作成する
ワークスペースにノートブックを作成するには、サイドバーで「新規」をクリックし、 「新聞」をクリックします。 ワークスペースに空白のノートブックが開きます。
ノートブックの作成と管理の詳細については、「ノートブックの管理」を参照してください。
ステップ2: テーブルをクエリする
選択した言語を使用して、Unity Catalog のsamples.nyctaxi.trips
テーブルをクエリします。
次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の
samples.nyctaxi.trips
テーブルをクエリした結果を表示します。SELECT * FROM samples.nyctaxi.trips
display(spark.read.table("samples.nyctaxi.trips"))
display(spark.read.table("samples.nyctaxi.trips"))
library(SparkR) display(sql("SELECT * FROM samples.nyctaxi.trips"))
Shift+Enter
を押すとセルが実行され、次のセルに移動します。クエリの結果がノートブックに表示されます。
ステップ 3: データを表示する
乗車距離別の平均運賃額を、乗車地の郵便番号でグループ化して表示します。
[テーブル] タブの横にある [+] をクリックし、 [ビジュアライゼーション]をクリックします。
ビジュアライゼーションエディタが表示されます。
[ビジュアライゼーションのタイプ] ドロップダウンで、 [バー] が選択されていることを確認します。
[X] 列で [
fare_amount
] を選択します。[Y] 列で [
trip_distance
] を選択します。集計の種類として [
Average
] を選択します。グループ化列として
pickup_zip
を選択します。[保存]をクリックします。
次のステップ
CSVファイルからUnity Catalogにデータを追加してデータを視覚化する方法について詳しくは、「はじめに: シリアル番号からCSVデータをインポートして視覚化する」を参照してください。
Apache Spark を使用して Databricks にデータをロードする方法については、 「チュートリアル: Apache Spark DataFrames を使用してデータをロードおよび変換する」を参照してください。
Databricks へのデータの取り込みの詳細については、 「Databricks レイクハウスへのデータの取り込み」を参照してください。
Databricks を使用したデータのクエリの詳細については、 「データのクエリ」を参照してください。
視覚化の詳細については、 「Databricks ノートブックの視覚化」を参照してください。