Databricks ノートブックと SQL エディターでの視覚化
Databricks には、ノートブックや SQL エディターを操作する際に、データから直接グラフやビジュアライゼーションを作成するための強力な組み込みツールがあります。このページでは、ノートブックと SQL エディターで視覚化を作成、編集、管理する方法について説明します。AI/BI ダッシュボードの視覚化については、「 ダッシュボードの視覚化」を参照してください。
ノートブックまたは SQL エディターから作成できるビジュアライゼーションのタイプを表示するには、「 ビジュアライゼーションのタイプ」を参照してください。
視覚化する結果セットの生成
このページで使用する結果セットを生成するには、次のコードを使用します。
- SQL
- Python
SQL エディターで次のクエリを実行します。
USE CATALOG samples;
SELECT
hour(tpep_dropoff_datetime) as dropoff_hour,
COUNT(*) AS num
FROM samples.nyctaxi.trips
WHERE pickup_zip in ['10001', '10002']
GROUP BY 1;
ノートブックの Python セルから次のコードを実行します。
from pyspark.sql.functions import hour, col
pickupzip = '10001' # Example value for pickupzip
df = spark.table("samples.nyctaxi.trips")
result_df = df.filter(col("pickup_zip") == pickupzip) \
.groupBy(hour(col("tpep_dropoff_datetime")).alias("dropoff_hour")) \
.count() \
.withColumnRenamed("count", "num")
display(result_df)
新しいビジュアライゼーションの作成
ビジュアライゼーションは、結果テーブルが表示されるのと同じ UI で作成できます。ノートブックで作業している場合は、データプロファイリングを生成して、 DataFrames とテーブルの要約統計と視覚的な知見を提供することもできます。 データプロファイリングの詳細については、「 データプロファイリングの生成」を参照してください。
-
ビジュアライゼーションを作成するには、結果の上にある 「+ 」をクリックし、「 ビジュアライゼーション」 を選択してビジュアライゼーションエディタを開きます。
タブ :::タブ-item[SQL エディター]
:::
タブ-item[ノートブック]
::: ::::
-
[視覚化の種類 ] ドロップダウンで、種類を選択します。次に、ビジュアリゼーションに表示するデータを選択します。
-
設定を選択したら、[ 保存 ] をクリックします。
ビジュアライゼーションの削除、複製、または編集
ビジュアリゼーションまたはデータプロファイリングを削除、複製、または編集するには、タブ名の右側にある下向きの矢印をクリックします。 メニューからダッシュボードを作成することもできます。
セルにデータプロファイリングが含まれている場合、または SQL以外の言語を実行している場合、関連するビジュアライゼーションとデータプロファイリングはノートブックダッシュボードにのみ追加できます。 SQL セルの場合、ドロップダウンに追加の [ ダッシュボードに追加 ] メニュー項目が表示されます。「ダッシュボードへのビジュアリゼーションの追加」を参照してください。
- SQL editor
- Notebook
名前を直接クリックして、その場で名前を編集することで、タブの名前を変更することもできます。
ビジュアライゼーションの編集
ビジュアライゼーションを編集するには:
- ビジュアライゼーション タブの下向き矢印をクリックします。次に、[ 編集 ] をクリックします。
- ビジュアライゼーション エディタ のタブを使用して、チャートのさまざまな部分にアクセスして編集します。
ビジュアライゼーションのクローン作成
ビジュアライゼーションをクローンするには、ビジュアライゼーション タブの下向き矢印をクリックします。次に、[ 複製] をクリックします。
ビジュアライゼーションでの集計の有効化
横棒グラフ、折れ線グラフ、面グラフ、円グラフ、ヒートマップグラフの場合、クエリを変更して集計列を追加するのではなく、ビジュアライゼーションで直接集計を追加します。このアプローチには、次の利点があります。
- 結果テーブルを生成するコードを変更する必要はありません。
- 集計を変更すると、シナリオベースのデータ分析をすばやく実行できます。
- 集計は、テーブルに表示された最初の64,000行だけでなく、データセット全体に適用される。
集計は以下のビジュアライゼーションで利用可能です:
- 折れ線
- 棒
- 領域
- 円グラフ
- ヒートマップ
- ヒストグラム
集計では、折れ線と棒グラフを同じグラフに表示するような、組み合わせ表示はサポートしていません。
Y軸の列を集約してビジュアライゼーションを行うには:
-
新しいグラフを作成するか、既存のグラフを編集して、視覚化エディターを開きます。「
This visualization uses an old configuration. New visualizations support aggregating data directly within the editor
」というメッセージが表示された場合は、集計を使用する前にビジュアライゼーションを再作成する必要があります。 -
[Y軸] 列の横にある集計の種類を、数値の種類として次から選択します。
- 合計 (デフォルト)
- 平均
- カウント
- 個別のカウント
- 最大
- 最小
- 中央値
または、文字列型の場合は以下から選択します。
- カウント
- 個別のカウント
-
「保存 」をクリックします。視覚化には、集計する行数が表示されます。
場合によっては、Y 軸の列で集計を使用しないことがあります。集計をオフにするには、[ Y 列] の横にあるケバブ メニュー をクリックし、[ 集計を使用する] のチェックを外します。
ビジュアライゼーションの色の編集
ビジュアライゼーションの色は、ビジュアライゼーションを作成するとき、または編集するときにカスタマイズできます。
-
ビジュアライゼーションを作成または編集します。
-
[ 色 ] をクリックします。
-
色を変更するには、四角をクリックし、次のいずれかの方法で新しい色を選択します。
- カラーセレクターでクリックする。
- 16進数を入力する。
-
カラーセレクターの外側の任意の場所をクリックして閉じます。
-
Visualization Editor で Save をクリックして、変更を保存します。
シリーズを一時的に非表示または表示する
ビジュアライゼーション内の系列を非表示にするには、凡例で系列をクリックします。 系列を再度表示するには、凡例でもう一度クリックします。
単一の系列のみを表示するには、凡例内の系列をダブルクリックします。他の系列を表示するには、それぞれの系列をクリックしてください。
シリーズ選択
グラフで分析する特定の系列を選択するには、次のコマンドを使用します。
- 1 つの凡例項目をクリックして、そのシリーズを選択します
- 凡例項目を Cmd/Ctrl + クリックして、複数のシリーズを選択または選択解除します
並べ替えられたツールチップ
折れ線グラフと積み上げられていない棒グラフでツールチップを大きさの順に並べて使用すると、分析が容易になります。
ズーム
データ密度の高いチャートの場合、個々のデータポイントを拡大すると、詳細を調査したり、外れ値をトリミングしたりするのに役立ちます。 グラフを拡大するには、キャンバスをクリックしてドラッグします。 ズームをクリアするには、キャンバスにカーソルを合わせ、ビジュアライゼーションの右上隅にある [ ズームのクリア ] ボタンをクリックします。
ビジュアライゼーションを PNG ファイルとしてダウンロードする
ビジュアライゼーションを PNG ファイルとしてダウンロードするには、キャンバスにカーソルを合わせ、右上隅にあるダウンロード アイコンをクリックします。
pngファイルがデバイスにダウンロードされます。
ダッシュボードにビジュアリゼーションを追加する
- タブ名の右にある下向きの矢印をクリックします。
- [ ダッシュボードに追加 ] を選択します。利用可能なダッシュボードビューのリストが、メニューオプション [ 新しいダッシュボードに追加 ] と共に表示されます。
- ダッシュボードを選択するか、 新しいダッシュボードに追加 を選択します。 ダッシュボードが開き、新しく追加されたビジュアライゼーションが表示されます。
従来のビジュアライゼーション
最新バージョンのグラフ ビジュアライゼーションは、デフォルトでオンになっています。このセクションの設定では、古いグラフで作業するとき、または最新バージョンをオフにしている場合に発生する可能性のある従来の視覚化について説明します。
視覚化ツール
ビジュアライゼーション エディターでグラフの右上にカーソルを合わせると、Plotly ツールバーが表示され、選択、ズーム、パンなどの操作を実行できます。
ツールバーが表示されない場合は、管理者が ツールバーの表示を無効にしています。
カスタムカラーパレット
デフォルトでは、レガシーダッシュボードがカスタムカラーパレットを使用している場合、ビジュアリゼーションの色の選択肢は無視されます。この設定をオーバーライドするには、「 視覚化に異なる色のパラッテを使用する」を参照してください。