ビジュアライゼーションの種類

この記事では、Databricks ノートブックと Databricks SQL で使用できる視覚化の種類の概要を説明し、各視覚化の種類の例を作成する方法を示します。

棒グラフ

棒グラフは、 円グラフ と同様に、時間の経過に伴うメトリクスの変化を表したり、比例性を示したりします。

棒グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

棒グラフの例

構成値: この棒グラフの視覚化では、次の値が設定されています。

  • X 列:

    • データセット列: o_orderdate

    • 日付レベル: Months

  • Y 列:

    • データセット列: o_totalprice

    • 集計の種類: Sum

  • グループ化 (データセット列): o_orderpriority

  • スタッキング: Stack

  • X 軸名 (デフォルト値を上書き): Order month

  • Y 軸名 (デフォルトの値を上書き): Total price

構成オプション: 棒グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。

SQL クエリー: この棒グラフの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.orders

折れ線グラフ

折れ線グラフは、時間の経過に伴う 1 つ以上のメトリクスの変化を示します。

折れ線グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

折れ線グラフの例

構成値: この折れ線グラフの視覚化では、次の値が設定されました。

  • X 列:

    • データセット列: o_orderdate

    • 日付レベル: Years

  • Y 列:

    • データセット列: o_totalprice

    • 集計の種類: Average

  • グループ化 (データセット列): o_orderpriority

  • X 軸名 (デフォルト値を上書き): Order year

  • Y 軸名 (デフォルトの値を上書き): Average price

構成オプション: 折れ線グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。

SQL クエリー: この折れ線グラフの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.orders

面グラフ

面グラフは、折れ線グラフと棒グラフを組み合わせて、1 つ以上のグループの数値が 2 番目の変数 (通常は時間の変数) の進行に伴ってどのように変化するかを示します。 これらは、時間の経過に伴う売上ファネルの変化を示すためによく使用されます。

面グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

面グラフの例

構成値: この面グラフ ビジュアライゼーションでは、次の値が設定されています。

  • X 列:

    • データセット列: o_orderdate

    • 日付レベル: Years

  • Y 列:

    • データセット列: o_totalprice

    • 集計の種類: Sum

  • グループ化 (データセット列): o_orderpriority

  • スタッキング: Stack

  • X 軸名 (デフォルト値を上書き): Order year

  • Y 軸名 (デフォルトの値を上書き): Total price

構成オプション: 面グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。

SQL クエリー: この面グラフの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.orders

円グラフ

円グラフは、メトリクス間の比例を示します。 時系列データを伝達するための ものではありません

円グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

円グラフの例

構成値: この JPY グラフの視覚化では、次の値が設定されました。

  • X 列 (データセット列): o_orderpriority

  • Y 列:

    • データセット列: o_totalprice

    • 集計の種類: Sum

  • ラベル (デフォルトの値を上書き): Total price

構成オプション: 円グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。

SQL クエリー: この EUR チャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

ヒストグラムチャート

ヒストグラムは、特定の値がデータセット内で発生する頻度をプロットします。 ヒストグラムは、データセットの値が少数の範囲にクラスター化されているか、より分散しているかを理解するのに役立ちます。 ヒストグラムは、個別のバー (ビンとも呼ばれます) の数を制御する棒グラフとして表示されます。

ヒストグラム チャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

ヒストグラムチャートの例

構成値: このヒストグラム チャート ビジュアライゼーションでは、次の値が設定されました。

  • X 列 (データセット列): o_totalprice

  • ビンの数:20

  • X 軸名 (デフォルト値を上書き): Total price

構成オプション: ヒストグラム・チャートの構成オプションについては、「 ヒストグラム・チャートの構成オプション」を参照してください。

SQL クエリー: このヒストグラム チャートの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.orders

ヒートマップチャート

ヒートマップチャートは、棒グラフ、積み上げ、バブルチャートの機能をブレンドしたもので、色を使用して数値データを視覚化できます。 ヒートマップの一般的なカラーパレットでは、オレンジや赤などの暖かい色を使用して最大値が表示され、青や紫などの明るい色を使用して最小値が表示されます。

たとえば、各日に最も頻繁に発生するタクシー乗車距離を視覚化し、結果を曜日、距離、および合計料金でグループ化する次のヒートマップについて考えてみます。

ヒートマップチャートはバックエンド集計をサポートし、結果セットを切り捨てずに64K行を超えるデータを返すクエリーをサポートします。

ヒートマップの例

構成値: このヒートマップチャートの視覚化では、次の値が設定されています。

  • X 列 (データセット列): o_orderpriority

  • Y 列 (データセット列): o_orderstatus

  • カラーカラム:

    • データセット列: o_totalprice

    • 集計の種類: Average

  • X 軸名 (デフォルト値を上書き): Order priority

  • Y 軸名(デフォルト値を上書き): Order status

  • 配色 (既定の値をオーバーライド): YIGnBu

構成オプション: ヒートマップ構成オプションについては、「 ヒートマップ・チャート構成オプション」を参照してください。

SQL クエリー: このヒートマップチャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

散布図

散布図の視覚化は、2 つの数値変数間の関係を示すためによく使用されます。 さらに、3 番目の次元を色でエンコードして、数値変数がグループ間でどのように異なるかを示すことができます。

散布図はバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

散布図の例

構成値: この散布図の視覚化では、次の値が設定されました。

  • X 列 (データセット列): l_quantity

  • Y 列 (データセット列): l_extendedprice

  • グループ化 (データセット列): l_returnflag

  • X 軸名 (デフォルト値を上書き): Quantity

  • Y 軸名 (デフォルトの値を上書き): Extended price

構成オプション: 散布図の構成オプションについては、「 グラフの構成オプション」を参照してください。

SQL クエリー: この散布図の視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

バブルチャート

バブルチャートは、各ポイントマーカーのサイズが関連するメトリクスを反映する散布図です。

バブル チャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

バブルの例

構成値: このバブル チャート ビジュアライゼーションでは、次の値が設定されています。

  • X (データセット列): l_quantity

  • Y 列 (データセット列): l_extendedprice

  • グループ化 (データセット列): l-returnflag

  • バブル サイズ列 (データセット列): l_tax

  • バブルサイズ係数:20

  • X 軸名 (デフォルト値を上書き): Quantity

  • Y 軸名 (デフォルトの値を上書き): Extended price

構成オプション: バブル・チャートの構成オプションについては、「 グラフの構成オプション」を参照してください。

SQL クエリー: このバブル チャートの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

ボックスチャート

ボックス チャートのビジュアライゼーションには、数値データの分布の概要が表示され、必要に応じてカテゴリ別にグループ化されます。 ボックス チャートのビジュアライゼーションを使用すると、カテゴリ間で値の範囲をすばやく比較し、値の局所性、広がり、歪度グループを四分位数で視覚化できます。 各ボックスで、暗い線は四分位範囲を示します。 ボックスプロットのビジュアライゼーションの解釈の詳細については、Wikipediaの ボックスチャートの記事 を参照してください。

ボックス チャートでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。

ボックス チャートの例

構成値: このボックス チャート ビジュアライゼーションでは、次の値が設定されています。

  • X 列 (データセット列): l-returnflag

  • Y 列 (データセット列): l_extendedprice

  • グループ化 (データセット列): l_shipmode

  • X 軸名 (デフォルト値を上書き): Return flag1

  • Y 軸名 (デフォルトの値を上書き): Extended price

構成オプション: ボックス・チャート構成オプションについては、「 ボックス・チャート構成オプション」を参照してください。

SQL クエリー: この箱ひげ図の視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

コンボ チャート

複合グラフは、 折れ線 グラフと グラフを組み合わせて、時間の経過に伴う変化を比例して表示します。

複合グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

コンボの例

構成値: このコンボ チャートの視覚化では、次の値が設定されています。

  • X 列 (データセット列): l_shipdate

  • Y 列:

    • 最初のデータセット列: l_extendedprice

    • 集計の種類: 平均

    • 2 番目のデータセット列: l_quantity

    • 集計の種類: 平均

  • X 軸名 (デフォルト値を上書き): Ship date

  • 左 Y 軸名 (デフォルトの値を上書き): Quantity

  • 右 Y 軸名 (デフォルト値を上書き): Average price

  • 級数:

    • 順序 1 (データセット列): AVG(l_extendedprice)

    • Y 軸: 右

    • タイプ: ライン

    • 順序 2 (データセット列): AVG(l_quantity)

    • Y 軸: 左

    • タイプ: バー

構成オプション: 複合グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。

SQL クエリー: このコンボ チャートの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

コホート分析

コホート分析では、コホートと呼ばれる所定のグループが一連の段階を進むにつれて、それらの結果を調べます。 コホートの視覚化では、日付に対してのみ集計されます (月単位の集計が可能です)。 結果セット内のデータの他の集計は行われません。 他のすべての集計は、クエリー自体の中で行われます。

コホートの例

構成値: このコーホートの視覚化では、次の値が設定されています。

  • 日付 (バケット) (データベース列): cohort_month

  • ステージ (データベース列): months

  • バケットの母集団サイズ (データベース列): size

  • ステージ値 (データベース列): active

  • 時間間隔: monthly

構成オプション: コホート構成オプションについては、「 コホート チャート構成オプション」を参照してください。

SQL クエリー: このコホートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

カウンター表示

カウンターは 1 つの値を目立つように表示し、ターゲット値と比較するオプションがあります。 カウンターを使用するには、[ 値列 ] および [ターゲットカラム] のカウンター ビジュアリゼーションに表示するデータ行を指定します。

カウンターは、最大 64,000 行の集計のみをサポートします。 データセットが 64,000 行を超える場合、データは切り捨てられます。

反例

構成値: このカウンターの視覚化では、次の値が設定されています。

  • 値列

    • データセット列: avg(o_totalprice)

    • 行: 1

  • ターゲット列:

    • データセット列: avg(o_totalprice)

    • 行: 2

  • ターゲット値の書式設定: 有効

SQL クエリー: このカウンターの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

ファネル ビジュアライゼーション

ファネルの視覚化は、さまざまな段階でのメトリクスの変化を分析するのに役立ちます。 ファネルを使用するには、 step 列と value 列を指定します。

ファネルは最大64,000行の集計のみをサポートします。 データセットが 64,000 行を超える場合、データは切り捨てられます。

ファネルの例

構成値: このファネル ビジュアライゼーションでは、次の値が設定されました。

  • ステップ列 (データセット列): o_orderstatus

  • 値列 (データセット列): Revenue

SQL クエリー: このファネル ビジュアライゼーションでは、次の SQL クエリーを使用してデータ セットを生成しました。

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

コロプレスマップの視覚化

コロプレス ビジュアライゼーションでは、国や州などの地理的な地域は、各キー列の集計値に従って色分けされます。 クエリーは、地理的な場所を名前で返す必要があります。

コロプレスの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。

マップコロプレスの例

構成値: このコロプレスの視覚化では、次の値が設定されています。

  • マップ (データセット列): Countries

  • 地理的列 (データセット列): Nation

  • 地域タイプ: 略称

  • 値列 (データセット列): revenue

  • クラスター モード: 等距離

構成オプション: コロプレス構成オプションについては、「 コロプレス構成オプション」を参照してください。

SQL クエリー: このコロプレスの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

マーカーマップの視覚化

マーカー ビジュアライゼーションでは、マーカーはマップ上の一連の座標に配置されます。 クエリーの結果は、緯度と経度のペアを返す必要があります。

Marker は、結果セット内のデータの集計を行いません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。

地図マーカーの例

このマーカーの例は、緯度と経度の両方の値を含むデータセットから生成されますが、Databricks サンプル データセットでは使用できません。 コロプレス構成オプションについては、 マーカー構成オプションを参照してください。

ピボットテーブルの視覚化

ピボットテーブルのビジュアライゼーションは、クエリー結果からレコードを新しい表形式で表示します。 これは、SQL の PIVOT ステートメントまたは GROUP BY ステートメントに似ています。 ピボットテーブルのビジュアライゼーションは、ドラッグアンドドロップフィールドで構成します。

ピボットテーブルはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。 ただし、ピボットテーブル(レガシー)は最大64,000行の集計のみをサポートします。 データセットが 64,000 行を超える場合、データは切り捨てられます。

ピボットテーブルの例

構成値: このピボット テーブルの視覚化では、次の値が設定されました。

  • 行の選択 (データセット列): l_retkurnflag

  • 列の選択 (データセット列): l_shipmode

  • セル

    • データセット列: l_quantity

    • 集計の種類: 合計

SQL クエリー: このピボット テーブルの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

サンキー

サンキー図は、ある値のセットから別の値のセットへのフローを視覚化します。

サンキーの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。

サンキーの例

SQL クエリー: このサンキー ビジュアライゼーションでは、次の SQL クエリーを使用してデータ セットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

サンバーストシーケンス

サンバースト図は、同心円を使用して階層データを視覚化するのに役立ちます。

Sunburst シーケンスでは、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。

サンバーストの例

SQL クエリー: このサンバーストの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

テーブル

テーブル ビジュアライゼーションでは、標準テーブルにデータが表示されますが、データを手動で並べ替えたり、非表示にしたり、書式設定したりできます。 テーブルオプションを参照してください。

テーブルの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。

テーブル構成オプションについては、「 テーブル構成オプション」を参照してください。

ワードクラウド

ワードクラウドは、データ内で単語が出現する頻度を視覚的に表します。

ワードクラウドは、最大64,000行の集計のみをサポートします。 データセットが 64,000 行を超える場合、データは切り捨てられます。

ワードクラウドの例

構成値: この単語クラウドの視覚化では、次の値が設定されました。

  • 単語列 (データセット列): o_comment

  • 単語数の制限: 5

  • 周波数制限:2

SQL クエリー: この単語クラウドの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders