Tipos de visualização

Este artigo descreve os tipos de visualizações disponíveis para uso no Databricks Notebook e no Databricks SQL e mostra como criar um exemplo de cada tipo de visualização.

Gráfico de barras

Os gráficos de barras representam a mudança nas métricas ao longo do tempo ou mostram a proporcionalidade, semelhante a um gráfico de pizza .

Observação

Os gráficos de barras oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de gráfico de barras

Valores de configuração: Para esta visualização do gráfico de barras, foram definidos os seguintes valores:

  • Coluna X:

    • coluna dataset : o_orderdate

    • Nível de data: Months

  • Colunas Y:

    • coluna dataset : o_totalprice

    • Tipo de agregação: Sum

  • Agrupar por (coluna dataset ): o_orderpriority

  • Empilhamento: Stack

  • Nome do eixo X (substituir valor default ): Order month

  • Nome do eixo Y (substituir valor default ): Total price

Opções de configuração: para opções de configuração de gráfico de barras, consulte opções de configuração de gráfico.

querySQL: Para esta visualização de gráfico de barras, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de linha

Os gráficos de linhas apresentam a mudança em uma ou mais métricas ao longo do tempo.

Observação

Os gráficos de linhas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de gráfico de linha

Valores de configuração: Para esta visualização do gráfico de linhas, foram definidos os seguintes valores:

  • Coluna X:

    • coluna dataset : o_orderdate

    • Nível de data: Years

  • Colunas Y:

    • coluna dataset : o_totalprice

    • Tipo de agregação: Average

  • Agrupar por (coluna dataset ): o_orderpriority

  • Nome do eixo X (substituir valor default ): Order year

  • Nome do eixo Y (substituir valor default ): Average price

Opções de configuração: para opções de configuração de gráfico de linhas, consulte opções de configuração de gráfico.

querySQL: para esta visualização do gráfico de linhas, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de área

Os gráficos de área combinam o gráfico de linhas e de barras para mostrar como os valores numéricos de um ou mais grupos mudam ao longo da progressão de uma segunda variável, normalmente o tempo. Eles são frequentemente usados para mostrar as mudanças funnel vendas ao longo do tempo.

Observação

Os gráficos de área oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de gráfico de área

Valores de configuração: Para esta visualização do gráfico de áreas, foram definidos os seguintes valores:

  • Coluna X:

    • coluna dataset : o_orderdate

    • Nível de data: Years

  • Colunas Y:

    • coluna dataset : o_totalprice

    • Tipo de agregação: Sum

  • Agrupar por (coluna dataset ): o_orderpriority

  • Empilhamento: Stack

  • Nome do eixo X (substituir valor default ): Order year

  • Nome do eixo Y (substituir valor default ): Total price

Opções de configuração: Para opções de configuração de gráfico de área, consulte opções de configuração de gráfico.

querySQL: Para esta visualização do gráfico de área, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de setores

gráficos pie mostram proporcionalidade entre métricas. Eles não se destinam a transmitir dados de séries temporais.

Observação

gráficos pie oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

exemplo de gráfico pie

Valores de configuração: Para esta visualização de gráfico pie , os seguintes valores foram definidos:

  • Coluna X (coluna dataset ): o_orderpriority

  • Colunas Y:

    • coluna dataset : o_totalprice

    • Tipo de agregação: Sum

  • rótulo (substituir valor default ): Total price

Opções de configuração: para opções de configuração de gráfico pie , consulte opções de configuração de gráfico.

querySQL: para esta visualização de gráfico pie , a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráficos de histograma

Um histograma representa a frequência com que um determinado valor ocorre em um dataset. Um histograma ajuda você a entender se um dataset possui valores agrupados em um pequeno número de intervalos ou mais dispersos. Um histograma é exibido como um gráfico de barras no qual você controla o número de barras distintas (também chamadas de compartimentos).

Observação

Os gráficos de histograma suportam agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de gráfico de histograma

Valores de configuração: Para esta visualização do gráfico histograma, foram definidos os seguintes valores:

  • Coluna X (coluna dataset ): o_totalprice

  • Número de caixas: 20

  • Nome do eixo X (substituir valor default ): Total price

Opções de configuração: Para opções de configuração do gráfico de histograma, consulte opções de configuração do gráfico de histograma.

querySQL: Para esta visualização do gráfico de histograma, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de mapa de calor

Os gráficos de mapa de calor combinam recursos de gráficos de barras, empilhamento e gráficos de bolhas, permitindo visualizar o uso numérico de cores de dados. Uma paleta de cores comum para um mapa de calor mostra os valores mais altos usando cores mais quentes, como laranja ou vermelho, e os valores mais baixos usando cores mais frias, como azul ou roxo.

Por exemplo, considere o seguinte mapa de calor que visualiza as distâncias de corridas de táxi que ocorrem com mais frequência em cada dia e agrupa os resultados por dia da semana, distância e tarifa total.

Observação

Os gráficos de mapa de calor oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de mapa de calor

Valores de configuração: Para esta visualização do gráfico de mapa de calor, os seguintes valores foram definidos:

  • Coluna X (coluna dataset ): o_orderpriority

  • Colunas Y (coluna dataset ): o_orderstatus

  • Coluna de cores:

    • coluna dataset : o_totalprice

    • Tipo de agregação: Average

  • Nome do eixo X (substituir valor default ): Order priority

  • Nome do eixo Y (substituir valor default ): Order status

  • Esquema de cores (substituir valor default ): YIGnBu

Opções de configuração: Para opções de configuração de mapa de calor, consulte opções de configuração do gráfico de mapa de calor.

querySQL: para esta visualização do gráfico de mapa de calor, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de dispersão

As visualizações de dispersão são comumente usadas para mostrar a relação entre duas variáveis numéricas. Além disso, uma terceira dimensão pode ser codificada com cores para mostrar como as variáveis numéricas são diferentes entre os grupos.

Observação

Os gráficos de dispersão oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de dispersão

Valores de configuração: Para esta visualização do gráfico de dispersão, foram definidos os seguintes valores:

  • Coluna X (coluna dataset ): l_quantity

  • Coluna Y (coluna dataset ): l_extendedprice

  • Agrupar por (coluna dataset ): l_returnflag

  • Nome do eixo X (substituir valor default ): Quantity

  • Nome do eixo Y (substituir valor default ): Extended price

Opções de configuração: Para opções de configuração de gráfico de dispersão, consulte opções de configuração de gráfico.

querySQL: Para esta visualização do gráfico de dispersão, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico de bolhas

Os gráficos de bolhas são gráficos de dispersão onde o tamanho de cada marcador de ponto reflete uma estatística relevante.

Observação

Os gráficos de bolhas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de bolha

Valores de configuração: Para esta visualização do gráfico de bolhas, foram definidos os seguintes valores:

  • X (coluna dataset ): l_quantity

  • Colunas Y (coluna dataset ): l_extendedprice

  • Agrupar por (coluna dataset ): l-returnflag

  • Coluna de tamanho de bolha (coluna dataset ): l_tax

  • Coeficiente de tamanho da bolha: 20

  • Nome do eixo X (substituir valor default ): Quantity

  • Nome do eixo Y (substituir valor default ): Extended price

Opções de configuração: para opções de configuração de gráfico de bolhas, consulte opções de configuração de gráfico.

querySQL: para esta visualização do gráfico de bolhas, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico de caixa

A visualização do gráfico de caixa mostra o resumo da distribuição dos dados numéricos, opcionalmente agrupados por categoria. Usando uma visualização de gráfico de caixa, você pode comparar rapidamente os intervalos de valores entre categorias e visualizar os grupos de localidade, dispersão e assimetria dos valores por meio de seus quartis. Em cada caixa, a linha mais escura mostra o intervalo interquartil. Para obter mais informações sobre a interpretação de visualizações de gráficos de caixa, consulte os artigos do gráfico de caixa na Wikipedia.

Observação

Os gráficos de caixa suportam agregação apenas de até 64.000 linhas. Se um dataset tiver mais de 64.000 linhas, os dados serão truncados.

Exemplo de gráfico de caixa

Valores de configuração: Para esta visualização do box chart, foram definidos os seguintes valores:

  • Coluna X (coluna dataset ): l-returnflag

  • Colunas Y (coluna dataset ): l_extendedprice

  • Agrupar por (coluna dataset ): l_shipmode

  • Nome do eixo X (substituir valor default ): Return flag1

  • Nome do eixo Y (substituir valor default ): Extended price

Opções de configuração: Para opções de configuração de gráfico de caixa, consulte opções de configuração de gráfico de caixa.

querySQL: para esta visualização do gráfico de caixa, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico combinado

Os gráficos combinados combinam gráficos de linhas e barras para apresentar as mudanças ao longo do tempo com proporcionalidade.

Observação

Os gráficos combinados oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Exemplo de combinação

Valores de configuração: Para esta visualização do gráfico combinado, foram definidos os seguintes valores:

  • Coluna X (coluna dataset ): l_shipdate

  • Colunas Y:

    • Primeira coluna dataset : l_extendedprice

    • Tipo de agregação: média

    • Segunda coluna dataset : l_quantity

    • Tipo de agregação: média

  • Nome do eixo X (substituir valor default ): Ship date

  • Nome do eixo Y esquerdo (substituir valor default ): Quantity

  • Nome do eixo Y direito (substituir valor default ): Average price

  • Series:

    • Order1 (coluna dataset ): AVG(l_extendedprice)

    • Eixo Y: direito

    • Tipo: Linha

    • Order2 (coluna dataset ): AVG(l_quantity)

    • Eixo Y: esquerda

    • Tipo: Barra

Opções de configuração: para opções de configuração de gráfico combinado, consulte opções de configuração de gráfico.

querySQL: para esta visualização de gráfico combinado, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Análise de coorte

Uma análise de coorte examina os resultados de grupos predeterminados, chamados coortes, à medida que progridem através de um conjunto de etapas. A visualização de coorte agrega apenas por datas (permite agregações mensais). Ele não faz nenhuma outra agregação de dados no conjunto de resultados. Todas as outras agregações são feitas na própria query .

Exemplo de coorte

Valores de configuração: para esta visualização de coorte, os seguintes valores foram definidos:

  • Data (intervalo) (coluna do banco de dados): cohort_month

  • Estágio (coluna do banco de dados): months

  • Tamanho da população do intervalo (coluna do banco de dados): size

  • Valor do estágio (coluna do banco de dados): active

  • Intervalo de tempo: monthly

Opções de configuração: para opções de configuração de coorte, consulte opções de configuração do gráfico de coorte.

querySQL: para esta visualização de coorte, a seguinte query SQL foi usada para gerar o conjunto de dados.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Exibição do contador

Os contadores exibem um único valor de forma proeminente, com uma opção para compará-los com um valor de destino. Para usar contadores, especifique qual linha de dados exibir na visualização do contador para a coluna de valor e a coluna de destino.

Observação

O contador suporta apenas agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.

Contra-exemplo

Valores de configuração: Para esta visualização do contador foram definidos os seguintes valores:

  • Coluna Valor

    • coluna dataset : avg(o_totalprice)

    • Linha: 1

  • Coluna-alvo:

    • coluna dataset : avg(o_totalprice)

    • Linha: 2

  • Valor alvo de formato: Habilitar

querySQL: Para esta visualização do contador, a seguinte query SQL foi usada para gerar o conjunto de dados.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Visualização de funil

A visualização funnel ajuda a analisar a mudança em métricas em diferentes estágios. Para usar o funnel, especifique uma coluna step e uma coluna value.

Observação

funnel oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.

exemplo funnel

Valores de configuração: Para esta visualização funnel , foram definidos os seguintes valores:

  • o coluna passo (coluna dataset ): o_orderstatus

  • Coluna de valor (coluna dataset ): Revenue

querySQL: para esta visualização funnel , a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Visualização do mapa coroplético

Nas visualizações coropléticas, as localidades geográficas, como países ou estados, são coloridas de acordo com os valores agregados de cada coluna key . A query deve retornar localizações geográficas por nome.

Observação

As visualizações Choropleth não fazem nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute na própria query .

Exemplo de mapa coroplético

Valores de configuração: Para esta visualização coroplética, foram definidos os seguintes valores:

  • Mapa (coluna dataset ): Countries

  • Coluna geográfica (coluna dataset ): Nation

  • Tipo geográfico: nome curto

  • Coluna de valor (coluna dataset ): revenue

  • modo clusters : equidistante

Opções de configuração: Para opções de configuração coroplética, consulte opções de configuração coroplética.

querySQL: Para esta visualização coroplética, a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Visualização do mapa de marcadores

Nas visualizações de marcadores, um marcador é colocado em um conjunto de coordenadas no mapa. O resultado query deve retornar pares de latitude e longitude.

Observação

O marcador não faz nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .

Exemplo de marcador de mapa

Este exemplo de marcador é gerado a partir de um dataset que inclui valores de latitude e longitude, que não estão disponíveis no dataset de exemplo do Databricks. Para opções de configuração coroplética, consulte opções de configuração de marcador.

Visualização de tabela dinâmica

Uma visualização de tabela dinâmica agrega registros de um resultado query em uma nova exibição tabular. É semelhante às instruções PIVOT ou GROUP BY em SQL. Você configura a visualização da tabela dinâmica com campos de arrastar e soltar.

Observação

As tabelas dinâmicas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados. No entanto, a tabela dinâmica (herdada) oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset tiver mais de 64.000 linhas, os dados serão truncados.

Exemplo de tabela dinâmica

Valores de configuração: Para esta visualização da tabela dinâmica, os seguintes valores foram definidos:

  • Selecione linhas (coluna dataset ): l_retkurnflag

  • Selecione colunas (coluna dataset ): l_shipmode

  • Célula

    • coluna dataset : l_quantity

    • Tipo de agregação: Soma

querySQL: para esta visualização da tabela dinâmica, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Sankey

Um diagrama sankey visualiza o fluxo de um conjunto de valores para outro.

Observação

As visualizações Sankey não fazem nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .

exemplo sankey

querySQL: para esta visualização Sankey, a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

sequência de explosão solar

Um diagrama sunburst ajuda a visualizar círculos concêntricos hierárquicos de uso de dados.

Observação

A sequência Sunburst não faz nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .

Exemplo de raio de sol

querySQL: para esta visualização sunburst, a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Mesa

A visualização de tabela exibe dados em uma tabela padrão, mas com a capacidade de reordenar, ocultar e formatar manualmente os dados. Consulte Opções de tabela.

Observação

As visualizações de tabela não agregam dados no conjunto de resultados. Todas as agregações devem ser compute na própria query .

Para opções de configuração de tabela, consulte opções de configuração de tabela.

Palavra nuvem

Uma cloud de palavras representa visualmente a frequência com que uma palavra ocorre nos dados.

Observação

cloud do Word oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.

Exemplo cloud de palavras

Valores de configuração: Para esta visualização clouds de palavras, foram definidos os seguintes valores: teste

  • Coluna Palavras (coluna dataset ): o_comment

  • Limite de comprimento de palavras: 5

  • Limite de frequências: 2

querySQL: Para esta visualização clouds de palavras, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders