Tipos de visualização
Este artigo descreve os tipos de visualizações disponíveis para uso no Databricks Notebook e no Databricks SQL e mostra como criar um exemplo de cada tipo de visualização.
Gráfico de barras
Os gráficos de barras representam a mudança nas métricas ao longo do tempo ou mostram a proporcionalidade, semelhante a um gráfico de pizza .
Observação
Os gráficos de barras oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico de barras, foram definidos os seguintes valores:
Coluna X:
coluna dataset :
o_orderdate
Nível de data:
Months
Colunas Y:
coluna dataset :
o_totalprice
Tipo de agregação:
Sum
Agrupar por (coluna dataset ):
o_orderpriority
Empilhamento:
Stack
Nome do eixo X (substituir valor default ):
Order month
Nome do eixo Y (substituir valor default ):
Total price
Opções de configuração: para opções de configuração de gráfico de barras, consulte opções de configuração de gráfico.
querySQL: Para esta visualização de gráfico de barras, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de linha
Os gráficos de linhas apresentam a mudança em uma ou mais métricas ao longo do tempo.
Observação
Os gráficos de linhas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico de linhas, foram definidos os seguintes valores:
Coluna X:
coluna dataset :
o_orderdate
Nível de data:
Years
Colunas Y:
coluna dataset :
o_totalprice
Tipo de agregação:
Average
Agrupar por (coluna dataset ):
o_orderpriority
Nome do eixo X (substituir valor default ):
Order year
Nome do eixo Y (substituir valor default ):
Average price
Opções de configuração: para opções de configuração de gráfico de linhas, consulte opções de configuração de gráfico.
querySQL: para esta visualização do gráfico de linhas, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de área
Os gráficos de área combinam o gráfico de linhas e de barras para mostrar como os valores numéricos de um ou mais grupos mudam ao longo da progressão de uma segunda variável, normalmente o tempo. Eles são frequentemente usados para mostrar as mudanças funnel vendas ao longo do tempo.
Observação
Os gráficos de área oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico de áreas, foram definidos os seguintes valores:
Coluna X:
coluna dataset :
o_orderdate
Nível de data:
Years
Colunas Y:
coluna dataset :
o_totalprice
Tipo de agregação:
Sum
Agrupar por (coluna dataset ):
o_orderpriority
Empilhamento:
Stack
Nome do eixo X (substituir valor default ):
Order year
Nome do eixo Y (substituir valor default ):
Total price
Opções de configuração: Para opções de configuração de gráfico de área, consulte opções de configuração de gráfico.
querySQL: Para esta visualização do gráfico de área, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de setores
gráficos pie mostram proporcionalidade entre métricas. Eles não se destinam a transmitir dados de séries temporais.
Observação
gráficos pie oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização de gráfico pie , os seguintes valores foram definidos:
Coluna X (coluna dataset ):
o_orderpriority
Colunas Y:
coluna dataset :
o_totalprice
Tipo de agregação:
Sum
rótulo (substituir valor default ):
Total price
Opções de configuração: para opções de configuração de gráfico pie , consulte opções de configuração de gráfico.
querySQL: para esta visualização de gráfico pie , a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráficos de histograma
Um histograma representa a frequência com que um determinado valor ocorre em um dataset. Um histograma ajuda você a entender se um dataset possui valores agrupados em um pequeno número de intervalos ou mais dispersos. Um histograma é exibido como um gráfico de barras no qual você controla o número de barras distintas (também chamadas de compartimentos).
Observação
Os gráficos de histograma suportam agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico histograma, foram definidos os seguintes valores:
Coluna X (coluna dataset ):
o_totalprice
Número de caixas: 20
Nome do eixo X (substituir valor default ):
Total price
Opções de configuração: Para opções de configuração do gráfico de histograma, consulte opções de configuração do gráfico de histograma.
querySQL: Para esta visualização do gráfico de histograma, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de mapa de calor
Os gráficos de mapa de calor combinam recursos de gráficos de barras, empilhamento e gráficos de bolhas, permitindo visualizar o uso numérico de cores de dados. Uma paleta de cores comum para um mapa de calor mostra os valores mais altos usando cores mais quentes, como laranja ou vermelho, e os valores mais baixos usando cores mais frias, como azul ou roxo.
Por exemplo, considere o seguinte mapa de calor que visualiza as distâncias de corridas de táxi que ocorrem com mais frequência em cada dia e agrupa os resultados por dia da semana, distância e tarifa total.
Observação
Os gráficos de mapa de calor oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico de mapa de calor, os seguintes valores foram definidos:
Coluna X (coluna dataset ):
o_orderpriority
Colunas Y (coluna dataset ):
o_orderstatus
Coluna de cores:
coluna dataset :
o_totalprice
Tipo de agregação:
Average
Nome do eixo X (substituir valor default ):
Order priority
Nome do eixo Y (substituir valor default ):
Order status
Esquema de cores (substituir valor default ):
YIGnBu
Opções de configuração: Para opções de configuração de mapa de calor, consulte opções de configuração do gráfico de mapa de calor.
querySQL: para esta visualização do gráfico de mapa de calor, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders
Gráfico de dispersão
As visualizações de dispersão são comumente usadas para mostrar a relação entre duas variáveis numéricas. Além disso, uma terceira dimensão pode ser codificada com cores para mostrar como as variáveis numéricas são diferentes entre os grupos.
Observação
Os gráficos de dispersão oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico de dispersão, foram definidos os seguintes valores:
Coluna X (coluna dataset ):
l_quantity
Coluna Y (coluna dataset ):
l_extendedprice
Agrupar por (coluna dataset ):
l_returnflag
Nome do eixo X (substituir valor default ):
Quantity
Nome do eixo Y (substituir valor default ):
Extended price
Opções de configuração: Para opções de configuração de gráfico de dispersão, consulte opções de configuração de gráfico.
querySQL: Para esta visualização do gráfico de dispersão, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Gráfico de bolhas
Os gráficos de bolhas são gráficos de dispersão onde o tamanho de cada marcador de ponto reflete uma estatística relevante.
Observação
Os gráficos de bolhas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico de bolhas, foram definidos os seguintes valores:
X (coluna dataset ):
l_quantity
Colunas Y (coluna dataset ):
l_extendedprice
Agrupar por (coluna dataset ):
l-returnflag
Coluna de tamanho de bolha (coluna dataset ):
l_tax
Coeficiente de tamanho da bolha: 20
Nome do eixo X (substituir valor default ):
Quantity
Nome do eixo Y (substituir valor default ):
Extended price
Opções de configuração: para opções de configuração de gráfico de bolhas, consulte opções de configuração de gráfico.
querySQL: para esta visualização do gráfico de bolhas, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Gráfico de caixa
A visualização do gráfico de caixa mostra o resumo da distribuição dos dados numéricos, opcionalmente agrupados por categoria. Usando uma visualização de gráfico de caixa, você pode comparar rapidamente os intervalos de valores entre categorias e visualizar os grupos de localidade, dispersão e assimetria dos valores por meio de seus quartis. Em cada caixa, a linha mais escura mostra o intervalo interquartil. Para obter mais informações sobre a interpretação de visualizações de gráficos de caixa, consulte os artigos do gráfico de caixa na Wikipedia.
Observação
Os gráficos de caixa suportam agregação apenas de até 64.000 linhas. Se um dataset tiver mais de 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização do box chart, foram definidos os seguintes valores:
Coluna X (coluna dataset ):
l-returnflag
Colunas Y (coluna dataset ):
l_extendedprice
Agrupar por (coluna dataset ):
l_shipmode
Nome do eixo X (substituir valor default ):
Return flag1
Nome do eixo Y (substituir valor default ):
Extended price
Opções de configuração: Para opções de configuração de gráfico de caixa, consulte opções de configuração de gráfico de caixa.
querySQL: para esta visualização do gráfico de caixa, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Gráfico combinado
Os gráficos combinados combinam gráficos de linhas e barras para apresentar as mudanças ao longo do tempo com proporcionalidade.
Observação
Os gráficos combinados oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.
Valores de configuração: Para esta visualização do gráfico combinado, foram definidos os seguintes valores:
Coluna X (coluna dataset ):
l_shipdate
Colunas Y:
Primeira coluna dataset :
l_extendedprice
Tipo de agregação: média
Segunda coluna dataset :
l_quantity
Tipo de agregação: média
Nome do eixo X (substituir valor default ):
Ship date
Nome do eixo Y esquerdo (substituir valor default ):
Quantity
Nome do eixo Y direito (substituir valor default ):
Average price
Series:
Order1 (coluna dataset ):
AVG(l_extendedprice)
Eixo Y: direito
Tipo: Linha
Order2 (coluna dataset ):
AVG(l_quantity)
Eixo Y: esquerda
Tipo: Barra
Opções de configuração: para opções de configuração de gráfico combinado, consulte opções de configuração de gráfico.
querySQL: para esta visualização de gráfico combinado, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Análise de coorte
Uma análise de coorte examina os resultados de grupos predeterminados, chamados coortes, à medida que progridem através de um conjunto de etapas. A visualização de coorte agrega apenas por datas (permite agregações mensais). Ele não faz nenhuma outra agregação de dados no conjunto de resultados. Todas as outras agregações são feitas na própria query .
Valores de configuração: para esta visualização de coorte, os seguintes valores foram definidos:
Data (intervalo) (coluna do banco de dados):
cohort_month
Estágio (coluna do banco de dados):
months
Tamanho da população do intervalo (coluna do banco de dados):
size
Valor do estágio (coluna do banco de dados):
active
Intervalo de tempo:
monthly
Opções de configuração: para opções de configuração de coorte, consulte opções de configuração do gráfico de coorte.
querySQL: para esta visualização de coorte, a seguinte query SQL foi usada para gerar o conjunto de dados.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Exibição do contador
Os contadores exibem um único valor de forma proeminente, com uma opção para compará-los com um valor de destino. Para usar contadores, especifique qual linha de dados exibir na visualização do contador para a coluna de valor e a coluna de destino.
Observação
O contador suporta apenas agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização do contador foram definidos os seguintes valores:
Coluna Valor
coluna dataset :
avg(o_totalprice)
Linha: 1
Coluna-alvo:
coluna dataset :
avg(o_totalprice)
Linha: 2
Valor alvo de formato: Habilitar
querySQL: Para esta visualização do contador, a seguinte query SQL foi usada para gerar o conjunto de dados.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Visualização de funil
A visualização funnel ajuda a analisar a mudança em métricas em diferentes estágios. Para usar o funnel, especifique uma coluna step
e uma coluna value
.
Observação
funnel oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização funnel , foram definidos os seguintes valores:
o coluna passo (coluna dataset ):
o_orderstatus
Coluna de valor (coluna dataset ):
Revenue
querySQL: para esta visualização funnel , a seguinte query SQL foi usada para gerar o conjunto de dados.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
Visualização do mapa coroplético
Nas visualizações coropléticas, as localidades geográficas, como países ou estados, são coloridas de acordo com os valores agregados de cada coluna key . A query deve retornar localizações geográficas por nome.
Observação
As visualizações Choropleth não fazem nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute na própria query .
Valores de configuração: Para esta visualização coroplética, foram definidos os seguintes valores:
Mapa (coluna dataset ):
Countries
Coluna geográfica (coluna dataset ):
Nation
Tipo geográfico: nome curto
Coluna de valor (coluna dataset ):
revenue
modo clusters : equidistante
Opções de configuração: Para opções de configuração coroplética, consulte opções de configuração coroplética.
querySQL: Para esta visualização coroplética, a seguinte query SQL foi usada para gerar o conjunto de dados.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Visualização do mapa de marcadores
Nas visualizações de marcadores, um marcador é colocado em um conjunto de coordenadas no mapa. O resultado query deve retornar pares de latitude e longitude.
Observação
O marcador não faz nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .
Este exemplo de marcador é gerado a partir de um dataset que inclui valores de latitude e longitude, que não estão disponíveis no dataset de exemplo do Databricks. Para opções de configuração coroplética, consulte opções de configuração de marcador.
Visualização de tabela dinâmica
Uma visualização de tabela dinâmica agrega registros de um resultado query em uma nova exibição tabular. É semelhante às instruções PIVOT
ou GROUP BY
em SQL. Você configura a visualização da tabela dinâmica com campos de arrastar e soltar.
Observação
As tabelas dinâmicas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados. No entanto, a tabela dinâmica (herdada) oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset tiver mais de 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização da tabela dinâmica, os seguintes valores foram definidos:
Selecione linhas (coluna dataset ):
l_retkurnflag
Selecione colunas (coluna dataset ):
l_shipmode
Célula
coluna dataset :
l_quantity
Tipo de agregação: Soma
querySQL: para esta visualização da tabela dinâmica, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.lineitem
Sankey
Um diagrama sankey visualiza o fluxo de um conjunto de valores para outro.
Observação
As visualizações Sankey não fazem nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .
querySQL: para esta visualização Sankey, a seguinte query SQL foi usada para gerar o conjunto de dados.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
sequência de explosão solar
Um diagrama sunburst ajuda a visualizar círculos concêntricos hierárquicos de uso de dados.
Observação
A sequência Sunburst não faz nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .
querySQL: para esta visualização sunburst, a seguinte query SQL foi usada para gerar o conjunto de dados.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Mesa
A visualização de tabela exibe dados em uma tabela padrão, mas com a capacidade de reordenar, ocultar e formatar manualmente os dados. Consulte Opções de tabela.
Observação
As visualizações de tabela não agregam dados no conjunto de resultados. Todas as agregações devem ser compute na própria query .
Para opções de configuração de tabela, consulte opções de configuração de tabela.
Palavra nuvem
Uma cloud de palavras representa visualmente a frequência com que uma palavra ocorre nos dados.
Observação
cloud do Word oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.
Valores de configuração: Para esta visualização clouds de palavras, foram definidos os seguintes valores: teste
Coluna Palavras (coluna dataset ):
o_comment
Limite de comprimento de palavras: 5
Limite de frequências: 2
querySQL: Para esta visualização clouds de palavras, a seguinte query SQL foi usada para gerar o conjunto de dados.
select * from samples.tpch.orders