Pular para o conteúdo principal

otimização e armazenamento em cache do conjunto de dados

AI/BI Os painéis são ferramentas valiosas de análise de dados e tomada de decisões, e tempos de carregamento eficientes podem melhorar significativamente a experiência do usuário. Este artigo explica como as otimizações de cache e dataset tornam os painéis mais eficientes e com melhor desempenho.

Consultar desempenho

O senhor pode inspecionar as consultas e seu desempenho em workspace query história. O histórico de consultas mostra SQL consultas realizadas usando o warehouse SQL. Clique em Ícone da história. Query History na barra lateral para view a história da consulta. Consulte Histórico de consultas.

Para o conjunto de dados do painel, Databricks aplica otimizações de desempenho dependendo do tamanho do resultado do dataset. Para obter informações sobre limite de desempenho dataset , consulte limite de desempenho do conjunto de dados.

otimizações de conjuntos de dados

Seus painéis são otimizados para velocidade executando operações de filtragem e agregação, orientadas por filtros ou configurações de visualização, diretamente no seu navegador, quando possível. Essas otimizações de desempenho têm os seguintes limites:

tamanho do conjunto de dados

Comportamento de processamento

Pequeno (≤ 100 mil linhas e ≤ 100 MB)

Para velocidade ideal do painel, a filtragem e a agregação são executadas no seu navegador após o carregamento inicial dataset . Como essas operações são processadas localmente, elas evitam interação adicional com o data warehouse e não aparecem no histórico da consulta.

Grande (> 100 mil linhas ou > 100 MB)

A filtragem e a agregação são feitas no servidor de backend e não no seu navegador. A consulta inicial dataset é encapsulada em uma cláusula SQL WITH , e a consulta resultante aparece no histórico da consulta.

Consultas combinadas (grande conjunto de dados)

Para consultas de visualização enviadas ao backend, consultas de visualização separadas no mesmo dataset que compartilham as mesmas cláusulas GROUP BY e predicados de filtro são combinadas em uma única consulta para processamento. Nesse caso, os usuários podem ver uma consulta combinada no histórico de consultas que busca resultados para várias visualizações ou filtros.

nota

Os parâmetros substituem valores diretamente em uma consulta em tempo de execução, portanto, essas operações sempre aparecem no histórico da consulta.

Armazenamento em cache e atualização de dados

Os painéis mantêm um cache de resultados de 24 horas para otimizar os tempos de carregamento inicial, operando em uma base de melhor esforço. Isso significa que, embora o sistema sempre tente usar os resultados históricos da consulta vinculados às credenciais do painel para melhorar o desempenho, há alguns casos em que os resultados em cache não podem ser criados ou mantidos. Os dados em cache não têm limite de memória específico ou contagem fixa de consultas.

Para melhorar os tempos de carregamento, os painéis primeiro verificam o cache do painel. Se nenhum resultado de cache estiver disponível, eles verificarão o cache genérico de resultados da consulta. Embora o cache do painel possa retornar resultados obsoletos por até 24 horas, o cache de resultados da consulta nunca retorna dados obsoletos. Quando os dados subjacentes são alterados, todas as entradas do cache de resultados da consulta são invalidadas.

Para painéis de várias páginas, o seguinte se aplica:

  • A edição de um painel de rascunho carrega e armazena em cache todos os conjuntos de dados.
  • Quando os visualizadores abrem um painel publicado, somente o conjunto de dados que suporta a página ativa é executado e armazenado em cache.
  • Se um programar for definido, todo o conjunto de dados refresh de acordo com o programar, e esses resultados serão armazenados em cache.

A tabela a seguir explica como o armazenamento em cache varia de acordo com o status e as credenciais do painel:

Tipo de painel

Tipo de cache

Painel publicado com credenciais incorporadas

Cache compartilhado. Todos os espectadores veem os mesmos resultados.

Rascunho de painel ou painel publicado sem credenciais incorporadas

Cache por usuário. Os espectadores veem os resultados com base em suas permissões de dados.

Os painéis usam automaticamente os resultados da consulta em cache se os dados subjacentes permanecerem inalterados após a última consulta ou se os resultados tiverem sido recuperados há menos de 24 horas. Se existirem resultados desatualizados e os parâmetros forem aplicados ao painel, as consultas serão executadas novamente, a menos que os mesmos parâmetros tenham sido usados nas últimas 24 horas. Da mesma forma, a aplicação de filtros a um conjunto de dados com mais de 100.000 linhas faz com que as consultas sejam executadas novamente, a menos que os mesmos filtros tenham sido aplicados anteriormente nas últimas 24 horas.

Consultas agendadas

A adição de um programar a um painel publicado com credenciais incorporadas pode acelerar significativamente o processo de carregamento inicial para todos os visualizadores do painel.

Para cada atualização agendada do painel, ocorre o seguinte:

  • Toda a lógica do SQL que define a execução do conjunto de dados no intervalo de tempo designado.
  • Os resultados preenchem o cache de resultados da consulta e ajudam a melhorar o tempo de carregamento inicial do painel.