Pular para o conteúdo principal

Guia rápido para preparação de dados

O desempenho BI de alta qualidade depende da eficácia com que os dados são preparados e entregues a partir do data warehouse. Ao adotar padrões arquitetônicos, aplicar uma estrutura semântica e usar otimizações direcionadas, você pode reduzir a complexidade das consultas, melhorar a capacidade de resposta do painel e diminuir os custos compute .

A tabela a seguir resume as práticas recomendadas, seu impacto esperado, a documentação relacionada e as ações correlatas. Este conteúdo destina-se a engenheiros de dados, desenvolvedores BI e autores de dashboards que projetam, otimizam e mantêm cargas de trabalho analíticas no ambiente de análise de dados.

Preparação de dados

Melhores práticas

Impacto

Documentos

Itens de ação

Adote uma arquitetura de medalhão

Acelera a transformação de dados brutos em produtos de dados confiáveis e prontos para uso, facilitando o consumo.

Revisar e implementar camadas de medalhão

Utilize clusteringlíquida

Melhora o desempenho das consultas com a omissão de arquivos e dados.

Aplicar a tabelas grandes com padrões de filtro

Use as tabelas

O Databricks gerencia e otimiza automaticamente a camada de armazenamento e o desempenho das consultas.

Crie tabelas para seus dados

Utilize a otimização preditiva ou otimize as tabelas manualmente.

Permite um melhor desempenho das consultas, otimizando o tamanho e a disposição dos arquivos, excluindo arquivos antigos e atualizando as estatísticas.

Habilitar para tabelas de produção ou otimização programática regular e analisar tabelas após alterações de dados.

Dados do modelo em um padrão de esquema em estrela

Facilita a consulta e o consumo dos dados.

Projete tabelas de fatos e dimensões.

Evite tipos de dados amplos e colunas de alta cardinalidade.

Otimiza o tamanho do modelo de dados e o consumo de memória, além de melhorar a eficiência das consultas.

Analise os tipos de dados e a cardinalidade.

Declare a chave primária e a chave estrangeira (com RELY)

Otimiza consultas eliminando junções e agregações desnecessárias.

Defina a chave nas tabelas de fatos e dimensões.

Usar colunas geradas automaticamente

Reduz a necessidade de calcular valores no momento da consulta.

Identificar campos calculados com frequência

Utilize visões materializadas e tabelas persistentes.

Melhora o desempenho ao pré-agregar dados para as consultas mais comuns e que exigem muitos recursos.

Criar visualização agregada para consultas comuns