Guia rápido para preparação de dados
O desempenho BI de alta qualidade depende da eficácia com que os dados são preparados e entregues a partir do data warehouse. Ao adotar padrões arquitetônicos, aplicar uma estrutura semântica e usar otimizações direcionadas, você pode reduzir a complexidade das consultas, melhorar a capacidade de resposta do painel e diminuir os custos compute .
A tabela a seguir resume as práticas recomendadas, seu impacto esperado, a documentação relacionada e as ações correlatas. Este conteúdo destina-se a engenheiros de dados, desenvolvedores BI e autores de dashboards que projetam, otimizam e mantêm cargas de trabalho analíticas no ambiente de análise de dados.
Preparação de dados
Melhores práticas | Impacto | Documentos | Itens de ação |
|---|---|---|---|
Adote uma arquitetura de medalhão | Acelera a transformação de dados brutos em produtos de dados confiáveis e prontos para uso, facilitando o consumo. | Revisar e implementar camadas de medalhão | |
Utilize clusteringlíquida | Melhora o desempenho das consultas com a omissão de arquivos e dados. | Aplicar a tabelas grandes com padrões de filtro | |
Use as tabelas | O Databricks gerencia e otimiza automaticamente a camada de armazenamento e o desempenho das consultas. | Crie tabelas para seus dados | |
Utilize a otimização preditiva ou otimize as tabelas manualmente. | Permite um melhor desempenho das consultas, otimizando o tamanho e a disposição dos arquivos, excluindo arquivos antigos e atualizando as estatísticas. | Habilitar para tabelas de produção ou otimização programática regular e analisar tabelas após alterações de dados. | |
Dados do modelo em um padrão de esquema em estrela | Facilita a consulta e o consumo dos dados. | Projete tabelas de fatos e dimensões. | |
Evite tipos de dados amplos e colunas de alta cardinalidade. | Otimiza o tamanho do modelo de dados e o consumo de memória, além de melhorar a eficiência das consultas. | Analise os tipos de dados e a cardinalidade. | |
Declare a chave primária e a chave estrangeira (com RELY) | Otimiza consultas eliminando junções e agregações desnecessárias. | Defina a chave nas tabelas de fatos e dimensões. | |
Usar colunas geradas automaticamente | Reduz a necessidade de calcular valores no momento da consulta. | Identificar campos calculados com frequência | |
Utilize visões materializadas e tabelas persistentes. | Melhora o desempenho ao pré-agregar dados para as consultas mais comuns e que exigem muitos recursos. | Criar visualização agregada para consultas comuns |