Otimize join desempenho em Databricks
Com o site Databricks, o senhor pode criar junções entre suas tabelas de lotes ou de transmissão. Algumas junções podem ser caras. As informações a seguir podem ajudá-lo a otimizar sua associação.
Para obter mais informações sobre o join, consulte Work with join em Databricks.
compute com Photon habilitado sempre seleciona o melhor tipo de join. Veja o que é Photon?. O uso de uma versão recente do Databricks Runtime com o Photon ativado geralmente proporciona um bom desempenho do join, mas o senhor também deve considerar as seguintes recomendações:
-
As junções cruzadas são muito caras. Remova a junção cruzada de cargas de trabalho e consultas que exigem baixa latência ou recomputação frequente.
-
a ordem de adesão é importante. Ao realizar uma união múltipla, sempre join suas tabelas menores primeiro e depois join o resultado com tabelas maiores.
-
O otimizador pode ter dificuldades em consultas com muitas junções e agregações. Salvar resultados intermediários pode acelerar o planejamento de consultas e os resultados de computação.
-
Manter estatísticas atualizadas para melhorar o desempenho. A otimização preditiva atualiza e mantém as estatísticas automaticamente. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.
O senhor também pode executar a consulta
ANALYZE TABLE table_name COMPUTE STATISTICS
para atualizar as estatísticas no planejador de consultas.
Em Databricks Runtime 14.3 LTS e acima, o senhor pode modificar as colunas nas quais Delta Lake coleta estatísticas para ignorar dados e, em seguida, recomputar as estatísticas existentes no Delta log. Consulte Especificar colunas de estatísticas Delta.