Pular para o conteúdo principal

Otimize join desempenho em Databricks

Com o site Databricks, o senhor pode criar junções entre suas tabelas de lotes ou de transmissão. Algumas junções podem ser caras. As informações a seguir podem ajudá-lo a otimizar sua associação.

Para obter mais informações sobre o join, consulte Work with join em Databricks.

compute com Photon habilitado sempre seleciona o melhor tipo de join. Veja o que é Photon?. O uso de uma versão recente do Databricks Runtime com o Photon ativado geralmente proporciona um bom desempenho do join, mas o senhor também deve considerar as seguintes recomendações:

  • As junções cruzadas são muito caras. Remova a junção cruzada de cargas de trabalho e consultas que exigem baixa latência ou recomputação frequente.

  • a ordem de adesão é importante. Ao realizar uma união múltipla, sempre join suas tabelas menores primeiro e depois join o resultado com tabelas maiores.

  • O otimizador pode ter dificuldades em consultas com muitas junções e agregações. Salvar resultados intermediários pode acelerar o planejamento de consultas e os resultados de computação.

  • Manter estatísticas atualizadas para melhorar o desempenho. A otimização preditiva atualiza e mantém as estatísticas automaticamente. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.

    O senhor também pode executar a consulta ANALYZE TABLE table_name COMPUTE STATISTICS para atualizar as estatísticas no planejador de consultas.

nota

Em Databricks Runtime 14.3 LTS e acima, o senhor pode modificar as colunas nas quais Delta Lake coleta estatísticas para ignorar dados e, em seguida, recomputar as estatísticas existentes no Delta log. Consulte Especificar colunas de estatísticas Delta.