Práticas recomendadas para configurar o clássico Databricks Job
Conheça as recomendações gerais sobre recursos e configurações que podem beneficiar o clássico Databricks Job.
O Classic Job exige que o senhor crie e adapte configurações específicas de compute recurso, políticas e opções de desempenho que atendam às necessidades de seus cenários de transformação de dados. As recomendações específicas para configurar o tamanho e os tipos de compute recurso variam de acordo com a carga de trabalho. Analise estas práticas recomendadas antes de começar a configurar seu fluxo de trabalho clássico para evitar custos adicionais indesejados ou desempenho insatisfatório.
Em alguns casos, o site serverless compute pode ser uma solução mais simples para seus cenários. serverless compute for Job gerenciar toda a infraestrutura, eliminando as seguintes considerações. Veja a execução de seu Databricks Job com serverless compute para fluxo de trabalho.
transmissão estructurada fluxo de trabalho têm recomendações específicas de configuração. Consulte Considerações sobre produção para transmissão estruturada.
Melhores práticas
Habilitar o Photon Acceleration para casos de uso comuns
Databricks O senhor recomenda habilitar o Photon Acceleration, usar versões recentes do Databricks Runtime e usar o compute configurado para Unity Catalog.
Use o modo de acesso padrão (antigo modo de acesso compartilhado)
Databricks recomenda o uso do modo de acesso padrão para o Job. Consulte Modos de acesso.
Usar política de cluster
Databricks recomenda que os administradores do workspace definam políticas de cluster para o Job e apliquem essas políticas a todos os usuários que configuram o Job.
política de cluster permitem que os administradores do workspace definam controles de custo e limitem as opções de configuração dos usuários. Para obter detalhes sobre a configuração de políticas de cluster, consulte Criar e gerenciar políticas de compute.
Databricks fornece uma política default configurada para o Job. Os administradores podem tornar essa política disponível para outros usuários do site workspace. Consulte Job compute.
Usar a escala automática
Configure o autoscale para que a tarefa de longa duração possa adicionar e remover dinamicamente os nós do worker durante a execução do trabalho. Consulte Ativar escala automática.
Use o site pool para reduzir o tempo de início do clustering
permitem que o senhor reserve compute recurso do seu provedor de nuvem. são benéficos para reduzir o tempo de início do agrupamento de novos trabalhos e garantir a disponibilidade do recurso compute. Consulte a referência de configuração do pool.
Use instâncias spot
Configure instâncias spot para cargas de trabalho com requisitos de latência flexíveis para otimizar os custos. Veja instâncias spot.
Configurar zonas de disponibilidade
Especifique uma zona de disponibilidade (AZ) se sua organização tiver comprado instâncias reservadas ou use o Auto-AZ para tentar novamente em outras zonas de disponibilidade se o AWS retornar erros de capacidade insuficiente. Consulte as zonas de disponibilidade.
O site compute deve ser usado para todos os fins no trabalho?
Há vários motivos pelos quais o site Databricks recomenda não usar o site compute para todos os fins no trabalho, incluindo os seguintes:
- Databricks O senhor paga pelo site compute em uma taxa diferente do Job compute.
- Jobs compute é encerrado automaticamente após a conclusão da execução de um trabalho. O site compute para todos os fins oferece suporte ao encerramento automático, que está vinculado à inatividade e não ao fim da execução de um trabalho.
- O site compute para todos os fins é frequentemente compartilhado entre equipes de usuários. Os trabalhos agendados em compute para todos os fins geralmente têm latência aumentada devido à concorrência pelo recurso compute.
- Muitas recomendações para otimizar a configuração do Job compute não são apropriadas para o tipo de consultas ad-hoc e cargas de trabalho interativas executadas em compute.
Veja a seguir os casos de uso em que o senhor pode optar por usar o site compute para todos os fins:
- O senhor está desenvolvendo ou testando iterativamente um novo trabalho. Os tempos de inicialização do Job compute podem tornar o desenvolvimento iterativo tedioso. O site compute permite que o senhor aplique alterações e execute seu trabalho rapidamente.
- O senhor tem um trabalho de curta duração que deve ser executado com frequência ou em uma programação específica. Não há tempo de start-up associado ao site de uso geral em execução no momento compute. Considere os custos associados ao tempo de parada se estiver usando esse padrão.
serverless compute for Job é o substituto recomendado para a maioria dos tipos de tarefa que o senhor pode considerar executar em compute.