Pular para o conteúdo principal

Folha de dicas do programa Production Job

Este artigo tem o objetivo de fornecer orientações claras e opinativas para a produção do Job programar. O uso de práticas recomendadas pode ajudar a reduzir custos, melhorar o desempenho e aumentar a segurança.

Melhor prática

Impacto

Documentos

Use compute serverless para o trabalho

Custo : Sem servidor. O trabalho não requer configuração cluster . Databricks gerencia provisionamento e escalonamento automaticamente.

Sempre que possível, use o site LakeFlow Jobs para solicitar

Custo : Não há necessidade de usar ferramentas externas para orquestrar se o senhor estiver orquestrando apenas cargas de trabalho no Databricks.

Use a entidade de serviço em vez da conta de usuário para executar o trabalho de produção

Segurança : Se o trabalho for de propriedade de usuários individuais, quando esses usuários deixarem a organização, esse trabalho poderá parar de ser executado.

Para compute clássica: use clusters de trabalho para fluxo de trabalho automatizado

Custo : O clustering de trabalhos é cobrado a taxas mais baixas do que o clustering interativo.

Para compute clássica: reinicieclusters longos em execução

Segurança : Reinicie o clustering para aproveitar os patches e as correções de bugs do site Databricks Runtime.

Para compute clássica: use a versão LTS mais recente do Databricks Runtime

desempenho e custo : o site Databricks está sempre aprimorando o Databricks Runtime em termos de usabilidade, desempenho e segurança.

Para compute clássica: não armazene dados de produção na DBFS root

Segurança : Quando os dados são armazenados no site DBFS root, todos os usuários podem acessá-los.