Folha de dicas do programador Job de produção

Este artigo tem como objetivo fornecer orientação clara e opinativa para programar Job de produção. O uso das melhores práticas pode ajudar a reduzir custos, melhorar o desempenho e aumentar a segurança.

Melhor prática

Impacto

Documentos

Use clusters Job para fluxo de trabalho automatizado

Custo: os clusters de empregos são cobrados a taxas mais baixas do que os clusters interativos.

Reinicie clusters longos em execução

Segurança: reinicie os clusters para aproveitar os patches e as correções de bugs no Databricks Runtime.

Usar entidade de serviço em vez de account de usuário para executar Jobde produção

Segurança: se Job pertencer a usuários individuais, quando esses usuários deixarem a organização, esses Job poderão parar de ser executados.

Use o fluxo de trabalho do Databricks para orquestração sempre que possível

Custo: não há necessidade de usar ferramentas externas para orquestrar se você estiver orquestrando apenas cargas de trabalho em Databricks.

Use a versão LTS mais recente do Databricks Runtime

Desempenho e custo: o Databricks está sempre melhorando o Databricks Runtime em termos de usabilidade, desempenho e segurança.

Não armazene dados de produção na DBFS root

Segurança: Quando os dados são armazenados na DBFS root, todos os usuários podem acessá-los.