Folha de dicas do programador Job de produção
Este artigo tem como objetivo fornecer orientação clara e opinativa para programar Job de produção. O uso das melhores práticas pode ajudar a reduzir custos, melhorar o desempenho e aumentar a segurança.
Melhor prática |
Impacto |
Documentos |
---|---|---|
Use clusters Job para fluxo de trabalho automatizado |
Custo: os clusters de empregos são cobrados a taxas mais baixas do que os clusters interativos. |
|
Reinicie clusters longos em execução |
Segurança: reinicie os clusters para aproveitar os patches e as correções de bugs no Databricks Runtime. |
|
Usar entidade de serviço em vez de account de usuário para executar Jobde produção |
Segurança: se Job pertencer a usuários individuais, quando esses usuários deixarem a organização, esses Job poderão parar de ser executados. |
|
Usar o Databricks Jobs para orquestração sempre que possível |
Custo: não há necessidade de usar ferramentas externas para orquestrar se você estiver orquestrando apenas cargas de trabalho em Databricks. |
|
Use a versão LTS mais recente do Databricks Runtime |
Desempenho e custo: o Databricks está sempre melhorando o Databricks Runtime em termos de usabilidade, desempenho e segurança. |
|
Não armazene dados de produção na DBFS root |
Segurança: Quando os dados são armazenados na DBFS root, todos os usuários podem acessá-los. |