Use a computação do Databricks com seu Job
Quando o senhor executa um Databricks Job, a tarefa configurada como parte da execução do Job em Databricks compute, ou serverless compute, um cluster, ou um SQL warehouse, dependendo do tipo de tarefa. A seleção do tipo de compute e das opções de configuração é importante ao operacionalizar um Job. Este artigo fornece recomendações para o uso do recurso Databricks compute para executar seu trabalho.
Para saber mais sobre como usar serverless compute com seu Databricks trabalho, consulte executar seu Databricks Job com serverless compute para fluxo de trabalho.
Observação
Os segredos não são redigidos nos registros do Spark driver de um cluster stdout
e stderr
transmissão. Para proteger dados confidenciais, em default, os logs de driver do Spark podem ser visualizados apenas por usuários com permissão de gerenciar CAN em Job, modo de acesso de usuário único e clusters de modo de acesso compartilhado. Para permitir que os usuários com permissão CAN ATTACH TO ou CAN RESTART acessem view os logs nesses clusters, defina a seguinte propriedade de configuração do Spark na configuração dos clusters: spark.databricks.acl.needAdminPermissionToViewLogs false
.
Em clusters de modo de acesso compartilhado sem isolamento, os logs do driver do Spark podem ser visualizados por usuários com permissão CAN ATTACH TO ou CAN gerenciar. Para limitar quem pode ler os logs apenas aos usuários com a permissão CAN gerenciar, defina spark.databricks.acl.needAdminPermissionToViewLogs
como true
.
Consulte Configuração do Spark para saber como adicionar propriedades do Spark a uma configuração clusters .
Escolha o tipo clusters correto para o seu Job
Os novos Job clusterssão dedicados clusters para uma Job ou tarefa de execução. Um Job cluster compartilhado é criado e começa quando a primeira tarefa usando o cluster começa e termina após a conclusão da última tarefa usando o cluster. O cluster não é encerrado quando parado, mas somente depois que todas as tarefas forem concluídas. Se uma Job cluster compartilhada falhar ou for encerrada antes que todas as tarefas tenham sido concluídas, uma nova cluster será criada. Um cluster com escopo de uma única tarefa é criado e começa quando a tarefa começa e termina quando a tarefa é concluída. Na produção, o site Databricks recomenda o uso de novos clusters compartilhados ou com escopo de tarefa para que cada Job ou tarefa seja executada em um ambiente totalmente isolado.
Quando você executa uma tarefa em novos clusters, a tarefa é tratada como uma carga de trabalho data engineering (tarefa), sujeita aos preços de carga de trabalho da tarefa. Quando você executa uma tarefa no todo-propósito de um clustersexistente, a tarefa é tratada como uma carga de trabalho analítica de dados (para todos os fins), sujeita a preços de carga de trabalho para todos os fins.
Se o senhor selecionar um cluster existente encerrado e o proprietário do Job tiver permissão CAN RESTART, o Databricks começará os clusters quando o Job estiver programado para execução.
Os clusters todo-propósito existentes funcionam melhor para tarefas como atualizar painéis em intervalos regulares.
Use uma piscina para reduzir clusters começar vezes
Para diminuir o Job clusters tempo de início de novos , crie um pool e configure os Job clusters do para usar o pool.
Zonas de disponibilidade automática
Para aproveitar as zonas de disponibilidade automáticas (Auto-AZ), você deve habilitá-las com a API Clusters, configurando aws_attributes.zone_id = "auto"
. Consulte Zonas de disponibilidade.