Use o site Databricks compute com seu trabalho
Quando o senhor executa um Job Databricks, a tarefa configurada como parte da execução do Job em Databricks compute, serverless compute, um cluster, ou um SQL warehouse, dependendo do tipo de tarefa. A seleção do tipo de compute e das opções de configuração é importante ao operacionalizar um trabalho. Este artigo fornece recomendações para o uso do recurso Databricks compute para executar seu trabalho.
Para saber mais sobre como usar serverless compute com seu Databricks trabalho, consulte executar seu Databricks trabalho com serverless compute para fluxo de trabalho.
Observação
Os segredos não são removidos de um driver cluster Spark log stdout
e stderr
transmissão. Para proteger dados confidenciais, os drivers default, Spark e logs podem ser visualizados apenas por usuários com permissão CAN MANAGE no Job, modo de acesso de usuário único e modo de acesso compartilhado clusters. Para permitir que os usuários com permissão CAN ATTACH TO ou CAN RESTART possam view o logs nesses clusters, defina a seguinte propriedade de configuração Spark na configuração cluster: spark.databricks.acl.needAdminPermissionToViewLogs false
.
No modo de acesso compartilhado sem isolamento clusters, o driver Spark logs pode ser visualizado por usuários com permissão CAN ATTACH TO ou CAN MANAGE. Para limitar quem pode ler os logs apenas aos usuários com a permissão CAN MANAGE, defina spark.databricks.acl.needAdminPermissionToViewLogs
como true
.
Consulte Configuração do Spark para saber como adicionar propriedades do Spark a uma configuração de cluster.
Escolha o tipo correto de cluster para seu trabalho
Os novos clusters Job são dedicados clusters para a execução de um trabalho ou tarefa. Um trabalho compartilhado cluster é criado e começa quando a primeira tarefa usando o cluster começa e termina após a conclusão da última tarefa usando o cluster. O cluster não é encerrado quando parado, mas somente depois que todas as tarefas forem concluídas. Se um trabalho compartilhado cluster falhar ou for encerrado antes que todas as tarefas tenham sido concluídas, um novo cluster será criado. Um cluster com escopo de uma única tarefa é criado e começa quando a tarefa começa e termina quando a tarefa é concluída. Na produção, o site Databricks recomenda o uso do novo clusters compartilhado ou com escopo de tarefa para que cada trabalho ou tarefa seja executado em um ambiente totalmente isolado.
Quando o senhor executa uma tarefa em um novo cluster, a tarefa é tratada como uma carga de trabalho de engenharia de dados (tarefa), sujeita aos preços da carga de trabalho da tarefa. Quando o senhor executa uma tarefa em um clusters todo-propósito existente, a tarefa é tratada como uma carga de trabalho de análise de dados (para todos os fins), sujeita aos preços de carga de trabalho para todos os fins.
Se o senhor selecionar um existente encerrado cluster e o proprietário do trabalho tiver CAN RESTART permissão, Databricks começará a cluster quando o trabalho estiver programado para ser executado.
O site clusters todo-propósito funciona melhor para tarefas como a atualização de painéis de controle em intervalos regulares.
Use o site pool para reduzir o tempo de cluster começar
Para reduzir o tempo do novo trabalho cluster começar, crie um pool e configure o cluster do trabalho para usar o pool.
Zonas de disponibilidade automática
Para aproveitar as vantagens das zonas de disponibilidade automática (Auto-AZ), o senhor deve ativá-las com a API de Clusters, definindo aws_attributes.zone_id = "auto"
. Consulte Zonas de disponibilidade.