Use o site Databricks compute com seu trabalho

Quando o senhor executa um Job Databricks, a tarefa configurada como parte da execução do Job em Databricks compute, serverless compute, um cluster, ou um SQL warehouse, dependendo do tipo de tarefa. A seleção do tipo de compute e das opções de configuração é importante ao operacionalizar um trabalho. Este artigo fornece recomendações para o uso do recurso Databricks compute para executar seu trabalho.

Para saber mais sobre como usar serverless compute com seu Databricks trabalho, consulte executar seu Databricks trabalho com serverless compute para fluxo de trabalho.

Observação

Os segredos não são removidos de um driver cluster Spark log stdout e stderr transmissão. Para proteger dados confidenciais, os drivers default, Spark e logs podem ser visualizados apenas por usuários com permissão CAN MANAGE no Job, modo de acesso de usuário único e modo de acesso compartilhado clusters. Para permitir que os usuários com permissão CAN ATTACH TO ou CAN RESTART possam view o logs nesses clusters, defina a seguinte propriedade de configuração Spark na configuração cluster: spark.databricks.acl.needAdminPermissionToViewLogs false.

No modo de acesso compartilhado sem isolamento clusters, o driver Spark logs pode ser visualizado por usuários com permissão CAN ATTACH TO ou CAN MANAGE. Para limitar quem pode ler os logs apenas aos usuários com a permissão CAN MANAGE, defina spark.databricks.acl.needAdminPermissionToViewLogs como true.

Consulte Configuração do Spark para saber como adicionar propriedades do Spark a uma configuração de cluster.

Use o trabalho compartilhado clusters

Para otimizar o uso de recurso com o Job que orquestra várias tarefas, use o Job compartilhado clusters. Um trabalho compartilhado cluster permite que várias tarefas na mesma execução de trabalho reutilizem o cluster. O senhor pode usar um único Job cluster para executar todas as tarefas que fazem parte do Job, ou vários Job clusters otimizados para cargas de trabalho específicas. Para usar um trabalho compartilhado cluster:

  1. Selecione New Job clusters quando o senhor criar uma tarefa e concluir a configuração docluster .

  2. Selecione o novo cluster ao adicionar uma tarefa ao trabalho ou crie um novo trabalho cluster. Qualquer cluster que o senhor configurar ao selecionar New Job clusters estará disponível para qualquer tarefa no Job.

Um trabalho compartilhado cluster tem o escopo de uma única execução de trabalho e não pode ser usado por outro trabalho ou execução do mesmo trabalho.

biblioteca não pode ser declarado em uma configuração compartilhada do Job cluster. O senhor deve adicionar a biblioteca dependente nas configurações da tarefa.

Escolha o tipo correto de cluster para seu trabalho

  • Os novos clusters Job são dedicados clusters para a execução de um trabalho ou tarefa. Um trabalho compartilhado cluster é criado e começa quando a primeira tarefa usando o cluster começa e termina após a conclusão da última tarefa usando o cluster. O cluster não é encerrado quando parado, mas somente depois que todas as tarefas forem concluídas. Se um trabalho compartilhado cluster falhar ou for encerrado antes que todas as tarefas tenham sido concluídas, um novo cluster será criado. Um cluster com escopo de uma única tarefa é criado e começa quando a tarefa começa e termina quando a tarefa é concluída. Na produção, o site Databricks recomenda o uso do novo clusters compartilhado ou com escopo de tarefa para que cada trabalho ou tarefa seja executado em um ambiente totalmente isolado.

  • Quando o senhor executa uma tarefa em um novo cluster, a tarefa é tratada como uma carga de trabalho de engenharia de dados (tarefa), sujeita aos preços da carga de trabalho da tarefa. Quando o senhor executa uma tarefa em um clusters todo-propósito existente, a tarefa é tratada como uma carga de trabalho de análise de dados (para todos os fins), sujeita aos preços de carga de trabalho para todos os fins.

  • Se o senhor selecionar um existente encerrado cluster e o proprietário do trabalho tiver CAN RESTART permissão, Databricks começará a cluster quando o trabalho estiver programado para ser executado.

  • O site clusters todo-propósito funciona melhor para tarefas como a atualização de painéis de controle em intervalos regulares.

Use o site pool para reduzir o tempo de cluster começar

Para reduzir o tempo do novo trabalho cluster começar, crie um pool e configure o cluster do trabalho para usar o pool.

Zonas de disponibilidade automática

Para aproveitar as vantagens das zonas de disponibilidade automática (Auto-AZ), o senhor deve ativá-las com a API de Clusters, definindo aws_attributes.zone_id = "auto". Consulte Zonas de disponibilidade.