Configurar compute para o trabalho

Este artigo contém recomendações e recursos para configurar o site compute para Databricks Jobs.

Importante

As limitações do site serverless compute for Job incluem o seguinte:

  • Não há suporte para programação contínua.

  • Não há suporte para default ou acionadores de intervalos baseados em tempo na transmissão estruturada.

Para obter mais limitações, consulte Limitações da computação sem servidor.

Cada trabalho pode ter uma ou mais tarefas. O senhor define compute recurso para cada tarefa. Várias tarefas definidas para o mesmo trabalho podem usar o mesmo recurso compute.

Imagem mostrando um trabalho com várias tomadas e o recurso cloud compute associado

Como faço para configurar a computação para Jobs?

O trabalho clássico compute é configurado diretamente na interface do usuário do Databricks Jobs, e essas configurações fazem parte da definição do trabalho. Todos os outros tipos de compute disponíveis armazenam suas configurações com outros workspace ativos. A tabela a seguir tem mais detalhes:

Tipo de Compute

Detalhes

Trabalho clássico compute

O senhor configura o compute para o trabalho clássico usando a mesma interface do usuário e as mesmas configurações disponíveis para o compute para todos os fins. Consulte Referência de configuração do Compute.

sem servidor compute para o trabalho

serverless compute for Job é o default para todas as tarefas que o suportam. Databricks gerenciar compute configurações para serverless compute. Veja a execução de seu Databricks Job com serverless compute para fluxo de trabalho. nn Um administrador do workspace deve habilitar o serverless compute para que essa opção fique visível. Consulte Ativar serverless compute .

SQL warehouses

serverless e pro SQL warehouse são configurados por administradores do workspace ou usuários com privilégios irrestritos de criação do cluster. O senhor configura a tarefa para execução no site SQL warehouse existente. Consulte Conectar-se a um site SQL warehouse.

Delta Live Tables pipeline compute

O senhor define as configurações do compute para o pipeline Delta Live Tables durante a configuração do pipeline. Consulte Configurar as definições do site compute . nn Databricks gerenciar compute recurso para serverless Delta Live Tables pipeline. Consulte Criar um pipeline totalmente gerenciado usando Delta Live Tables com serverless compute .

Compute para todos os fins

Opcionalmente, o senhor pode configurar a tarefa usando o clássico compute. Databricks não recomenda essa configuração para trabalhos de produção. Consulte a referência de configuração de computação e O site compute para todos os fins deve ser usado para trabalhos?

Compartilhe compute em toda a tarefa

Configure a tarefa para usar o mesmo recurso do Job compute para otimizar o uso do recurso com o Job que orquestra várias tarefas. O compartilhamento compute entre as tarefas pode reduzir a latência associada aos tempos start-up.

O senhor pode usar um único recurso de Job compute para executar todas as tarefas que fazem parte do Job ou vários recursos de Job otimizados para cargas de trabalho específicas. Qualquer tarefa compute configurada como parte de uma tarefa está disponível para todas as outras tarefas da tarefa.

A tabela a seguir destaca as diferenças entre o Job compute configurado para uma única tarefa e o Job compute compartilhado entre tarefas:

Tarefa única

Compartilhado em toda a tarefa

Iniciar

Quando a execução da tarefa começa.

Quando a primeira execução de tarefa configurada para usar o recurso compute começar.

Encerrar

Após a execução da tarefa.

Após a tarefa final configurada para usar o recurso compute execução.

parado compute

Não aplicável.

O cálculo permanece ligado e parado enquanto a tarefa não usa o recurso de execução compute.

Um trabalho compartilhado cluster tem o escopo de uma única execução de trabalho e não pode ser usado por outro trabalho ou execução do mesmo trabalho.

biblioteca não pode ser declarado em uma configuração compartilhada do Job cluster. O senhor deve adicionar a biblioteca dependente nas configurações da tarefa.

Revisar, configurar e swap Job compute

A seção de computação no painel de detalhes doJob lista todos os compute configurados para tarefa no trabalho atual.

A tarefa configurada para usar um recurso compute é destacada no gráfico da tarefa quando o senhor passa o mouse sobre a especificação compute.

Use o botão de troca para alterar o endereço compute para todas as tarefas associadas a um recurso compute.

O trabalho clássico compute recurso tem uma opção Configure (Configurar ). Outros compute recursos oferecem ao senhor opções para view e modificar compute detalhes de configuração.

Recomendações para a configuração do Job clássico compute

Esta seção concentra-se em recomendações gerais sobre recursos e configurações que podem beneficiar alguns fluxos de trabalho. As recomendações específicas para configurar o tamanho e os tipos de compute recurso variam de acordo com a carga de trabalho.

Databricks O senhor recomenda habilitar o Photon Acceleration, usar versões recentes do Databricks Runtime e usar o compute configurado para Unity Catalog.

serverless compute for Job gerenciar toda a infraestrutura, eliminando as seguintes considerações. Veja a execução de seu Databricks Job com serverless compute para fluxo de trabalho.

Observação

transmissão estructurada fluxo de trabalho têm recomendações específicas. Consulte Considerações sobre produção para transmissão estruturada.

Use o modo de acesso compartilhado

Databricks recomenda o uso do modo de acesso compartilhado para o Job. Consulte Modos de acesso.

Observação

O modo de acesso compartilhado não é compatível com algumas cargas de trabalho e recursos. A Databricks recomenda o modo de acesso de usuário único para essas cargas de trabalho. Consulte Limitações do modo de acesso à computação para o Unity Catalog.

Use a política de cluster

Databricks recomenda que os administradores do workspace definam políticas de cluster para o Job e apliquem essas políticas a todos os usuários que configuram o Job.

política de cluster permitem que os administradores do workspace definam controles de custo e limitem as opções de configuração dos usuários. Para obter detalhes sobre a configuração da política de cluster, consulte Criar e gerenciar políticas de compute .

Databricks fornece uma política default configurada para o Job. Os administradores podem tornar essa política disponível para outros usuários do site workspace. Consulte Job compute.

Usar a escala automática

Configure o autoscale para que a tarefa de longa duração possa adicionar e remover dinamicamente os nós do worker durante a execução do trabalho. Consulte Ativar escala automática.

Use o site pool para reduzir o tempo de cluster começar

permitem que o senhor reserve compute recurso do seu provedor cloud. O pool é benéfico para reduzir o tempo do novo trabalho cluster começar e garantir a disponibilidade do recurso compute. Consulte a referência de configuração do pool.

Use instâncias spot

Configure instâncias spot para cargas de trabalho com requisitos de latência flexíveis para otimizar os custos. Veja instâncias spot.

Configurar zonas de disponibilidade

Especifique uma zona de disponibilidade (AZ) se sua organização tiver comprado instâncias reservadas ou use o Auto-AZ para tentar novamente em outras zonas de disponibilidade se o AWS retornar erros de capacidade insuficiente. Consulte as zonas de disponibilidade.

O site compute deve ser usado para todos os fins no trabalho?

Há vários motivos pelos quais o site Databricks recomenda não usar o site compute para todos os fins no trabalho, incluindo os seguintes:

  • Databricks O senhor paga pelo site compute em uma taxa diferente do Job compute.

  • Jobs compute é encerrado automaticamente após a conclusão da execução de um trabalho. O site compute para todos os fins oferece suporte ao encerramento automático, que está vinculado à inatividade e não ao fim da execução de um trabalho.

  • O site compute para todos os fins é frequentemente compartilhado entre equipes de usuários. Os trabalhos agendados em compute para todos os fins geralmente têm latência aumentada devido à concorrência pelo recurso compute.

  • Muitas recomendações para otimizar a configuração do Job compute não são apropriadas para o tipo de consultas ad-hoc e cargas de trabalho interativas executadas em compute.

Veja a seguir os casos de uso em que o senhor pode optar por usar o site compute para todos os fins:

  • O senhor está desenvolvendo ou testando iterativamente um novo trabalho. Os tempos de inicialização do Job compute podem tornar o desenvolvimento iterativo tedioso. O site compute permite que o senhor aplique alterações e execute seu trabalho rapidamente.

  • O senhor tem um trabalho de curta duração que deve ser executado com frequência ou em uma programação específica. Não há tempo de start-up associado ao site de uso geral em execução no momento compute. Considere os custos associados ao tempo de parada se estiver usando esse padrão.

serverless compute for Job é o substituto recomendado para a maioria dos tipos de tarefa que o senhor pode considerar executar em compute.