Configurar compute para o trabalho
Este artigo contém recomendações e recursos para configurar o site compute para Databricks Jobs.
Importante
As limitações do site serverless compute for Job incluem o seguinte:
Não há suporte para programação contínua.
Não há suporte para default ou acionadores de intervalos baseados em tempo na transmissão estruturada.
Para obter mais limitações, consulte Limitações da computação sem servidor.
Cada trabalho pode ter uma ou mais tarefas. O senhor define compute recurso para cada tarefa. Várias tarefas definidas para o mesmo trabalho podem usar o mesmo recurso compute.
Qual é a computação recomendada para cada tarefa?
A tabela a seguir indica os tipos de compute recomendados e suportados para cada tipo de tarefa.
Observação
sem servidor compute for Job tem limitações e não é compatível com todas as cargas de trabalho. Consulte Limitações da computação sem servidor.
Tarefa |
Recomendado compute |
Com suporte compute |
---|---|---|
Notebooks |
Trabalho sem servidor |
Job sem servidor, Job clássico, clássico para todos os fins |
Script Python |
Trabalho sem servidor |
Job sem servidor, Job clássico, clássico para todos os fins |
Python Wheel |
Trabalho sem servidor |
Job sem servidor, Job clássico, clássico para todos os fins |
SQL |
sem servidor SQL warehouse |
sem servidor SQL warehouse, pro SQL warehouse |
Pipeline das Delta Live Tables |
sem servidor pipeline |
sem servidor pipeline, clássico pipeline |
dbt |
sem servidor SQL warehouse |
sem servidor SQL warehouse, pro SQL warehouse |
dbt CLI comando |
Trabalho sem servidor |
Job sem servidor, Job clássico, clássico para todos os fins |
JAR |
Trabalho clássico |
Trabalho clássico, clássico para todos os fins |
Spark Submit |
Trabalho clássico |
Trabalho clássico |
preços for Jobs está vinculado ao site compute usado para executar a tarefa. Para obter mais detalhes, consulte Databricks preços.
Como faço para configurar a computação para Jobs?
O trabalho clássico compute é configurado diretamente na interface do usuário do Databricks Jobs, e essas configurações fazem parte da definição do trabalho. Todos os outros tipos de compute disponíveis armazenam suas configurações com outros workspace ativos. A tabela a seguir tem mais detalhes:
Tipo de Compute |
Detalhes |
---|---|
Trabalho clássico compute |
O senhor configura o compute para o trabalho clássico usando a mesma interface do usuário e as mesmas configurações disponíveis para o compute para todos os fins. Consulte Referência de configuração do Compute. |
sem servidor compute para o trabalho |
serverless compute for Job é o default para todas as tarefas que o suportam. Databricks gerenciar compute configurações para serverless compute. Veja a execução de seu Databricks Job com serverless compute para fluxo de trabalho. nn Um administrador do workspace deve habilitar o serverless compute para que essa opção fique visível. Consulte Ativar serverless compute . |
SQL warehouses |
serverless e pro SQL warehouse são configurados por administradores do workspace ou usuários com privilégios irrestritos de criação do cluster. O senhor configura a tarefa para execução no site SQL warehouse existente. Consulte Conectar-se a um site SQL warehouse. |
Delta Live Tables pipeline compute |
O senhor define as configurações do compute para o pipeline Delta Live Tables durante a configuração do pipeline. Consulte Configurar a computação para um pipeline do Delta Live Tables. nn Databricks gerenciar compute recurso para serverless Delta Live Tables pipeline. Consulte Configurar um pipeline Delta Live Tables sem servidor. |
Compute para todos os fins |
Opcionalmente, o senhor pode configurar a tarefa usando o clássico compute. Databricks não recomenda essa configuração para trabalhos de produção. Consulte a referência de configuração de computação e O site compute para todos os fins deve ser usado para trabalhos? |
Revisar, configurar e swap Job compute
A seção de computação no painel de detalhes doJob lista todos os compute configurados para tarefa no trabalho atual.
A tarefa configurada para usar um recurso compute é destacada no gráfico da tarefa quando o senhor passa o mouse sobre a especificação compute.
Use o botão de troca para alterar o endereço compute para todas as tarefas associadas a um recurso compute.
O trabalho clássico compute recurso tem uma opção Configure (Configurar ). Outros compute recursos oferecem ao senhor opções para view e modificar compute detalhes de configuração.
Recomendações para a configuração do Job clássico compute
Esta seção concentra-se em recomendações gerais sobre recursos e configurações que podem beneficiar alguns fluxos de trabalho. As recomendações específicas para configurar o tamanho e os tipos de compute recurso variam de acordo com a carga de trabalho.
Databricks O senhor recomenda habilitar o Photon Acceleration, usar versões recentes do Databricks Runtime e usar o compute configurado para Unity Catalog.
serverless compute for Job gerenciar toda a infraestrutura, eliminando as seguintes considerações. Veja a execução de seu Databricks Job com serverless compute para fluxo de trabalho.
Observação
transmissão estructurada fluxo de trabalho têm recomendações específicas. Consulte Considerações sobre produção para transmissão estruturada.
Use a política de cluster
Databricks recomenda que os administradores do workspace definam políticas de cluster para o Job e apliquem essas políticas a todos os usuários que configuram o Job.
política de cluster permitem que os administradores do workspace definam controles de custo e limitem as opções de configuração dos usuários. Para obter detalhes sobre a configuração da política de cluster, consulte Criar e gerenciar políticas de compute .
Databricks fornece uma política default configurada para o Job. Os administradores podem tornar essa política disponível para outros usuários do site workspace. Consulte Job compute.
Usar a escala automática
Configure o autoscale para que a tarefa de longa duração possa adicionar e remover dinamicamente os nós do worker durante a execução do trabalho. Consulte Ativar escala automática.
Use o site pool para reduzir o tempo de cluster começar
permitem que o senhor reserve compute recurso do seu provedor cloud. O pool é benéfico para reduzir o tempo do novo trabalho cluster começar e garantir a disponibilidade do recurso compute. Consulte a referência de configuração do pool.
Use instâncias spot
Configure instâncias spot para cargas de trabalho com requisitos de latência flexíveis para otimizar os custos. Veja instâncias spot.
Configurar zonas de disponibilidade
Especifique uma zona de disponibilidade (AZ) se sua organização tiver comprado instâncias reservadas ou use o Auto-AZ para tentar novamente em outras zonas de disponibilidade se o AWS retornar erros de capacidade insuficiente. Consulte as zonas de disponibilidade.
O site compute deve ser usado para todos os fins no trabalho?
Há vários motivos pelos quais o site Databricks recomenda não usar o site compute para todos os fins no trabalho, incluindo os seguintes:
Databricks O senhor paga pelo site compute em uma taxa diferente do Job compute.
Jobs compute é encerrado automaticamente após a conclusão da execução de um trabalho. O site compute para todos os fins oferece suporte ao encerramento automático, que está vinculado à inatividade e não ao fim da execução de um trabalho.
O site compute para todos os fins é frequentemente compartilhado entre equipes de usuários. Os trabalhos agendados em compute para todos os fins geralmente têm latência aumentada devido à concorrência pelo recurso compute.
Muitas recomendações para otimizar a configuração do Job compute não são apropriadas para o tipo de consultas ad-hoc e cargas de trabalho interativas executadas em compute.
Veja a seguir os casos de uso em que o senhor pode optar por usar o site compute para todos os fins:
O senhor está desenvolvendo ou testando iterativamente um novo trabalho. Os tempos de inicialização do Job compute podem tornar o desenvolvimento iterativo tedioso. O site compute permite que o senhor aplique alterações e execute seu trabalho rapidamente.
O senhor tem um trabalho de curta duração que deve ser executado com frequência ou em uma programação específica. Não há tempo de start-up associado ao site de uso geral em execução no momento compute. Considere os custos associados ao tempo de parada se estiver usando esse padrão.
serverless compute for Job é o substituto recomendado para a maioria dos tipos de tarefa que o senhor pode considerar executar em compute.