Configurar e editar LakeFlow Jobs

O senhor pode criar e executar um trabalho usando a interface do usuário de trabalhos ou ferramentas de desenvolvedor, como Databricks CLI ou REST API. Usando a UI ou API, o senhor pode reparar e executar novamente um trabalho com falha ou cancelado. Este artigo mostra como criar, configurar e editar o trabalho usando o pipeline do Jobs & workspace UI. Para obter informações sobre outras ferramentas, consulte o seguinte:

Para saber mais sobre como usar o Databricks CLI para criar e executar um trabalho, consulte O que é o Databricks CLI?
Para saber mais sobre como usar a API de jobs para criar e executar jobs, consulte Trabalhos na referência da API REST.
Se o senhor preferir uma abordagem Infrastructure-as-Code (IaC) para configurar o Job, poderá usar Databricks ativo Bundles. Para saber mais sobre o uso de pacotes para configurar e orquestrar seu trabalho, consulte Databricks ativo Bundles.
Para saber como executar e programar um trabalho diretamente em um notebook Databricks, consulte Criar e gerenciar um trabalho de notebook programado.

dica

Para view um trabalho como YAML, clique no menu kebab à esquerda de executar agora o trabalho e, em seguida, clique em Mudar para a versão do código (YAML) .

Qual é a configuração mínima necessária para um trabalho?

Todos os trabalhos em Databricks exigem o seguinte:

Uma tarefa que contém lógica a ser executada, como um Databricks Notebook. Consulte Configurar e editar tarefa em LakeFlow Jobs
A compute recurso para executar a lógica. O recurso compute pode ser serverless compute, o clássico Job compute, ou o all-purpose compute. Consulte Configurar compute para o trabalho.
Um programar especificado para quando o trabalho deve ser executado. Opcionalmente, o senhor pode omitir a definição de um programar e acionar o Job manualmente.
Um nome exclusivo.

Criar um novo trabalho

Esta seção descreve as etapas para criar um novo trabalho com uma tarefa de notebook e programar com a UI do workspace.

Os trabalhos contêm uma ou mais tarefas. O senhor cria um novo trabalho configurando a primeira tarefa para esse trabalho.

nota

Cada tipo de tarefa tem opções de configuração dinâmica na interface do usuário workspace. Consulte Configurar e editar tarefa em LakeFlow Jobs.

Em seu site workspace, clique em Jobs & pipeline na barra lateral.
Clique em Create e depois em Job .
Clique no bloco Bloco Notebook para configurar a primeira tarefa. Se o bloco Bloco Notebook não estiver disponível, clique em Adicionar outro tipo de tarefa e pesquise por Notebook .
Digite um nome de tarefa .
Selecione um Notebook para o campo Path (Caminho ).
Clique em Criar tarefa .

Se o seu workspace não estiver habilitado para serverless compute for Job, o senhor deverá selecionar uma opção de computação . Databricks recomenda sempre usar o Job compute ao configurar a tarefa.

Um novo trabalho aparece na lista workspace Job com o nome default New Job <date> <time>.

O senhor pode continuar a adicionar mais tarefas dentro do mesmo trabalho, se necessário para seu fluxo de trabalho. Os trabalhos com mais de 100 tarefas podem ter requisitos especiais. Para obter mais informações, consulte Empregos com um grande número de tarefas.

programar um trabalho

O senhor pode decidir quando seu trabalho será executado. Em default, ele só será executado quando o senhor o iniciar manualmente, mas também é possível configurá-lo para ser executado automaticamente. O senhor pode criar um acionador para executar um Job em uma programação ou com base em um evento.

Controle do fluxo de tarefas dentro do trabalho

Ao configurar várias tarefas no Job, o senhor pode usar tarefas especializadas para controlar a execução das tarefas. Consulte Controlar o fluxo de tarefas em LakeFlow Jobs.

Selecione um trabalho para editar na seção workspace

Para editar um trabalho existente com a interface de usuário workspace, faça o seguinte:

Na barra lateral do site Databricks workspace, clique em Jobs & pipeline .
Opcionalmente, selecione os filtros Empregos e de minha propriedade .
Clique no link Nome do seu trabalho.

Use a Job UI para fazer o seguinte:

Editar configurações de trabalho
Renomear, clonar ou excluir um Job
Adicionar uma nova tarefa a um trabalho existente
Editar configurações de tarefa

nota

O senhor também pode view as definições de JSON para uso com REST API get, create e Reset endpoint.

Editar configurações do trabalho

O painel lateral contém os detalhes do siteJob . O senhor pode alterar o programador ou acionador do Job, os parâmetros do Job, a configuração do compute, tags, as notificações, o número máximo de execuções concorrente, o limite de duração e as configurações do Git. O senhor também pode editar as permissões do trabalho se o controle de acesso ao trabalho estiver ativado.

Adicionar parâmetros para todas as tarefas de trabalho

Os parâmetros configurados no nível do trabalho são passados para a tarefa do trabalho que aceita parâmetros key-value, incluindo arquivos Python wheel configurados para aceitar argumentos de palavras-chave. Consulte Parameterize Job.

Adicionar tags a um trabalho

Para adicionar atributos de rótulo ou key-value ao seu trabalho, o senhor pode adicionar tags ao editar o trabalho. O senhor pode usar tags para filtrar o trabalho na lista de trabalhos. Por exemplo, o senhor pode usar uma tag department para filtrar todos os trabalhos que pertencem a um departamento específico.

nota

Como as Job tags não foram projetadas para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, o site Databricks recomenda o uso de tags apenas para valores não confidenciais.

As tags também se propagam para o clustering de trabalho criado quando um trabalho é executado, permitindo que o senhor use as tags com o monitoramento de clustering existente.

Clique em + Tag no painel lateral de detalhes do siteJob para adicionar ou editar tags. O senhor pode adicionar a tag como um rótulo ou par key-value. Para adicionar um rótulo, digite o rótulo no campo de chave e deixe o campo Value vazio.

Use Git com Job

A Job UI contém um campo Git e a opção de adicionar ou editar as configurações do site Git.

O senhor pode configurar os seguintes tipos de tarefa para usar um repositório Git remoto:

cadernos
Scripts Python
Arquivos SQL
dbt

Todas as tarefas em um trabalho devem fazer referência ao mesmo commit no repositório remoto. O senhor deve especificar apenas um dos seguintes itens para um trabalho que usa um repositório remoto:

branch : O nome do branch, por exemplo, main.
tag : O nome da tag, por exemplo, release-1.0.0.
commit : O hash de um commit específico, por exemplo, e0056d01.

Quando a execução de um trabalho começa, o site Databricks obtém um instantâneo commit do repositório remoto para garantir que todo o trabalho seja executado com a mesma versão do código.

Quando o senhor view o histórico de execução de uma tarefa com código de execução armazenado em um repositório remoto Git, o painel de detalhes da execução da tarefa inclui detalhes Git, inclusive o SHA commit associado à execução. Veja a história da tarefa execução.

nota

A tarefa configurada para usar um repositório remoto Git não pode gravar em arquivos workspace. Essas tarefas devem gravar dados temporários no armazenamento efêmero anexado ao nó do driver do site compute configurado para executar a tarefa e dados persistentes em um volume ou tabela.

Databricks recomenda fazer referência aos caminhos workspace nas pastas Git apenas para iteração e testes rápidos durante o desenvolvimento. À medida que o senhor transfere o Job para a fase de preparação e produção, o site Databricks recomenda configurá-lo para fazer referência a um repositório Git remoto. Para saber mais sobre como usar um repositório Git remoto com um trabalho Databricks, consulte a seção a seguir.

Configurar um provedor Git

A Job UI tem uma caixa de diálogo para configurar um repositório Git remoto. Essa caixa de diálogo pode ser acessada no painel de detalhes doJob sob o título Git ou em qualquer tarefa configurada para usar um provedorGit . Para acessar a caixa de diálogo, clique em Add Git settings (Adicionar configurações do Git ) no painel Job details (Detalhes do trabalho) .

Na caixa de diálogo Git (rótulo Git informações se acessado durante a configuração da tarefa), insira os seguintes detalhes:

O URL do repositório Git .
Selecione seu provedorGit na lista dropdown.
No campo Git reference , digite o identificador de um branch, tag ou commit que corresponda à versão do código-fonte que o senhor deseja executar.
Selecione branch , tag ou commit no site dropdown.

nota

A caixa de diálogo pode solicitar o seguinte: Git credenciais para este account estão faltando. Adicione as credenciais . O senhor deve configurar um repositório Git remoto antes de usá-lo como referência. Consulte Configurar as pastas Git do Databricks.

Adicionar uma política orçamentária do serverless a um trabalho

info

Visualização

Esse recurso está em Public Preview.

Se o seu workspace usa políticas de orçamento serverless para atribuir o uso do serverless, o senhor pode selecionar a política de orçamento do seu trabalho serverless usando a configuração Política de orçamento no painel lateral de detalhesJob . Consulte Uso de atributos com as políticas de orçamento do serverless.

Renomear, clonar ou excluir um Job

Para renomear um trabalho, vá até a interface do usuário do trabalho e clique no nome do trabalho.

O senhor pode criar rapidamente um novo Job clonando um Job existente. A clonagem de um trabalho cria uma cópia idêntica do trabalho, exceto pelo ID do trabalho. Para clonar um Job, faça o seguinte:

Clique em Jobs & pipeline na barra lateral esquerda.
Clique no nome do trabalho que o senhor deseja clonar para abrir a interface do usuário de trabalhos.
Clique em ao lado do botão executar agora .
Selecione Clone Job no menu suspenso.
Digite um nome para o Job clonado.
Clique em Clonar .

Excluir um trabalho

Para excluir um trabalho, vá para a página do trabalho, clique em ao lado do nome do trabalho e selecione Delete Job (Excluir trabalho) no menu suspenso.

Configurar o limite de duração da execução do trabalho ou o backlog de transmissão métricas

info

Visualização

A observabilidade da transmissão para LakeFlow Jobs está em Public Preview.

O senhor pode configurar limites opcionais para a duração da execução do trabalho ou para as métricas do backlog de transmissão. Para configurar o limite de duração ou de transmissão métricas, clique em duração e limite de transmissão backlog no painel de detalhes do siteJob .

Para configurar o limite de duração do trabalho, incluindo os tempos de conclusão esperado e máximo para o trabalho, selecione duração da execução no menu suspenso de métricas . Digite uma duração no campo Warning (Aviso) para configurar o tempo de conclusão esperado do trabalho. Se o trabalho exceder esse limite, um evento será acionado. O senhor pode usar esse evento para notificar quando um trabalho estiver sendo executado lentamente. Consulte Configurar notificações para trabalhos lentos. Para configurar um tempo máximo de conclusão para um trabalho, insira a duração máxima no campo Timeout (Tempo limite ). Se o trabalho não for concluído nesse período, o site Databricks definirá seu status como "Timed Out".

Para configurar um limite para um backlog de transmissão de métricas, selecione as métricas no menu suspenso de métricas e insira um valor para o limite. Para saber mais sobre as métricas específicas suportadas por uma fonte de transmissão, consulte view métricas for transmission tarefa.

Se um evento for acionado porque um limite foi excedido, o senhor poderá usar o evento para enviar uma notificação. Consulte Configurar notificações para trabalhos lentos.

Opcionalmente, o senhor pode especificar a duração limite da tarefa. Consulte Configurar limite para tarefa execução duração ou transmissão backlog métricas.

Habilitar a fila de execução de trabalhos

nota

O enfileiramento é ativado pelo site default para trabalhos criados por meio da interface do usuário após 15 de abril de 2024.

Para evitar que a execução de um trabalho seja ignorada devido aos limites de simultaneidade, o senhor pode ativar o enfileiramento para o trabalho. Quando o enfileiramento está ativado, a execução é enfileirada por até 48 horas se os recursos não estiverem disponíveis para a execução de um trabalho. Quando a capacidade está disponível, a execução do trabalho é retirada da fila e executada. As execuções em fila são exibidas na lista de execuções do Job e na lista de execuções recentes do Job.

Uma execução é colocada na fila quando um dos seguintes limites é atingido:

O máximo de execução ativa concorrente no site workspace.
O concorrente máximo Run Job tarefa execução no workspace.
A execução máxima concorrente do trabalho.

O enfileiramento é uma propriedade de nível de trabalho que enfileira a execução somente para esse trabalho.

Para ativar ou desativar o enfileiramento, clique em Advanced settings (Configurações avançadas ) e clique no botão de alternância Queue (Enfileirar ) no painel lateral Job details (Detalhes do trabalho) .

Configurar a execução máxima da concorrente

Em default, a execução concorrente máxima para todos os novos trabalhos é 1.

Clique em Editar execução concorrente em Configurações avançadas para definir o número máximo de execuções paralelas desse trabalho.

Databricks pula a execução se o trabalho já tiver atingido o número máximo de execuções ativas ao tentar iniciar uma nova execução.

Defina esse valor como maior que 1 para permitir a execução concorrente múltipla do mesmo trabalho. Isso é útil, por exemplo, se o senhor acionar seu trabalho em uma programação frequente e quiser permitir que execuções consecutivas se sobreponham ou acionar várias execuções que diferem em seus parâmetros de entrada.

Qual é a configuração mínima necessária para um trabalho?​

Criar um novo trabalho​

programar um trabalho​

Controle do fluxo de tarefas dentro do trabalho​

Selecione um trabalho para editar na seção workspace​

Editar configurações do trabalho​

Adicionar parâmetros para todas as tarefas de trabalho​

Adicionar tags a um trabalho​

Use Git com Job​

Configurar um provedor Git​

Adicionar uma política orçamentária do serverless a um trabalho​

Renomear, clonar ou excluir um Job​

Excluir um trabalho​

Configurar o limite de duração da execução do trabalho ou o backlog de transmissão métricas​

Habilitar a fila de execução de trabalhos​

Configurar a execução máxima da concorrente​

Qual é a configuração mínima necessária para um trabalho?

Criar um novo trabalho

programar um trabalho

Controle do fluxo de tarefas dentro do trabalho

Selecione um trabalho para editar na seção workspace

Editar configurações do trabalho

Adicionar parâmetros para todas as tarefas de trabalho

Adicionar tags a um trabalho

Use Git com Job

Configurar um provedor Git

Adicionar uma política orçamentária do serverless a um trabalho

Renomear, clonar ou excluir um Job

Excluir um trabalho

Configurar o limite de duração da execução do trabalho ou o backlog de transmissão métricas

Habilitar a fila de execução de trabalhos

Configurar a execução máxima da concorrente