Configurar e editar os Jobs do Databricks

Este artigo se concentra nas instruções para criar, configurar e editar o trabalho usando o fluxo de trabalho workspace UI. O Databricks tem outros pontos de entrada e ferramentas para configuração, incluindo os seguintes:

Dica

Para view um trabalho como YAML, clique no menu kebab à esquerda de executar agora o trabalho e, em seguida, clique em Mudar para a versão do código (YAML).

Criar um novo trabalho

Esta seção descreve a configuração mínima necessária para criar um novo Job para programar uma tarefa de Notebook com a UI do workspace.

Os trabalhos contêm uma ou mais tarefas. O senhor cria um novo trabalho configurando a primeira tarefa para esse trabalho.

Observação

Cada tipo de tarefa tem opções de configuração dinâmica na interface do usuário workspace. Consulte Configurar e editar Databricks tarefa.

  1. Clique em fluxo de trabalho Icon fluxo de trabalho na barra lateral e clique em Botão criar job.

  2. Digite um nome de tarefa.

  3. Selecione um Notebook para o campo Path (Caminho ).

  4. Clique em Criar tarefa.

Se o seu workspace não estiver habilitado para serverless compute for Job, o senhor deverá selecionar uma opção de computação. Databricks recomenda sempre usar o Job compute ao configurar a tarefa.

Um novo trabalho aparece na lista workspace Job com o nome default New Job <date> <time>.

Selecione um trabalho para editar na seção workspace

Para editar um trabalho existente com a interface do usuário workspace, faça o seguinte:

  1. Clique em fluxo de trabalho Icon fluxo de trabalho na barra lateral.

  2. Na coluna Nome, clique no nome do cargo.

Use a Job UI para fazer o seguinte:

  • Editar configurações de trabalho

  • Renomear, clonar ou excluir um Job

  • Adicionar uma nova tarefa a um trabalho existente

  • Editar configurações de tarefa

Observação

O senhor também pode view as definições de JSON para uso com REST API get, create e Reset endpoint.

Editar configurações do trabalho

O painel lateral contém os detalhes do siteJob . O senhor pode alterar o acionador do trabalho, a configuração do compute, as notificações, o número máximo de execuções concorrente, configurar o limite de duração e adicionar ou alterar o tags. O senhor também pode editar as permissões do trabalho se o controle de acesso ao trabalho estiver ativado.

Adicionar parâmetros para todas as tarefas de trabalho

Os parâmetros configurados no nível do Job são passados para a tarefa do Job que aceita parâmetros key-value, incluindo arquivos Python wheel configurados para aceitar argumentos de palavras-chave. Consulte Parameterize Job.

Adicionar tags a um trabalho

Para adicionar atributos de rótulo ou key-value ao seu trabalho, o senhor pode adicionar tags ao editar o trabalho. O senhor pode usar tags para filtrar o trabalho na lista Jobs. Por exemplo, o senhor pode usar department tag para filtrar todos os trabalhos que pertencem a um departamento específico.

Observação

Como o Job tags não foi projetado para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, o Databricks recomenda o uso do tags somente para valores não confidenciais.

As tags também se propagam para o Job clusters criado quando um Job é executado, permitindo que o senhor use o tags com o seu monitoramentocluster existente.

Clique em + tag no painel lateral de detalhes doJob para adicionar ou editar o tags. O senhor pode adicionar o tag como um rótulo ou par key-value. Para adicionar um rótulo, digite o rótulo no campo de chave e deixe o campo Value vazio.

Adicionar uma política orçamentária a um trabalho

Prévia

Esse recurso está em Prévia Pública.

Se o site workspace usa políticas de orçamento para atribuir o uso do serverless, o senhor pode selecionar a política de orçamento do seu trabalho usando a configuração Budget policy (Política de orç amento) no painel lateralJob details (Detalhes do ). Consulte Atributo serverless uso com políticas orçamentárias.

Renomear, clonar ou excluir um Job

Para renomear um trabalho, vá para a interface do usuário do trabalho e clique no nome do trabalho.

O senhor pode criar rapidamente um novo Job clonando um Job existente. A clonagem de um trabalho cria uma cópia idêntica do trabalho, exceto pelo ID do trabalho. Para clonar um Job, faça o seguinte:

  1. Acesse a Job UI para o trabalho.

  2. Clique em Menu kebab ao lado do botão executar agora.

  3. Selecione Clone Job no menu suspenso.

  4. Digite um nome para o Job clonado.

  5. Clique em Clonar.

Excluir um job

Para excluir um trabalho, vá para a página do trabalho, clique em Menu kebab ao lado do nome do trabalho e selecione Delete Job (Excluir trabalho ) no menu suspenso.

Use Git com Job

Se o seu trabalho contiver alguma tarefa que suporte o uso de um provedor Git remoto, a interface do usuário do trabalho conterá um campo Git e a opção de adicionar ou editar as configurações de Git.

O senhor pode configurar os seguintes tipos de tarefa para usar um repositório Git remoto:

  • Notebooks

  • Scripts Python

  • Arquivos SQL

  • dbt

Todas as tarefas em um trabalho devem fazer referência ao mesmo commit no repositório remoto. O senhor deve especificar apenas um dos seguintes itens para um trabalho que usa um repositório remoto:

  • branch: O nome do branch, por exemplo, main.

  • tag: O nome da tag, por exemplo, release-1.0.0.

  • commit: O hash de um commit específico, por exemplo, e0056d01.

Quando a execução de um trabalho começa, o site Databricks obtém um Snapshot commit do repositório remoto para garantir que todo o trabalho seja executado com a mesma versão do código.

Quando o senhor view o histórico de execução de uma tarefa que executa código armazenado em um repositório Git remoto, o painel de detalhes da execução da tarefa inclui detalhes Git, inclusive o SHA commit associado à execução. Veja a história da tarefa execução.

Observação

A tarefa configurada para usar um repositório Git remoto não pode gravar em arquivos workspace. Eles devem gravar dados temporários no armazenamento efêmero do driver e dados persistentes em um volume ou tabela.

Databricks recomenda a criação de trabalhos que façam referência a caminhos workspace em pastas Git apenas para iteração e testes rápidos durante o desenvolvimento. Databricks recomenda reconfigurar o Job para fazer referência a um repositório Git remoto à medida que o senhor passa para a fase de preparação e produção. Saiba mais sobre o código-fonte com controle de versão em um trabalho em Databricks.

Configurar um provedor Git

A Job UI tem uma caixa de diálogo para configurar um repositório Git remoto. Essa caixa de diálogo pode ser acessada no painel de detalhes doJob sob o título Git ou em qualquer tarefa configurada para usar um provedorGit .

As opções exibidas para acessar a caixa de diálogo variam de acordo com o tipo de tarefa e se uma referência git já foi configurada ou não para o trabalho. Os botões para abrir a caixa de diálogo incluem Adicionar configurações do Git, Editar ou Adicionar uma referência do git.

Na caixa de diálogo Git informações (apenas o rótulo Git se o acesso for feito pelo painel de detalhesJob ), insira os seguintes detalhes:

  • O URL do repositório Git.

  • Selecione seu provedorGit na lista dropdown.

  • No campo de referênciaGit , digite o identificador de uma ramificação, tag, ou commit que corresponda à versão do código-fonte que o senhor deseja executar.

  • Selecione o ramo, tag, ou commit no site dropdown.

Observação

A caixa de diálogo pode solicitar o seguinte: Git credenciais para este account estão faltando. Adicione as credenciais. O senhor deve configurar um repositório Git remoto antes de usá-lo como referência. Consulte Configurar pastas Git do Databricks (Repos).

Configurar um tempo de conclusão esperado ou um tempo limite para um trabalho

O senhor pode configurar um limite de duração opcional para um trabalho, incluindo um tempo de conclusão esperado e máximo. Para configurar a duração limite, clique em Set duração limite em duração limite no painel de detalhes do siteJob .

Digite uma duração no campo Warning (Aviso) para configurar o tempo de conclusão esperado do trabalho. Se o trabalho exceder esse limite, um evento será acionado. O senhor pode usar esse evento para notificar quando um trabalho estiver sendo executado lentamente. Consulte Configurar notificações para trabalhos de execução lenta ou atrasada.

Para configurar um tempo máximo de conclusão para um trabalho, insira a duração máxima no campo Timeout (Tempo limite ). Se o trabalho não for concluído nesse período, o site Databricks definirá seu status como "Timed Out".

Opcionalmente, o senhor pode especificar a duração limite da tarefa. Consulte Configurar um tempo de conclusão esperado ou um tempo limite para uma tarefa.