tarefa de pipeline para Job
LakeFlow Jobs oferece uma abordagem processual para definir relações entre tarefas . O pipeline declarativo LakeFlow Spark fornece uma abordagem declarativa para definir relações entre conjuntos de dados e transformações . Esta página descreve como você pode programar um pipeline declarativo LakeFlow Spark para ser executado como uma tarefa em um Job, usando a interface do usuário de Jobs, a interface do usuário do pipeline declarativo do LakeFlow Spark ou SQL.
Um acionado pipeline é um pipeline que não é executado continuamente, mas deve ser acionado para começar. Uma tarefa de pipeline pode ser o mecanismo de acionamento de um pipeline acionado. Os pipelines contínuos não precisam ser acionados, portanto, acioná-los por meio de uma tarefa seria redundante. Para saber mais sobre pipeline acionado e contínuo, consulte Modo acionado vs. contínuo pipeline.
Configurar uma tarefa de pipeline com a UI do Jobs
O pipeline declarativo LakeFlow Spark gerencia todas as configurações de código-fonte e compute na definição pipeline .
Para adicionar um pipeline a um trabalho, conclua as etapas a seguir:
- Crie e nomeie uma nova tarefa e selecione pipeline para o tipo .
- No menu suspenso do pipeline , selecione um pipeline existente pipeline. O pipeline deve ser um pipeline acionado. O pipeline contínuo não é suportado como uma tarefa de trabalho.
- Opcionalmente, o senhor pode acionar um refresh completo no pipeline.
- Você pode opcionalmente definir substituições de parâmetros no campo Parameters . Consulte Parâmetros.
O senhor também pode criar uma nova ingestão pipeline ao criar uma tarefa, selecionando + Nova ingestão pipeline no painel Adicionar tarefa ou no menu suspenso Tipo de tarefa.
Parâmetros
Beta
Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.
Você pode acessar parâmetros de Job ou tarefa na sua tarefa de pipeline usando referências de valores dinâmicos. Você pode substituir parâmetros adicionando **pares key-value** nos **Parâmetros** da configuração da sua tarefa.
Para obter detalhes sobre como acessar os valores de parâmetro de dentro de seu pipeline, veja Acessar valores de parâmetro de uma tarefa.
Limites de concorrência com tarefas de pipeline
Um pipeline só pode executar uma atualização de cada vez. Jobs que contêm uma tarefa de pipeline estão sujeitos aos seguintes limites de simultaneidade:
- Um Job com
max_concurrent_runs > 1que contém uma tarefa de pipeline é limitado a uma única execução concorrente. A IU do Job exibe um aviso quando este limite é aplicado. - Uma tarefa de pipeline incluída em uma tarefa for-each é limitada a uma iteração concorrente, independentemente da concorrência configurada do loop.
Considere esses limites ao projetar pipelines parametrizados para serem executados com muitas combinações de parâmetros ou em programações apertadas.
Programar um pipeline com a UI pipeline
Adicionar um programar a um pipeline cria um trabalho com uma única tarefa pipeline. O senhor só pode configurar acionadores de programação baseados em tempo usando essa UI. Para obter opções de acionamento mais avançadas, consulte Configurar uma tarefa de pipeline com a interface do usuário do Jobs.
Configure uma tarefa do pipeline em um trabalho agendado usando a interface do usuário do pipeline, concluindo as etapas a seguir:
-
Em seu site workspace, clique em
Jobs & pipeline na barra lateral.
-
Clique no nome do pipeline. A interface do usuário do pipeline é exibida.
-
Clique em programar .
- Se não houver nenhum programa para o endereço pipeline, será exibida a caixa de diálogo New programar .
- Se um ou mais programas já existirem, clique em Add programar .
-
Digite um nome exclusivo para o trabalho no campo Job name .
-
(Opcional) Atualize a frequência do programa.
- Selecione Avançado para obter opções mais detalhadas, incluindo a sintaxe cron.
-
(Opcional) Em More options (Mais opções ), configure um ou mais endereços email para receber alertas sobre pipeline começar, sucesso ou falha.
-
Clique em Criar .
Se o pipeline estiver incluído em um ou mais trabalhos programados, o botão programar mostrará o número do programar existente, por exemplo, programar (5) .
Adicione um programar a uma tabela materializada view ou de transmissão no Databricks SQL
A visualização materializada e as tabelas de transmissão definidas em Databricks SQL suportam programar com base no tempo especificado em CREATE ou ALTER comando.
Para obter detalhes, consulte os artigos a seguir: