Pular para o conteúdo principal

Configurar um pipeline serverless

Este artigo descreve configurações para o pipeline declarativo LakeFlow serverless .

Databricks recomenda desenvolver um novo pipeline usando serverless. Algumas cargas de trabalho podem exigir a configuração compute clássica ou o trabalho com o Hive metastore legado. Consulte Configurar compute clássica para o pipeline declarativo LakeFlow e Usar o pipeline declarativo LakeFlow com Hive metastorelegado.

nota

Requisitos

Configuração recomendada para pipeline serverless

important

A permissão de criação de cluster não é necessária para configurar o pipeline serverless . Por default, todos os usuários workspace podem usar o pipeline serverless .

O pipeline sem servidor remove a maioria das opções de configuração, já que Databricks gerencia toda a infraestrutura. Ao criar um novo pipeline, o default é usar serverless. Para saber como configurar um pipeline serverless , consulte Configurar pipeline declarativo LakeFlow.

Você também pode converter o pipeline existente configurado com Unity Catalog para usar serverless. Consulte Converter um pipeline existente para usar serverless.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipeline serverless :

política de orçamento sem servidor

info

Visualização

Este recurso está em Visualização Pública.

As políticas de orçamento sem servidor permitem que sua organização aplique tags personalizadas no uso serverless para atribuição de faturamento granular. Depois de selecionar a caixa de seleção sem servidor , a configuração da política de orçamento é exibida, onde você pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de orçamento serverless e só podem ser editadas por administradores workspace .

nota

Depois que uma política de orçamento serverless for atribuída a você, seu pipeline existente não será automaticamente marcado com sua política. Você deve atualizar manualmente o pipeline existente se quiser anexar uma política a ele.

Para obter mais informações sobre políticas de orçamento serverless , consulte Uso de atributos com políticas de orçamento serverless.

Selecione um modo de desempenho

Para pipeline acionado, você pode selecionar o modo de desempenho compute serverless usando a configuração de desempenho otimizado no programador pipeline . Quando essa configuração está desabilitada, o pipeline usa o modo de desempenho padrão. O modo de desempenho padrão foi projetado para reduzir custos de cargas de trabalho em que uma latência de inicialização um pouco maior é aceitável. Cargas de trabalho sem servidor que usam o modo de desempenho padrão geralmente começam de quatro a seis minutos após serem acionadas, dependendo da disponibilidade compute e do programa otimizado.

Quando o desempenho otimizado está habilitado, seu pipeline é otimizado para desempenho, resultando em startup e execução mais rápidas para cargas de trabalho com tempo limitado.

Ambos os modos usam o mesmo SKU, mas o modo de desempenho padrão consome menos DBUs, refletindo menor uso compute .

nota

Para usar o modo de desempenho padrão no pipeline contínuo, entre em contato com sua equipe account Databricks .

recurso pipeline sem servidor

Além de simplificar a configuração, o pipeline serverless tem os seguintes recursos:

  • pipeline de transmissão : para melhorar a utilização, taxa de transferência e latência para cargas de trabalho de dados, como transmissão de dados, microlotes são pipeline . Em outras palavras, em vez de executar microbatches sequencialmente como Spark padrão, o pipeline declarativo LakeFlow serverless executa microbatches simultaneamente, melhorando a utilização de recursos de compute . O pipeline de transmissão é habilitado por default no pipeline declarativo LakeFlow serverless .
  • Autoescala vertical : o pipeline declarativo LakeFlow serverless é adicionado à autoescala horizontal fornecida pela autoescala aprimorada do Databricks , alocando automaticamente os tipos de instância mais econômicos que podem executar seu pipeline sem falhar devido a erros de falta de memória. Veja O que é autoescala vertical?

Converter um pipeline existente para usar o serverless

Você pode converter um pipeline existente configurado com o Unity Catalog em um pipeline serverless . Conclua os seguintes passos:

  1. Na barra lateral do seu workspace Databricks , clique em Jobs & pipeline .
  2. Clique no Nome do pipeline.
  3. Clique em Configurações .
  4. Na barra lateral direita, em calcular , clique em Ícone de lápis..
  5. Marque a caixa ao lado de sem servidor .
  6. Clique em Salvar .
important

Quando você habilita serverless, todas as configurações compute que você configurou para um pipeline são removidas. Se você alternar um pipeline de volta para atualizações não semserverless , será necessário reconfigurar as configurações compute desejadas para a configuração pipeline .

Como posso encontrar o uso de DBU de um pipeline serverless ?

Você pode encontrar o uso de DBU do pipeline declarativo LakeFlow serverless consultando a tabela de uso faturável, parte das tabelas do sistema Databricks . Veja Qual é o consumo de DBU de um pipeline serverless ?.