Pular para o conteúdo principal

Configurar um pipeline serverless

Esta página descreve as configurações para um pipeline serverless .

Databricks recomenda o desenvolvimento de um novo pipeline usando serverless. Algumas cargas de trabalho podem exigir a configuração compute clássica ou o uso do Hive metastore legado. Consulte Configurar compute clássica para pipeline e Usar pipeline declarativo LakeFlow Spark com Hive metastorelegado.

nota
  • O pipeline sem servidor sempre usa Unity Catalog. Consulte Usar Unity Catalog com o pipeline.
  • Para limitações compute serverless , consulte Limitações compute sem servidor.
  • Não é possível adicionar manualmente configurações compute em um objeto clusters na configuração JSON para um pipeline serverless . Tentar fazer isso resulta em erro.

Requisitos

Configuração recomendada para pipeline serverless

importante

A permissão de criação de cluster não é necessária para configurar o pipeline serverless . Por default, todos os usuários workspace podem usar o pipeline serverless .

O pipeline sem servidor remove a maioria das opções de configuração, já que Databricks gerencia toda a infraestrutura. Ao criar um novo pipeline, a default é usar o serverless. Para aprender como configurar um pipeline serverless , consulte Configurar pipeline.

Você também pode converter o pipeline existente configurado com Unity Catalog para usar serverless. Consulte Converter um pipeline existente para usar serverless.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipeline serverless :

  • Você pode optar por usar o modo pipeline contínuo ao executar o pipeline em produção. Veja Modo de pipeline disparado vs. contínuo.

  • Adicione notificações para atualizações email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.

  • Use o campo Configuração para definir keypar e o valor do pipeline. Essas configurações atendem a dois propósitos:

  • Use o canal de pré-visualização para testar seu pipeline em relação às alterações pendentes no runtime do pipeline declarativo LakeFlow Spark e para experimentar novos recursos.

política de uso de serverless

info

Visualização

Este recurso está em Visualização Pública.

As políticas de uso de serviços sem servidor permitem que sua organização aplique tags personalizadas ao uso de serviços serverless para uma atribuição de faturamento granular. Após selecionar a opção "sem servidor" , a configuração da política de orçamento será exibida, onde você poderá selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de uso serverless e só podem ser editadas pelos administradores workspace .

nota

Depois de lhe ser atribuída uma política de utilização serverless , os seus pipelines existentes não serão automaticamente etiquetados com a sua política. Você precisa atualizar manualmente os pipelines existentes se quiser associar uma política a eles.

Para mais informações sobre políticas de uso serverless , consulte Uso de atributos com políticas de uso serverless.

Selecione um modo de desempenho

Para pipeline acionado, você pode selecionar o modo de desempenho compute serverless usando a configuração de desempenho otimizado no programador pipeline . Quando essa configuração está desabilitada, o pipeline usa o modo de desempenho padrão. O modo de desempenho padrão foi projetado para reduzir custos de cargas de trabalho em que uma latência de inicialização um pouco maior é aceitável. Cargas de trabalho sem servidor que usam o modo de desempenho padrão geralmente começam de quatro a seis minutos após serem acionadas, dependendo da disponibilidade compute e do programa otimizado.

Quando o desempenho otimizado está habilitado, seu pipeline é otimizado para desempenho, resultando em startup e execução mais rápidas para cargas de trabalho com tempo limitado.

Ambos os modos usam o mesmo SKU, mas o modo de desempenho padrão consome menos DBUs, refletindo menor uso compute .

nota

Para usar o modo de desempenho padrão no pipeline contínuo, entre em contato com sua equipe account Databricks .

recurso pipeline sem servidor

Além de simplificar a configuração, o pipeline serverless tem os seguintes recursos:

  • pipeline de transmissão : para melhorar a utilização, taxa de transferência e latência para cargas de trabalho de dados, como transmissão de dados, microlotes são pipeline . Em outras palavras, em vez de executar microbatches sequencialmente como na transmissão estruturada padrão Spark , o pipeline declarativo LakeFlow Spark serverless executa microbatches simultaneamente, melhorando a utilização dos recursos compute . O pipeline de transmissão está habilitado por default no pipeline serverless .
  • Autoescalonamento vertical : o pipeline declarativo Spark LakeFlow serverless complementa o autoescalonamento horizontal fornecido pelo Databricks , aprimorando-o ao alocar automaticamente os tipos de instância mais econômicos que podem executar seu pipeline sem falhas devido a erros de falta de memória. Veja O que é dimensionamento automático vertical?

Converter um pipeline existente para usar o serverless

Você pode converter um pipeline existente configurado com o Unity Catalog em um pipeline serverless . Conclua os seguintes passos:

  1. Na barra lateral do seu workspace Databricks , clique em Jobs & pipeline .
  2. Clique no Nome do pipeline.
  3. Clique em Configurações .
  4. Na barra lateral direita, em calcular , clique em Ícone de lápis..
  5. Marque a caixa ao lado de sem servidor .
  6. Clique em Salvar .
importante

Quando você habilita serverless, todas as configurações compute que você configurou para um pipeline são removidas. Se você alternar um pipeline de volta para atualizações não semserverless , será necessário reconfigurar as configurações compute desejadas para a configuração pipeline .

Como posso encontrar o uso de DBU de um pipeline serverless ?

Você pode encontrar o uso DBU do pipeline declarativo Spark LakeFlow serverless consultando a tabela de uso faturável, que faz parte das tabelas do sistema Databricks . Veja Qual é o consumo DBU de um pipeline serverless ?