Configurar um pipeline serverless

Este artigo descreve configurações para o pipeline declarativo LakeFlow serverless .

Databricks recomenda desenvolver um novo pipeline usando serverless. Algumas cargas de trabalho podem exigir a configuração compute clássica ou o trabalho com o Hive metastore legado. Consulte Configurar compute clássica para o pipeline declarativo LakeFlow e Usar o pipeline declarativo LakeFlow com Hive metastorelegado.

nota

O pipeline sem servidor sempre usa Unity Catalog. Consulte Usar Unity Catalog com seu pipeline declarativo LakeFlow.
Para limitações compute serverless , consulte Limitações compute sem servidor.
Não é possível adicionar manualmente configurações compute em um objeto clusters na configuração JSON para um pipeline serverless . Tentar fazer isso resulta em erro.
Se você precisar usar uma conexão AWS PrivateLink com seu pipeline declarativo LakeFlow serverless , entre em contato com seu representante Databricks .

Requisitos

Seu workspace deve ter Unity Catalog habilitado para usar o pipeline serverless .
Você deve ter aceitado os termos de uso do serverless.
Seu workspace deve estar em uma região habilitada paraserverless.

Configuração recomendada para pipeline serverless

important

A permissão de criação de cluster não é necessária para configurar o pipeline serverless . Por default, todos os usuários workspace podem usar o pipeline serverless .

O pipeline sem servidor remove a maioria das opções de configuração, já que Databricks gerencia toda a infraestrutura. Ao criar um novo pipeline, o default é usar serverless. Para saber como configurar um pipeline serverless , consulte Configurar pipeline declarativo LakeFlow.

Você também pode converter o pipeline existente configurado com Unity Catalog para usar serverless. Consulte Converter um pipeline existente para usar serverless.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipeline serverless :

Você pode optar por usar o modo pipeline contínuo ao executar o pipeline em produção. Veja Modo de pipeline disparado vs. contínuo.
Adicione notificações para atualizações email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.
Use o campo Configuração para definir keypar e o valor do pipeline. Essas configurações atendem a dois propósitos:
- Defina parâmetros arbitrários que você pode referenciar no seu código-fonte. Consulte Usar parâmetros com pipeline declarativo LakeFlow.
- Configure as definições do pipeline e as configurações do Spark. Consulte a referência de propriedades do pipeline declarativoLakeFlow.
Use o canal de visualização para testar seu pipeline em relação às alterações pendentes de tempo de execução do pipeline declarativo LakeFlow e testar o novo recurso.

política de orçamento sem servidor

info

Visualização

Este recurso está em Visualização Pública.

As políticas de orçamento sem servidor permitem que sua organização aplique tags personalizadas no uso serverless para atribuição de faturamento granular. Depois de selecionar a caixa de seleção sem servidor , a configuração da política de orçamento é exibida, onde você pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de orçamento serverless e só podem ser editadas por administradores workspace .

nota

Depois que uma política de orçamento serverless for atribuída a você, seu pipeline existente não será automaticamente marcado com sua política. Você deve atualizar manualmente o pipeline existente se quiser anexar uma política a ele.

Para obter mais informações sobre políticas de orçamento serverless , consulte Uso de atributos com políticas de orçamento serverless.

Selecione um modo de desempenho

Para pipeline acionado, você pode selecionar o modo de desempenho compute serverless usando a configuração de desempenho otimizado no programador pipeline . Quando essa configuração está desabilitada, o pipeline usa o modo de desempenho padrão. O modo de desempenho padrão foi projetado para reduzir custos de cargas de trabalho em que uma latência de inicialização um pouco maior é aceitável. Cargas de trabalho sem servidor que usam o modo de desempenho padrão geralmente começam de quatro a seis minutos após serem acionadas, dependendo da disponibilidade compute e do programa otimizado.

Quando o desempenho otimizado está habilitado, seu pipeline é otimizado para desempenho, resultando em startup e execução mais rápidas para cargas de trabalho com tempo limitado.

Ambos os modos usam o mesmo SKU, mas o modo de desempenho padrão consome menos DBUs, refletindo menor uso compute .

nota

Para usar o modo de desempenho padrão no pipeline contínuo, entre em contato com sua equipe account Databricks .

recurso pipeline sem servidor

Além de simplificar a configuração, o pipeline serverless tem os seguintes recursos:

refresh incremental para visualização materializada : as atualizações para visualização materializada são atualizadas incrementalmente sempre que possível. refresh incremental tem os mesmos resultados que a recomputação completa. A atualização usa uma refresh completa se os resultados não puderem ser computados incrementalmente. Veja refresh incremental para visualização materializada.
pipeline de transmissão : para melhorar a utilização, taxa de transferência e latência para cargas de trabalho de dados, como transmissão de dados, microlotes são pipeline . Em outras palavras, em vez de executar microbatches sequencialmente como Spark padrão, o pipeline declarativo LakeFlow serverless executa microbatches simultaneamente, melhorando a utilização de recursos de compute . O pipeline de transmissão é habilitado por default no pipeline declarativo LakeFlow serverless .
Autoescala vertical : o pipeline declarativo LakeFlow serverless é adicionado à autoescala horizontal fornecida pela autoescala aprimorada do Databricks , alocando automaticamente os tipos de instância mais econômicos que podem executar seu pipeline sem falhar devido a erros de falta de memória. Veja O que é autoescala vertical?

Converter um pipeline existente para usar o serverless

Você pode converter um pipeline existente configurado com o Unity Catalog em um pipeline serverless . Conclua os seguintes passos:

Na barra lateral do seu workspace Databricks , clique em Jobs & pipeline .
Clique no Nome do pipeline.
Clique em Configurações .
Na barra lateral direita, em calcular , clique em .
Marque a caixa ao lado de sem servidor .
Clique em Salvar .

important

Quando você habilita serverless, todas as configurações compute que você configurou para um pipeline são removidas. Se você alternar um pipeline de volta para atualizações não semserverless , será necessário reconfigurar as configurações compute desejadas para a configuração pipeline .

Como posso encontrar o uso de DBU de um pipeline serverless ?

Você pode encontrar o uso de DBU do pipeline declarativo LakeFlow serverless consultando a tabela de uso faturável, parte das tabelas do sistema Databricks . Veja Qual é o consumo de DBU de um pipeline serverless ?.

Requisitos​

Configuração recomendada para pipeline serverless​

Outras considerações de configuração​

política de orçamento sem servidor​

Selecione um modo de desempenho​

recurso pipeline sem servidor​

Converter um pipeline existente para usar o serverless​

Como posso encontrar o uso de DBU de um pipeline serverless ?​

Requisitos

Configuração recomendada para pipeline serverless

Outras considerações de configuração

política de orçamento sem servidor

Selecione um modo de desempenho

recurso pipeline sem servidor

Converter um pipeline existente para usar o serverless

Como posso encontrar o uso de DBU de um pipeline serverless ?