Configurar um pipeline serverless

Os pipelines serverless são executados em compute gerenciada pelo Databricks, eliminando a maior parte da configuração da infraestrutura.

O Databricks recomenda desenvolver novos pipelines usando serverless. Algumas cargas de trabalho podem exigir a configuração do compute clássico ou o trabalho com o Hive metastore legado. Consulte Configurar o compute clássico para pipelines e Usar Lakeflow pipelines com o Hive metastore legado.

nota

O pipeline sem servidor sempre usa Unity Catalog. Consulte Usar Unity Catalog com o pipeline.
Para limitações de compute serverless, consulte limitações de compute serverless. As limitações de Trigger do Structured Streaming descritas lá não se aplicam aos modos de pipeline. Os pipelines Serverless suportam os modos acionado, contínuo e em tempo real. Consulte Modo de Trigger vs. pipeline contínuo.
Não é possível adicionar manualmente configurações compute em um objeto clusters na configuração JSON para um pipeline serverless . Tentar fazer isso resulta em erro.

Requisitos

Seu workspace deve ter Unity Catalog habilitado para usar o pipeline serverless .
Você deve ter aceitado os termos de uso do serverless.
Seu workspace deve estar em uma região habilitada paraserverless.

Configuração recomendada para pipeline serverless

importante

A permissão de criação de cluster não é necessária para configurar o pipeline serverless . Por default, todos os usuários workspace podem usar o pipeline serverless .

Os pipelines serverless removem a maioria das opções de configuração, pois a Databricks gerencia toda a infraestrutura. Quando você cria um novo pipeline, o default é usar serverless. Para saber como configurar um pipeline serverless, consulte Configurar pipelines.

Você também pode converter o pipeline existente configurado com Unity Catalog para usar serverless. Consulte Converter um pipeline existente para usar serverless.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipeline serverless :

Você pode optar por usar o modo pipeline contínuo ao executar o pipeline em produção. Veja Modo de pipeline disparado vs. contínuo.
Adicione notificações para atualizações email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.
Use o campo Configuração para definir keypar e o valor do pipeline. Essas configurações atendem a dois propósitos:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com pipeline.
- Configure as definições do pipeline e as configurações do Spark. Consulte a referência de propriedades do pipeline.
Utilize o canal Preview para testar seu pipeline em relação a alterações pendentes do Runtime e experimentar novos recursos.
Declare dependências externas do Python por meio das configurações de Ambiente do pipeline. Reiniciar manualmente o processo do Python (dbutils.library.restartPython()) não é suportado, portanto não é possível instalar ou recarregar dependências em tempo de execução. Consulte Gerenciar dependências do Python para pipelines.

política de uso de serverless

info

Visualização

Este recurso está em Visualização Pública.

As políticas de uso serverless permitem à sua organização aplicar tags personalizadas no uso serverless para atribuição granular de faturamento. Depois de marcar a caixa de seleção Serverless , a configuração Política de uso é exibida, onde você pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de uso serverless e só podem ser editadas por administradores do workspace.

nota

Depois de lhe ser atribuída uma política de utilização serverless , os seus pipelines existentes não serão automaticamente etiquetados com a sua política. Você precisa atualizar manualmente os pipelines existentes se quiser associar uma política a eles.

Para mais informações sobre políticas de uso serverless , consulte Uso de atributos com políticas de uso serverless.

Selecione um modo de desempenho

Para pipeline acionado, você pode selecionar o modo de desempenho compute serverless usando a configuração de desempenho otimizado no programador pipeline . Quando essa configuração está desabilitada, o pipeline usa o modo de desempenho padrão. O modo de desempenho padrão foi projetado para reduzir custos de cargas de trabalho em que uma latência de inicialização um pouco maior é aceitável. Cargas de trabalho sem servidor que usam o modo de desempenho padrão geralmente começam de quatro a seis minutos após serem acionadas, dependendo da disponibilidade compute e do programa otimizado.

Quando o desempenho otimizado está habilitado, seu pipeline é otimizado para desempenho, resultando em startup e execução mais rápidas para cargas de trabalho com tempo limitado.

Ambos os modos usam o mesmo SKU, mas o modo de desempenho padrão consome menos DBUs, refletindo menor uso compute .

nota

Para usar o modo de desempenho padrão no pipeline contínuo, entre em contato com sua equipe account Databricks .

recurso pipeline sem servidor

Além de simplificar a configuração, o pipeline serverless tem os seguintes recursos:

**Pipeline de transmissão**: Para melhorar a utilização, o throughput e a latência para cargas de trabalho de dados de transmissão, como a ingestão de dados, os microbatches são *em pipeline*. Em outras palavras, em vez de executar microbatches sequencialmente como no Spark Structured Streaming padrão, os Lakeflow pipelines serverless executam microbatches simultaneamente, melhorando a utilização dos recursos de compute. O pipelining de transmissão é habilitado por default em pipelines serverless.
Autoscaling vertical : os Serverless LakeFlow Pipelines somam-se ao autoscaling horizontal fornecido pelo autoscaling aprimorado do Databricks, alocando automaticamente os tipos de instância mais econômicos que podem executar seu pipeline sem falhar devido a erros de falta de memória. Consulte O que é autoscaling vertical?

Converter um pipeline existente para usar o serverless

Você pode converter um pipeline existente configurado com o Unity Catalog em um pipeline serverless . Conclua os seguintes passos:

Na barra lateral do seu workspace Databricks , clique em Jobs & pipeline .
Clique no Nome do pipeline.
Clique em Configurações .
Na barra lateral direita, em calcular , clique em .
Marque a caixa ao lado de sem servidor .
Clique em Salvar .

importante

Quando você habilita serverless, todas as configurações compute que você configurou para um pipeline são removidas. Se você alternar um pipeline de volta para atualizações não semserverless , será necessário reconfigurar as configurações compute desejadas para a configuração pipeline .

Localizar o uso de DBU de um pipeline serverless

Você pode encontrar o uso de DBU de LakeFlow Pipelines serverless consultando a tabela de uso faturável, parte das tabelas do sistema Databricks. Consulte Qual é o consumo de DBU de um pipeline serverless?.

Requisitos​

Configuração recomendada para pipeline serverless​

Outras considerações de configuração​

política de uso de serverless​

Selecione um modo de desempenho​

recurso pipeline sem servidor​

Converter um pipeline existente para usar o serverless​

Localizar o uso de DBU de um pipeline serverless​

Requisitos

Configuração recomendada para pipeline serverless

Outras considerações de configuração

política de uso de serverless

Selecione um modo de desempenho

recurso pipeline sem servidor

Converter um pipeline existente para usar o serverless

Localizar o uso de DBU de um pipeline serverless