Crie um pipeline totalmente gerenciado usando Delta Live Tables com serverless compute

Observação

Para obter informações sobre elegibilidade e habilitação para o pipeline serverless DLT, consulte Enable serverless compute .

Este artigo explica como usar Delta Live Tables com serverless compute para executar suas atualizações pipeline com compute totalmente gerenciado e detalha serverless compute recursos que melhoram o desempenho de seu pipeline.

Use o pipeline DLT serverless para executar seu pipeline Delta Live Tables sem configurar e implantar infraestrutura. Com o pipeline serverless DLT, o senhor se concentra na implementação da ingestão de dados e transformações, e Databricks gerencia eficientemente o recurso compute, incluindo a otimização e o dimensionamento compute para suas cargas de trabalho. serverless O pipeline de DLT inclui os seguintes recursos:

  • Otimizado automaticamente compute que executa somente quando necessário.

  • Confiável e totalmente gerenciado compute recurso.

  • Atualizações mais eficientes em dataset com refresh incremental para visualização materializada.

  • Mais rápido startup para o recurso compute que executa a atualização pipeline.

serverless O pipeline DLT também tem o seguinte recurso para otimizar o desempenho de processamento do pipeline, oferecer suporte ao uso mais eficiente do recurso compute e ajudar a reduzir o custo de execução do seu pipeline:

  • pipeline de transmissão: Para melhorar a utilização, a taxa de transferência e a latência das cargas de trabalho de transmissão de dados, como a ingestão de dados, os microbatches são um pipeline. Em outras palavras, em vez de executar microbatches sequencialmente como o padrão Spark transmissão estructurada, o pipeline serverless DLT executa microbatches simultaneamente, levando a uma melhor utilização do recurso compute. O pipeline de transmissão é ativado por default em serverless pipeline DLT.

  • Escala automática vertical: serverless O pipeline DLT complementa a autoescala horizontal fornecida pelo Databricks Enhanced autoscale alocando automaticamente os tipos de instância mais econômicos que podem executar seu Delta Live Tables pipeline sem falhar devido a erros de falta de memória. Consulte O que é a escala automática vertical?

Como a permissão de criação do cluster não é necessária, todos os usuários do workspace podem usar o pipeline do serverless DLT para executar seu fluxo de trabalho.

Requisitos

  • Para usar o pipeline serverless DLT, o site workspace deve ter o Unity Catalog habilitado.

execução a pipeline atualização com serverless DLT pipeline

Importante

Como o compute recurso é totalmente gerenciado para o pipeline do serverless DLT, as configurações do compute não estão disponíveis na interface do usuário do Delta Live Tables para um serverless pipeline. Quando o senhor habilita o serverless, todas as configurações do compute que tiver configurado para um pipeline são removidas. Se o senhor mudar um pipeline de volta para atualizações que não sejam doserverless, essas configurações do compute deverão ser adicionadas novamente à configuração do pipeline. O senhor também não pode adicionar manualmente as configurações do compute em um objeto clusters na configuração do JSON para o pipeline.

Para executar uma atualização do pipeline que use o pipeline do serverless DLT, marque a caixa de seleção serverless quando o senhor criar ou editar um pipeline.

Como a visualização materializada é atualizada no pipeline de DLT do serverless?

Quando possível, os resultados da consulta são atualizados de forma incremental para a visualização materializada em um serverless pipeline. Quando um refresh incremental é realizado, os resultados são equivalentes a uma recomputação completa. Se o view materializado não puder ser atualizado de forma incremental, o processo refresh usará um refresh completo. Consulte refresh operações for materialized view.

O que é a escala automática vertical?

serverless A autoescala vertical do pipeline DLT aloca automaticamente os tipos de instância disponíveis mais econômicos para executar suas atualizações Delta Live Tables pipeline sem falhar devido a erros de falta de memória. A escala automática vertical aumenta quando são necessários tipos de instância maiores para executar uma atualização do pipeline e também diminui quando determina que a atualização pode ser executada com tipos de instância menores. A escala automática vertical determina se os nós do driver, os nós do worker ou os nós do driver e do worker devem ser dimensionados para cima ou para baixo.

A autoescala vertical é usada em todo o pipeline DLT do site serverless, incluindo o pipeline usado pela visualização materializada e pelas tabelas de transmissão do site Databricks SQL.

A autoescala vertical funciona detectando atualizações do site pipeline que falharam devido a erros de falta de memória. Quando essas falhas são detectadas, a autoescala vertical aloca tipos de instância maiores com base nos dados fora da memória coletados da atualização com falha. No modo de produção, uma nova atualização que usa o novo compute recurso é iniciada automaticamente. No modo de desenvolvimento, o novo recurso compute é usado quando o senhor começa manualmente uma nova atualização.

Se a autoescala vertical detectar que a memória das instâncias alocadas está sendo subutilizada de forma consistente, ela reduzirá os tipos de instância a serem usados na próxima atualização do site pipeline.

Limitações

Para usar uma conexão AWS PrivateLink em um pipeline do Delta Live Tables, o pipeline deve ser configurado para usar o canal de visualização.