Configurar um pipeline Delta Live Tables sem servidor
Este artigo descreve as configurações do pipeline serverless Delta Live Tables .
Databricks recomenda o desenvolvimento de um novo pipeline usando o site serverless. Algumas cargas de trabalho podem exigir a configuração do compute clássico ou o trabalho com o Hive metastore legado. Consulte Configurar compute para um Delta Live Tables pipelinee Usar o pipeline Delta Live Tables com o legado Hive metastore.
Observação
O pipeline sem servidor sempre usa Unity Catalog. O Unity Catalog para Delta Live Tables está em visualização pública e tem algumas limitações. Consulte Usar Unity Catalog com seu pipeline Delta Live Tables .
O senhor não pode adicionar manualmente as configurações de compute em um objeto
clusters
na configuração de JSON para um serverless pipeline. Tentar fazer isso resulta em um erro.Para obter informações sobre elegibilidade e habilitação para o pipeline serverless DLT, consulte Enable serverless compute .
Se o senhor precisar usar uma conexão AWS PrivateLink com o pipeline serverless DLT, entre em contato com o representante Databricks.
Requisitos
Seu workspace deve ter o Unity Catalog ativado para usar o pipeline serverless.
O senhor deve ter aceitado os termos de uso do serverless.
Seu site workspace deve estar em uma região habilitada paraserverless.
Configuração recomendada para o pipeline serverless
Importante
A permissão de criação de cluster não é necessária para configurar o pipeline serverless. Por meio do default, todos os usuários do workspace podem usar o pipeline serverless.
O pipeline sem servidor remove a maioria das opções de configuração, pois Databricks gerencia toda a infraestrutura. Para configurar um serverless pipeline, faça o seguinte:
Clique em Delta Live Tables na barra lateral.
Clique em Create pipeline (Criar pipeline).
Forneça um nome exclusivo para o pipeline.
Marque a caixa ao lado de sem servidor.
(Opcional) Use o seletor de arquivos para configurar os arquivos do Notebook e workspace como código-fonte.
Se o senhor não adicionar nenhum código-fonte, será criado um novo Notebook para o site pipeline. O Notebook é criado em um novo diretório no seu diretório de usuário, e um link para acessar esse Notebook é mostrado no campo Código-fonte no painel de detalhes do pipeline após a criação do pipeline.
Um link para acessar esse Notebook está presente no campo Código-fonte, no painel de detalhes do pipeline, depois que o senhor criar seu pipeline.
Use o botão Add source code (Adicionar código-fonte ) para adicionar código-fonte ativo adicional.
Selecione um catálogo para publicar dados.
Selecione um esquema no catálogo. Todas as tabelas de transmissão e visualizações materializadas definidas no site pipeline são criadas nesse esquema.
Clique em Criar.
Essas configurações recomendadas criam um novo pipeline configurado para execução no modo Triggered e o canal Current. Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre o pipeline de programação, consulte Delta Live Tables pipeline tarefa for Job.
O senhor também pode converter o pipeline existente configurado com Unity Catalog para usar serverless. Consulte Converter um pipeline existente para usar o serverless.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para o pipeline serverless:
O senhor pode optar por usar o modo Contínuo pipeline ao executar o pipeline na produção. Consulte Modo de pipeline acionado vs. contínuo.
Adicionar notificações para atualizações do site email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline .
Use o campo Configuration para definir o valor keypara o pipeline. Essas configurações têm duas finalidades:
Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com o pipeline Delta Live Tables .
Configurar as definições do pipeline e as configurações do Spark. Consulte a referência das propriedades do Delta Live Tables.
Use o canal Preview para testar seu pipeline em relação às alterações pendentes de tempo de execução do Delta Live Tables e testar novos recursos.
Política orçamentária
Visualização
Esse recurso está em Prévia Pública.
As políticas de orçamento permitem que sua organização aplique tags personalizadas no uso do serverless para atribuição de faturamento granular. Depois de marcar a caixa de seleção sem servidor, a configuração da política de orçamento é exibida, onde o senhor pode selecionar a política que deseja aplicar ao pipeline. O tags é herdado da política orçamentária e só pode ser editado pelos administradores do workspace.
Observação
Após a atribuição de uma política de orçamento ao senhor, seus pipelines existentes não são automaticamente marcados com a política. O senhor deve atualizar manualmente os pipelines existentes se quiser anexar uma política a eles.
Para obter mais informações sobre políticas orçamentárias, consulte Atributo serverless uso com políticas orçamentárias.
sem servidor pipeline recurso
Além de simplificar a configuração, o pipeline serverless tem o seguinte recurso:
Incremental refresh para visualização materializada: As atualizações da visualização materializada são atualizadas de forma incremental sempre que possível. O Incremental refresh tem os mesmos resultados que a recomputação completa. A atualização usa um refresh completo se os resultados não puderem ser computados de forma incremental. Consulte Incremental refresh para visualização materializada.
pipeline de transmissão: Para melhorar a utilização, a taxa de transferência e a latência das cargas de trabalho de transmissão de dados, como a ingestão de dados, os microbatches são um pipeline. Em outras palavras, em vez de executar microbatches sequencialmente como o padrão Spark transmissão estructurada, o pipeline serverless DLT executa microbatches simultaneamente, melhorando a utilização do recurso compute. O pipeline de transmissão é ativado por default em serverless pipeline DLT.
Escala automática vertical: serverless O pipeline DLT acrescenta à autoescala horizontal fornecida pela autoescala aprimorada Databricks alocando automaticamente os tipos de instância mais econômicos que podem executar seu Delta Live Tables pipeline sem falhar devido a erros de falta de memória. Consulte O que é a escala automática vertical?
O que é a escala automática vertical?
serverless A autoescala vertical do pipeline DLT aloca automaticamente os tipos de instância disponíveis mais econômicos para executar suas atualizações Delta Live Tables pipeline sem falhar devido a erros de falta de memória. A escala automática vertical aumenta quando são necessários tipos de instância maiores para executar uma atualização do pipeline e também diminui quando determina que a atualização pode ser executada com tipos de instância menores. A escala automática vertical determina se os nós do driver, os nós do worker ou os nós do driver e do worker devem ser dimensionados para cima ou para baixo.
A autoescala vertical é usada em todo o pipeline DLT do site serverless, incluindo o pipeline usado pela visualização materializada e pelas tabelas de transmissão do site Databricks SQL.
A autoescala vertical funciona detectando atualizações do pipeline que falharam devido a erros de falta de memória. A autoescala vertical aloca tipos de instância maiores quando essas falhas são detectadas com base nos dados fora da memória coletados da atualização com falha. No modo de produção, uma nova atualização que usa o novo compute recurso é iniciada automaticamente. No modo de desenvolvimento, o novo recurso compute é usado quando o senhor começa manualmente uma nova atualização.
Se a autoescala vertical detectar que a memória das instâncias alocadas está sendo subutilizada de forma consistente, ela reduzirá os tipos de instância a serem usados na próxima atualização do site pipeline.
Converta um pipeline existente para usar o serverless
O senhor pode converter o pipeline existente configurado com Unity Catalog para o pipeline serverless. Complete os seguintes passos:
Clique em Delta Live Tables na barra lateral.
Clique no nome do pipeline desejado na lista.
Clique em Configurações.
Marque a caixa ao lado de sem servidor.
Clique em Save and Começar.
Importante
Quando o senhor habilita o serverless, todas as configurações do compute que tiver configurado para um pipeline são removidas. Se o senhor mudar um pipeline de volta para atualizações que não sejam doserverless, deverá reconfigurar as configurações desejadas do compute para a configuração do pipeline.
Como posso encontrar o uso de DBU de um pipeline sem servidor?
O senhor pode encontrar o uso DBU do pipeline serverless DLT consultando a tabela de uso faturável, parte das tabelas do sistema Databricks. Consulte Qual é o consumo de DBU de um pipeline DLT sem servidor?