Configurar um serverless DLT pipeline
Este artigo descreve as configurações do pipeline de DLT serverless.
Databricks recomenda o desenvolvimento de um novo pipeline usando o site serverless. Algumas cargas de trabalho podem exigir a configuração do compute clássico ou o trabalho com o Hive metastore legado. Consulte Configurar compute para um DLT pipeline e Usar o pipeline DLT com o legado Hive metastore.
-
O pipeline sem servidor sempre usa Unity Catalog. O Unity Catalog para DLT está em visualização pública e tem algumas limitações. Consulte Usar Unity Catalog com seu pipeline DLT.
-
Para conhecer as limitações do serverless compute , consulte as limitações do compute sem servidor.
-
O senhor não pode adicionar manualmente as configurações de compute em um objeto
clusters
na configuração de JSON para um serverless pipeline. Tentar fazer isso resulta em um erro. -
Se o senhor precisar usar uma conexão AWS PrivateLink com o pipeline serverless DLT, entre em contato com o representante Databricks.
Requisitos
-
Seu workspace deve ter o Unity Catalog ativado para usar o pipeline serverless.
-
O senhor deve ter aceitado os termos de uso do serverless.
-
Seu workspace site deve estar em uma serverlessregião habilitada para.
Configuração recomendada para o pipeline serverless
A permissão de criação de clustering não é necessária para configurar o pipeline serverless. Por meio do default, todos os usuários do workspace podem usar o pipeline serverless.
O pipeline sem servidor remove a maioria das opções de configuração, pois Databricks gerencia toda a infraestrutura. Para configurar um serverless pipeline, faça o seguinte:
-
Clique em DLT na barra lateral.
-
Clique em Create pipeline (Criar pipeline ).
-
Forneça um nome exclusivo para o pipeline.
-
Marque a caixa ao lado de sem servidor .
-
(Opcional) Use o seletor de arquivos
para configurar os arquivos do Notebook e workspace como código-fonte .
-
Se o senhor não adicionar nenhum código-fonte, será criado um novo Notebook para o site pipeline. O Notebook é criado em um novo diretório no seu diretório de usuário, e um link para acessar esse Notebook é mostrado no campo Código-fonte no painel de detalhes do pipeline após a criação do pipeline.
- Um link para acessar esse Notebook está presente no campo Código-fonte , no painel de detalhes do pipeline , depois que o senhor criar seu pipeline.
-
Use o botão Add source code (Adicionar código-fonte ) para adicionar código-fonte ativo adicional.
-
-
Selecione um catálogo para publicar dados.
-
Selecione um esquema no catálogo. Todas as tabelas de transmissão e visualizações materializadas definidas no site pipeline são criadas nesse esquema.
-
Clique em Criar .
Essas configurações recomendadas criam um novo pipeline configurado para execução no modo Triggered e o canal Current . Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre o pipeline de programação, consulte DLT pipeline tarefa for Job.
O senhor também pode converter o pipeline existente configurado com Unity Catalog para usar serverless. Consulte Converter um pipeline existente para usar o serverless.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para o pipeline serverless:
-
O senhor pode optar por usar o modo Contínuo pipeline ao executar o pipeline na produção. Consulte Modo de pipeline acionado vs. contínuo.
-
Adicionar notificações para atualizações do site email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.
-
Use o campo Configuration para definir o valor keypara o pipeline. Essas configurações têm duas finalidades:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com o pipeline DLT.
- Configurar as definições do pipeline e as configurações do Spark. Consulte a referência de propriedades DLT.
-
Use o canal Preview para testar seu pipeline em relação às alterações pendentes de tempo de execução do DLT e testar novos recursos.
Política orçamentária
Visualização
Esse recurso está em Public Preview.
As políticas de orçamento permitem que sua organização aplique tags personalizadas no uso do serverless para atribuição de faturamento granular. Depois de marcar a caixa de seleção sem servidor , a configuração da política de orçamento é exibida, onde o senhor pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política orçamentária e só podem ser editadas pelos administradores do site workspace.
Após a atribuição de uma política de orçamento ao senhor, os seus pipelines existentes não são automaticamente marcados com a sua política. O senhor deve atualizar manualmente os pipelines existentes se quiser anexar uma política a eles.
Para obter mais informações sobre políticas orçamentárias, consulte Atributo serverless uso com políticas orçamentárias.
sem servidor pipeline recurso
Além de simplificar a configuração, o pipeline serverless tem o seguinte recurso:
-
Incremental refresh para visualização materializada : As atualizações da visualização materializada são atualizadas de forma incremental sempre que possível. O Incremental refresh tem os mesmos resultados que a recomputação completa. A atualização usa um refresh completo se os resultados não puderem ser computados de forma incremental. Consulte Incremental refresh para visualização materializada.
-
pipeline de transmissão : Para melhorar a utilização, a taxa de transferência e a latência das cargas de trabalho de transmissão de dados, como a ingestão de dados, os microbatches são um pipeline . Em outras palavras, em vez de executar microbatches sequencialmente como o padrão Spark transmissão estructurada, o pipeline serverless DLT executa microbatches simultaneamente, melhorando a utilização do recurso compute. O pipeline de transmissão é ativado por default em serverless pipeline DLT.
-
Escala automática vertical : serverless O pipeline DLT aumenta a autoescala horizontal fornecida pela autoescala aprimorada Databricks alocando automaticamente os tipos de instância mais econômicos que podem executar seu DLT pipeline sem falhar devido a erros de falta de memória. Consulte O que é a escala automática vertical?
O que é a escala automática vertical?
A autoescala vertical do pipeline DLT sem servidor aloca automaticamente os tipos de instância disponíveis mais econômicos para executar suas atualizações do DLT pipeline sem falhar devido a erros de falta de memória. A escala automática vertical aumenta quando são necessários tipos de instância maiores para executar uma atualização do pipeline e também diminui quando determina que a atualização pode ser executada com tipos de instância menores. A escala automática vertical determina se os nós do driver, os nós do worker ou os nós do driver e do worker devem ser dimensionados para cima ou para baixo.
A escala automática vertical é usada em todos os pipelines de DLT do site serverless, incluindo o pipeline usado pela visualização materializada e pelas tabelas de transmissão do site Databricks SQL.
A autoescala vertical funciona detectando atualizações do site pipeline que falharam devido a erros de falta de memória. A autoescala vertical aloca tipos de instância maiores quando essas falhas são detectadas com base nos dados fora da memória coletados da atualização com falha. No modo de produção, uma nova atualização que usa o novo compute recurso é iniciada automaticamente. No modo de desenvolvimento, o novo recurso compute é usado quando o senhor começa manualmente uma nova atualização.
Se a autoescala vertical detectar que a memória das instâncias alocadas está sendo subutilizada de forma consistente, ela reduzirá os tipos de instância a serem usados na próxima atualização do site pipeline.
Converta um pipeline existente para usar o serverless
O senhor pode converter o pipeline existente configurado com Unity Catalog para o pipeline serverless. Conclua as seguintes etapas:
- Clique em DLT na barra lateral.
- Clique no nome do pipeline desejado na lista.
- Clique em Configurações .
- Marque a caixa ao lado de sem servidor .
- Clique em Save and Começar .
Quando o senhor habilita o serverless, todas as configurações do compute que tiver configurado para um pipeline são removidas. Se o senhor mudar um pipeline de volta para atualizações que não sejam doserverless, deverá reconfigurar as definições desejadas do compute para a configuração do pipeline.
Como posso encontrar o uso do DBU de um serverless pipeline?
O senhor pode encontrar o uso DBU do pipeline serverless DLT consultando a tabela de uso faturável, parte das tabelas do sistema Databricks. Consulte Qual é o consumo de DBU de um serverless DLT pipeline?