Configurar um serverless DLT pipeline
Este artigo descreve as configurações do pipeline de DLT serverless.
Databricks recomenda o desenvolvimento de um novo pipeline usando o site serverless. Algumas cargas de trabalho podem exigir a configuração do compute clássico ou o trabalho com o Hive metastore legado. Consulte Configurar compute para um DLT pipeline e Usar o pipeline DLT com o legado Hive metastore.
-
O pipeline sem servidor sempre usa Unity Catalog. Consulte Usar Unity Catalog com seu pipeline DLT.
-
Para conhecer as limitações do serverless compute , consulte as limitações do compute sem servidor.
-
O senhor não pode adicionar manualmente as configurações de compute em um objeto
clusters
na configuração de JSON para um serverless pipeline. Tentar fazer isso resulta em um erro. -
Se o senhor precisar usar uma conexão AWS PrivateLink com o pipeline serverless DLT, entre em contato com o representante Databricks.
Requisitos
-
Seu workspace deve ter o Unity Catalog ativado para usar o pipeline serverless.
-
O senhor deve ter aceitado os termos de uso do serverless.
-
Seu workspace site deve estar em uma serverlessregião habilitada para.
Configuração recomendada para o pipeline serverless
A permissão de criação de clustering não é necessária para configurar o pipeline serverless. Por meio do default, todos os usuários do workspace podem usar o pipeline serverless.
O pipeline sem servidor remove a maioria das opções de configuração, pois Databricks gerencia toda a infraestrutura. Para configurar um serverless pipeline, faça o seguinte:
-
Clique em DLT na barra lateral.
-
Clique em Create pipeline (Criar pipeline ).
-
Forneça um nome exclusivo para o pipeline.
-
Marque a caixa ao lado de sem servidor .
-
(Opcional) Use o seletor de arquivos
para configurar os arquivos do Notebook e workspace como código-fonte .
-
Se o senhor não adicionar nenhum código-fonte, será criado um novo Notebook para o site pipeline. O Notebook é criado em um novo diretório no seu diretório de usuário, e um link para acessar esse Notebook é mostrado no campo Código-fonte no painel de detalhes do pipeline após a criação do pipeline.
- Um link para acessar esse Notebook está presente no campo Código-fonte , no painel de detalhes do pipeline , depois que o senhor criar seu pipeline.
-
Use o botão Add source code (Adicionar código-fonte ) para adicionar código-fonte ativo adicional.
-
-
Selecione um catálogo para publicar dados.
-
Selecione um esquema no catálogo. Todas as tabelas de transmissão e visualizações materializadas definidas no site pipeline são criadas nesse esquema.
-
Clique em Criar .
Essas configurações recomendadas criam um novo pipeline configurado para execução no modo Triggered e o canal Current . Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre o pipeline de programação, consulte DLT pipeline tarefa for Job.
O senhor também pode converter o pipeline existente configurado com Unity Catalog para usar serverless. Consulte Converter um pipeline existente para usar o serverless.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para o pipeline serverless:
-
O senhor pode optar por usar o modo Contínuo pipeline ao executar o pipeline na produção. Consulte Modo de pipeline acionado vs. contínuo.
-
Adicionar notificações para atualizações do site email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.
-
Use o campo Configuration para definir o valor keypara o pipeline. Essas configurações têm duas finalidades:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com o pipeline DLT.
- Configurar as definições do pipeline e as configurações do Spark. Consulte a referência de propriedades DLT.
-
Use o canal Preview para testar seu pipeline em relação às alterações pendentes de tempo de execução do DLT e testar novos recursos.
política orçamentária serverless
Visualização
Esse recurso está em Public Preview.
As políticas de orçamento sem servidor permitem que sua organização aplique tags personalizadas no uso do serverless para atribuição de faturamento granular. Depois de marcar a caixa de seleção sem servidor , a configuração da política de orçamento é exibida, onde o senhor pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política orçamentária do site serverless e só podem ser editadas pelos administradores do site workspace.
Depois que o senhor recebe uma política de orçamento serverless, os seus pipelines existentes não são automaticamente marcados com a sua política. O senhor deve atualizar manualmente os pipelines existentes se quiser anexar uma política a eles.
Para saber mais sobre as políticas orçamentárias do site serverless, consulte Uso de atributos com políticas orçamentárias do site serverless.
Selecione um modo de desempenho
O modo de desempenho padrão está em Public Preview.
Para o pipeline acionado, o senhor pode selecionar o modo de desempenho serverless compute usando a configuração de desempenho otimizado no programador pipeline. Quando essa configuração está desativada, o pipeline usa o modo de desempenho padrão. O modo de desempenho padrão foi projetado para reduzir os custos das cargas de trabalho em que uma latência de inicialização ligeiramente maior é aceitável. As cargas de trabalho sem servidor que usam o modo de desempenho padrão normalmente começam de quatro a seis minutos após serem acionadas, dependendo da disponibilidade do site compute e da programação otimizada.
Quando o desempenho otimizado está ativado, o site pipeline é otimizado para desempenho, resultando em startup e execução mais rápidos para cargas de trabalho sensíveis ao tempo.
O modo de desempenho padrão é compatível apenas com o modo de pipeline acionado . A execução contínua não é suportada.
sem servidor pipeline recurso
Além de simplificar a configuração, o pipeline serverless tem o seguinte recurso:
-
Incremental refresh para visualização materializada : As atualizações da visualização materializada são atualizadas de forma incremental sempre que possível. O Incremental refresh tem os mesmos resultados que a recomputação completa. A atualização usa um refresh completo se os resultados não puderem ser computados de forma incremental. Consulte Incremental refresh para visualização materializada.
-
pipeline de transmissão : Para melhorar a utilização, a taxa de transferência e a latência das cargas de trabalho de transmissão de dados, como a ingestão de dados, os microbatches são um pipeline . Em outras palavras, em vez de executar microbatches sequencialmente como o padrão Spark transmissão estructurada, o pipeline serverless DLT executa microbatches simultaneamente, melhorando a utilização do recurso compute. O pipeline de transmissão é ativado por default em serverless pipeline DLT.
-
Escala automática vertical : serverless O pipeline DLT aumenta a autoescala horizontal fornecida pela autoescala aprimorada Databricks alocando automaticamente os tipos de instância mais econômicos que podem executar seu DLT pipeline sem falhar devido a erros de falta de memória. Consulte O que é a escala automática vertical?
Converta um pipeline existente para usar o serverless
O senhor pode converter o pipeline existente configurado com Unity Catalog para o pipeline serverless. Conclua as seguintes etapas:
- Clique em DLT na barra lateral.
- Clique no nome do pipeline desejado na lista.
- Clique em Configurações .
- Marque a caixa ao lado de sem servidor .
- Clique em Save and Começar .
Quando o senhor habilita o serverless, todas as configurações do compute que tiver configurado para um pipeline são removidas. Se o senhor mudar um pipeline de volta para atualizações que não sejam doserverless, deverá reconfigurar as definições desejadas do compute para a configuração do pipeline.
Como posso encontrar o uso do DBU de um serverless pipeline?
O senhor pode encontrar o uso DBU do pipeline serverless DLT consultando a tabela de uso faturável, parte das tabelas do sistema Databricks. Consulte Qual é o consumo de DBU de um serverless DLT pipeline?