Pular para o conteúdo principal

CI/CD Usando ativo Bundles Databricks

Databricks recomenda o uso dos Databricks ativo Bundles for CI/CD, que simplificam o desenvolvimento e a implantação de análises de dados complexas, e dos projetos ML para a plataforma Databricks. Os pacotes permitem que o senhor gerencie facilmente muitas configurações personalizadas e automatize compilações, testes e implementações de seus projetos no espaço de trabalho de desenvolvimento, preparação e produção do Databricks.

Para obter informações sobre outras abordagens para CI/CD em Databricks, consulte CI/CD em Databricks.

Como faço para usar o Databricks ativo Bundles como parte do meu CI/CD pipeline no Databricks?

O senhor pode usar Databricks ativo Bundles para definir e gerenciar programaticamente sua implementação Databricks CI/CD , que geralmente inclui:

  • Notebook : Databricks Os notebooks costumam ser uma key parte da engenharia de dados e da ciência de dados fluxo de trabalho. O senhor pode usar o controle de versão para o Notebook e também validá-lo e testá-lo como parte de um CI/CD pipeline. O senhor pode executar testes automatizados no Notebook para verificar se eles estão funcionando conforme o esperado.
  • biblioteca : gerenciar as dependências da biblioteca necessárias para a execução do código implantado. Use o controle de versão na biblioteca e inclua-o em testes e validações automatizados.
  • fluxo de trabalho : Databricks Os trabalhos são compostos por trabalhos que permitem programar e executar tarefas automatizadas usando o Notebook ou o Spark Job.
  • pipeline de dados : O senhor também pode incluir o pipeline de dados na automação do CI/CD, usando o DLTa estrutura em Databricks para declarar o pipeline de dados.
  • Infraestrutura : A configuração da infraestrutura inclui definições e informações de provisionamento para clustering, espaço de trabalho e armazenamento para ambientes de destino. As alterações na infraestrutura podem ser validadas e testadas como parte de um pipeline de CI/CD, garantindo que sejam consistentes e livres de erros.

Etapas para CI/CD na Databricks

Um fluxo típico para um pipeline de CI/CD da Databricks com pacotes inclui as seguintes etapas:

  1. Armazenar : Armazene o código Databricks e o Notebook em um sistema de controle de versão como o Git. Isso permite que você acompanhe as mudanças ao longo do tempo e colabore com outros membros da equipe. Veja as técnicas de CI/CD com pastas Git e Databricks Git (Repos) e as configurações de Git do pacote.
  2. Código : Desenvolva códigos e testes de unidade em um Notebook Databricks no workspace ou localmente usando um IDE externo. Databricks fornece uma extensão do Visual Studio Code que facilita o desenvolvimento e a implantação de alterações no espaço de trabalho do Databricks.
  3. Construir : Use as configurações do Databricks ativo Bundles para criar automaticamente determinados artefatos durante as implementações. Veja artefatos. Além disso, o Pylint estendido com o plug-in pylint doDatabricks Labs ajuda a aplicar padrões de codificação e a detectar bugs no Notebook Databricks e no código do aplicativo.
  4. implantado : alterações implantadas no Databricks workspace usando Databricks ativo Bundles em conjunto com ferramentas como Azure DevOps, Jenkins ou GitHub Actions. Consulte Databricks ativo Bundle deployment modes. Para obter um exemplo de GitHub Actions, consulte GitHub Actions.
  5. Testes : Desenvolver e executar testes automatizados para validar as alterações no código usando ferramentas como pytest. Para testar suas integrações com APIs de workspace, o plug-in pytest da Databricks Labs permite que o senhor crie objetos de workspace e os limpe após a conclusão dos testes.
  6. execução : Use o Databricks CLI em conjunto com o Databricks ativo Bundles para automatizar a execução em seu espaço de trabalho Databricks. Ver execução de um trabalho ou pipeline.
  7. Monitorar : Monitore o desempenho de seu código e o fluxo de trabalho em Databricks usando ferramentas como Azure Monitor ou Datadog. Isso ajuda você a identificar e resolver quaisquer problemas que surjam em seu ambiente de produção.
  8. Iterar : Faça iterações pequenas e frequentes para melhorar e atualizar seu projeto de engenharia de dados ou de ciência de dados. Pequenas mudanças são mais fáceis de reverter do que as grandes.