Databricks ativo Desenvolvimento de pacotes fluxo de trabalho

Este artigo descreve a sequência de tarefas de trabalho para o desenvolvimento do Databricks ativo Bundle . Consulte O que são pacotes Databricks ativos?

Para criar, validar, aprimorar e executar pacotes configuráveis, conclua as passos a seguir.

o passo 1: Criar um pacote

Existem três maneiras de começar a criar um pacote:

  1. Use o modelo de pacote default.

  2. Use um padrão de pacote personalizado.

  3. Crie um pacote manualmente.

Usar um modelo de pacote padrão

Para usar um padrão de pacote do Databricks default para criar um pacote inicial que possa ser personalizado posteriormente, use a versão 0.205 ou superior da CLI do Databricks para executar o comando bundle init, que permite escolher em uma lista de modelos disponíveis:

databricks bundle init

O senhor pode acessar view o código-fonte dos modelos do pacote default nos repositórios públicos do Github databricks/CLI e databricks/mlops-stacks.

Pule para o passo 2: Preencher os arquivos de configuração do pacote.

Usar um padrão de pacote personalizado

Para usar um pacote padrão que não seja o pacote padrão do Databricks default, o senhor deve conhecer o caminho local ou o URL do local do pacote padrão remoto. Use o Databricks CLI versão 0.205 ou superior para executar o comando bundle init da seguinte forma:

databricks bundle init <project-template-local-path-or-url>

Para mais informações sobre este comando, veja Databricks ativo Bundle padrão. Para obter informações sobre um pacote padrão específico, consulte a documentação do provedor do pacote padrão.

Pule para o passo 2: Preencher os arquivos de configuração do pacote.

Crie um pacote manualmente

Para criar um pacote manualmente em vez de usar um padrão de pacote, crie um diretório de projeto em seu computador local ou um repositório vazio com um provedor Git de terceiros.

Em seu diretório ou repositórios, crie um ou mais arquivos de configuração de pacotes como entrada. Esses arquivos são expressos no formato YAML. Deve haver no mínimo um (e somente um) arquivo de configuração de pacote denominado databricks.yml. Os arquivos de configuração de pacotes adicionais devem ser referenciados no mapeamento include do arquivo databricks.yml.

Para criar mais fácil e rapidamente arquivos YAML que estejam em conformidade com a sintaxe de configuração do Databricks ativo Bundle, você pode usar uma ferramenta como Visual Studio Code, PyCharm Professional ou IntelliJ IDEA Ultimate que fornece suporte para arquivos YAML e arquivos de esquema JSON, como segue:

  1. Adicione suporte ao servidor de linguagem YAML ao Visual Studio Code, por exemplo, instalando a extensão YAML do Visual Studio Code Marketplace.

  2. Gere o arquivo de esquema JSON de configuração do pacote ativo do Databricks usando a CLI do Databricks versão 0.205 ou acima para executar o comando bundle schema e redirecione a saída para um arquivo JSON. Por exemplo, gere um arquivo chamado bundle_config_schema.json no diretório atual, como segue:

    databricks bundle schema > bundle_config_schema.json
    
  3. Use o Visual Studio Code para criar ou abrir um arquivo de configuração de pacote configurável no diretório atual. Este arquivo deve ser nomeado databricks.yml.

  4. Adicione o seguinte comentário ao início do arquivo de configuração do seu pacote:

    # yaml-language-server: $schema=bundle_config_schema.json
    

    Observação

    No comentário anterior, se o arquivo de esquema JSON de configuração do pacote Databricks ativo estiver em um caminho diferente, substitua bundle_config_schema.json pelo caminho completo para seu arquivo de esquema.

  5. Use os recursos do servidor de linguagem YAML que você adicionou anteriormente. Para obter mais informações, consulte a documentação do servidor de linguagem YAML.

  1. Gere o arquivo de esquema JSON de configuração do pacote ativo do Databricks usando a CLI do Databricks versão 0.205 ou acima para executar o comando bundle schema e redirecione a saída para um arquivo JSON. Por exemplo, gere um arquivo chamado bundle_config_schema.json no diretório atual, como segue:

    databricks bundle schema > bundle_config_schema.json
    
  2. Configure o PyCharm para reconhecer o arquivo de esquema JSON de configuração do pacote configurável e, em seguida, conclua o mapeamento do esquema JSON seguindo as instruções em Configurar um esquema JSON personalizado.

  3. Use PyCharm para criar ou abrir um arquivo de configuração de pacote configurável. Este arquivo deve ser nomeado databricks.yml. Conforme você digita, o PyCharm verifica a sintaxe e a formatação do esquema JSON e fornece dicas de conclusão de código.

  1. Gere o arquivo de esquema JSON de configuração do pacote ativo do Databricks usando a CLI do Databricks versão 0.205 ou acima para executar o comando bundle schema e redirecione a saída para um arquivo JSON. Por exemplo, gere um arquivo chamado bundle_config_schema.json no diretório atual, como segue:

    databricks bundle schema > bundle_config_schema.json
    
  2. Configure o IntelliJ IDEA para reconhecer o arquivo de esquema JSON de configuração do pacote configurável e, em seguida, conclua o mapeamento do esquema JSON seguindo as instruções em Configurar um esquema JSON personalizado.

  3. Use o IntelliJ IDEA para criar ou abrir um arquivo de configuração de pacote configurável. Este arquivo deve ser nomeado databricks.yml. À medida que você digita, o IntelliJ IDEA verifica a sintaxe e a formatação do esquema JSON e fornece dicas de conclusão de código.

o passo 2: Preencher os arquivos de configuração do pacote

Os arquivos de configuração do pacote definem o fluxo de trabalho do Databricks, especificando configurações como detalhes do workspace, nomes de artefatos, nomes de locais, detalhes do Job e detalhes do pipeline. Para obter informações detalhadas sobre os arquivos de configuração do pacote, consulte Configurações do pacote do Databricks ativo.

Dica

O senhor pode usar o comando bundle generate para gerar automaticamente a configuração do pacote para um recurso existente e, em seguida, usar bundle deployment bind para vincular a configuração do pacote ao recurso no site workspace. Consulte Gerar um arquivo de configuração de pacote e Vincular recurso de pacote.

o passo 3: Valide os arquivos de configuração do pacote

Antes de implantar artefatos ou executar um Job ou pipeline, certifique-se de que os arquivos de configuração do pacote estejam sintaticamente corretos. Para fazer isso, execute o comando bundle validate no mesmo diretório do arquivo de configuração do pacote. Este diretório também é conhecido como bundle root.

databricks bundle validate

Se a validação da configuração for bem-sucedida, esse comando produzirá uma carga útil JSON que representa seu pacote.

o passo 4: implantou o pacote

Antes de implantar o pacote configurável, certifique-se de que o workspace remoto tenha arquivos workspace ativados. Consulte O que são arquivos de espaço de trabalho?.

Para implantar quaisquer artefatos locais especificados no workspace remoto, execute o comando bundle deploy na raiz do pacote. Se nenhuma opção de comando for especificada, a CLI do Databricks usará o destino default conforme declarado nos arquivos de configuração do pacote:

databricks bundle deploy

Dica

O senhor pode executar databricks bundle comando fora da raiz do pacote definindo a variável de ambiente BUNDLE_ROOT. Se essa variável de ambiente não for definida, databricks bundle comando tentará localizar a raiz do pacote pesquisando no diretório de trabalho atual.

Para implantar os artefatos no contexto de um destino específico, especifique a opção -t (ou --target) junto com o nome do destino conforme declarado nos arquivos de configuração do pacote configurável. Por exemplo, para um destino declarado com o nome dev:

databricks bundle deploy -t dev

o passo 5: execução do pacote

Para executar um Job ou pipeline específico, execute o comando bundle run na raiz do pacote, especificando o Job ou pipeline key declarado nos arquivos de configuração do pacote. O recurso key é o elemento de nível superior do bloco YAML do recurso. Se o senhor não especificar um Job ou pipeline key, será solicitado a selecionar um recurso para execução em uma lista de recursos disponíveis. Se a opção -t não for especificada, será usado o destino default conforme declarado nos arquivos de configuração do pacote. Por exemplo, para executar um Job com o key hello_job dentro do contexto do alvo default:

databricks bundle run hello_job

Para executar um Job com um key hello_job no contexto de um alvo declarado com o nome dev:

databricks bundle run -t dev hello_job

o passo 6: Destrua o pacote

Se você deseja excluir Job, pipeline e artefatos que foram implantados anteriormente, execute o comando bundle destroy na raiz do pacote. Este comando exclui todos os Job, pipeline e artefatos implantados anteriormente que estão definidos nos arquivos de configuração do pacote configurável:

databricks bundle destroy

Por default, você é solicitado a confirmar a exclusão permanente do Job, pipelines e artefatos implantados anteriormente. Para ignorar esses prompts e executar a exclusão permanente automática, adicione a opção --auto-approve ao comando bundle destroy .