Pular para o conteúdo principal

Crie um Scala JAR usando Databricks ativo Bundles

Este artigo descreve como criar, implantar e executar um Scala JAR com Databricks ativo Bundles. Para obter informações sobre pacotes, consulte What are Databricks ativo Bundles?

Por exemplo, a configuração que cria um arquivo Java JAR e o carrega Unity Catalog para,consulte o pacote que carrega um JAR arquivo Unity Catalog para.

Requisitos

  • Databricks CLI versão 0.218.0 ou superior, e a autenticação está configurada. Para verificar a versão instalada do Databricks CLI, execute o comando databricks -v. Para instalar a CLI da Databricks, consulte Instalar ou atualizar a CLI da Databricks. Para configurar a autenticação, consulte Configurar o acesso ao site workspace.
  • O senhor deve ter um volume Unity Catalog em Databricks onde deseja armazenar os artefatos de compilação e permissões para upload o JAR em um caminho de volume especificado. Consulte Criar e gerenciar volumes.

Etapa 1: criar o pacote

Primeiro, crie o pacote usando o comando bundle init e o padrão Scala project bundle. O padrão Scala JAR bundle cria um pacote que constrói um JAR, carrega-o no volume especificado e define um trabalho com uma Spark tarefa com o JAR que executa em um clustering especificado. O Scala no projeto padrão define um UDF que aplica transformações simples a uma amostra do DataFrame e gera os resultados. A fonte do padrão está no repositório bundle-examples.

  1. Execute o seguinte comando em uma janela de terminal em sua máquina de desenvolvimento local. Ele solicita o valor de alguns campos obrigatórios.

    Bash
    databricks bundle init --template-dir contrib/templates/scala-job https://github.com/databricks/bundle-examples
  2. Para obter um nome para o projeto, digite my_scala_project. Isso determina o nome do diretório raiz desse pacote. Esse diretório raiz é criado dentro do seu diretório de trabalho atual.

  3. Para o caminho de destino dos volumes, forneça o caminho dos volumes do Unity Catalog no Databricks onde o senhor deseja que seja criado o diretório do pacote que conterá o JAR e outros artefatos, por exemplo, /Volumes/my-catalog/my-schema/bundle-volumes.

nota

Dependendo das suas permissões de workspace, o administrador pode precisar listar o caminho do Volumes JAR que o senhor especificar. Consulte Allowlist biblioteca e script de inicialização em compute com o modo de acesso padrão (anteriormente, modo de acesso compartilhado).

Etapa 2: explore o pacote

Para acessar view os arquivos gerados pelo padrão, vá para o diretório raiz do pacote recém-criado e abra esse diretório com o IDE de sua preferência. Os arquivos de interesse particular incluem o seguinte:

  • databricks.yml: Esse arquivo especifica o nome programático do pacote, inclui uma referência à definição do trabalho e especifica as configurações sobre o destino workspace.
  • resources/my_scala_project.job.yml: Esse arquivo especifica as configurações de tarefa e de agrupamento do Job JAR.
  • src/: Esse diretório inclui os arquivos de origem do projeto Scala.
  • build.sbt: Esse arquivo contém configurações importantes de compilação e de biblioteca dependente.
  • README.md: Esse arquivo contém as etapas para começar e as instruções e configurações de compilação local.

Etapa 3: Validar o arquivo de configuração do pacote do projeto

Em seguida, verifique se a configuração do pacote é válida usando o comando bundle validate.

  1. No diretório raiz, execute o comando Databricks CLI bundle validate . Entre outras verificações, isso verifica se o volume especificado no arquivo de configuração existe no site workspace.

    Bash
    databricks bundle validate
  2. Se um resumo da configuração do pacote for retornado, a validação foi bem-sucedida. Se algum erro for retornado, corrija-o e repita essa etapa.

Se você fizer alguma alteração em seu pacote após essa etapa, repita essa etapa para verificar se a configuração do pacote ainda é válida.

Etapa 4: implantar o projeto local no projeto remoto workspace

Agora, implante o pacote em seu site remoto Databricks workspace usando o comando de implantação de pacote. Essa etapa cria o arquivo JAR e faz o upload dele para o volume especificado.

  1. execução o Databricks CLI bundle deploy comando:

    Bash
    databricks bundle deploy -t dev
  2. Para verificar se o arquivo JAR criado localmente foi implantado:

    1. Na barra lateral do site Databricks workspace, clique em Catalog Explorer .
    2. Navegue até o caminho de destino do volume que você especificou ao inicializar o pacote. O arquivo JAR deve estar localizado na seguinte pasta dentro desse caminho: /my_scala_project/dev/<user-name>/.internal/.
  3. Para verificar se o trabalho foi criado:

    1. Na barra lateral do site Databricks workspace, clique em fluxo de trabalho .
    2. Em Jobs tab, clique em [dev <your-username> ] my_scala_project.
    3. Clique na aba Tarefas .

    Deve haver uma tarefa: main_task .

Se você fizer alguma alteração em seu pacote após essa etapa, repita as etapas de validação e implantação.

Etapa 5: execução do projeto implantado

Por fim, execute o trabalho Databricks usando o comando de execução do pacote.

  1. No diretório raiz, execute o comando Databricks CLI bundle run , especificando o nome do trabalho no arquivo de definição my_scala_project.job.yml:

    Bash
    databricks bundle run -t dev my_scala_project
  2. Copie o valor de Run URL que aparece em seu terminal e cole esse valor em seu navegador da Web para abrir o site Databricks workspace.

  3. No site Databricks workspace, depois que a tarefa for concluída com êxito e mostrar uma barra de título verde, clique na tarefa main_task para ver os resultados.