Crie um Scala JAR usando Databricks ativo Bundles
Este artigo descreve como criar, implantar e executar um Scala JAR com Databricks ativo Bundles. Para obter informações sobre pacotes, consulte What are Databricks ativo Bundles?
Por exemplo, a configuração que cria um arquivo Java JAR e o carrega Unity Catalog para,consulte o pacote que carrega um JAR arquivo Unity Catalog para.
Requisitos
- Databricks CLI versão 0.218.0 ou superior, e a autenticação está configurada. Para verificar a versão instalada do Databricks CLI, execute o comando
databricks -v
. Para instalar a CLI da Databricks, consulte Instalar ou atualizar a CLI da Databricks. Para configurar a autenticação, consulte Configurar o acesso ao site workspace. - O senhor deve ter um volume Unity Catalog em Databricks onde deseja armazenar os artefatos de compilação e permissões para upload o JAR em um caminho de volume especificado. Consulte Criar e gerenciar volumes.
Etapa 1: criar o pacote
Primeiro, crie o pacote usando o comando bundle init e o padrão Scala project bundle. O padrão Scala JAR bundle cria um pacote que constrói um JAR, carrega-o no volume especificado e define um trabalho com uma Spark tarefa com o JAR que executa em um clustering especificado. O Scala no projeto padrão define um UDF que aplica transformações simples a uma amostra do DataFrame e gera os resultados. A fonte do padrão está no repositório bundle-examples.
-
Execute o seguinte comando em uma janela de terminal em sua máquina de desenvolvimento local. Ele solicita o valor de alguns campos obrigatórios.
Bashdatabricks bundle init --template-dir contrib/templates/scala-job https://github.com/databricks/bundle-examples
-
Para obter um nome para o projeto, digite
my_scala_project
. Isso determina o nome do diretório raiz desse pacote. Esse diretório raiz é criado dentro do seu diretório de trabalho atual. -
Para o caminho de destino dos volumes, forneça o caminho dos volumes do Unity Catalog no Databricks onde o senhor deseja que seja criado o diretório do pacote que conterá o JAR e outros artefatos, por exemplo,
/Volumes/my-catalog/my-schema/bundle-volumes
.
Dependendo das suas permissões de workspace, o administrador pode precisar listar o caminho do Volumes JAR que o senhor especificar. Consulte Allowlist biblioteca e script de inicialização em compute com o modo de acesso padrão (anteriormente, modo de acesso compartilhado).
Etapa 2: explore o pacote
Para acessar view os arquivos gerados pelo padrão, vá para o diretório raiz do pacote recém-criado e abra esse diretório com o IDE de sua preferência. Os arquivos de interesse particular incluem o seguinte:
databricks.yml
: Esse arquivo especifica o nome programático do pacote, inclui uma referência à definição do trabalho e especifica as configurações sobre o destino workspace.resources/my_scala_project.job.yml
: Esse arquivo especifica as configurações de tarefa e de agrupamento do Job JAR.src/
: Esse diretório inclui os arquivos de origem do projeto Scala.build.sbt
: Esse arquivo contém configurações importantes de compilação e de biblioteca dependente.README.md
: Esse arquivo contém as etapas para começar e as instruções e configurações de compilação local.
Etapa 3: Validar o arquivo de configuração do pacote do projeto
Em seguida, verifique se a configuração do pacote é válida usando o comando bundle validate.
-
No diretório raiz, execute o comando Databricks CLI
bundle validate
. Entre outras verificações, isso verifica se o volume especificado no arquivo de configuração existe no site workspace.Bashdatabricks bundle validate
-
Se um resumo da configuração do pacote for retornado, a validação foi bem-sucedida. Se algum erro for retornado, corrija-o e repita essa etapa.
Se você fizer alguma alteração em seu pacote após essa etapa, repita essa etapa para verificar se a configuração do pacote ainda é válida.
Etapa 4: implantar o projeto local no projeto remoto workspace
Agora, implante o pacote em seu site remoto Databricks workspace usando o comando de implantação de pacote. Essa etapa cria o arquivo JAR e faz o upload dele para o volume especificado.
-
execução o Databricks CLI
bundle deploy
comando:Bashdatabricks bundle deploy -t dev
-
Para verificar se o arquivo JAR criado localmente foi implantado:
- Na barra lateral do site Databricks workspace, clique em Catalog Explorer .
- Navegue até o caminho de destino do volume que você especificou ao inicializar o pacote. O arquivo JAR deve estar localizado na seguinte pasta dentro desse caminho:
/my_scala_project/dev/<user-name>/.internal/
.
-
Para verificar se o trabalho foi criado:
- Na barra lateral do site Databricks workspace, clique em fluxo de trabalho .
- Em Jobs tab, clique em [dev
<your-username>
]my_scala_project
. - Clique na aba Tarefas .
Deve haver uma tarefa: main_task .
Se você fizer alguma alteração em seu pacote após essa etapa, repita as etapas de validação e implantação.
Etapa 5: execução do projeto implantado
Por fim, execute o trabalho Databricks usando o comando de execução do pacote.
-
No diretório raiz, execute o comando Databricks CLI
bundle run
, especificando o nome do trabalho no arquivo de definiçãomy_scala_project.job.yml
:Bashdatabricks bundle run -t dev my_scala_project
-
Copie o valor de
Run URL
que aparece em seu terminal e cole esse valor em seu navegador da Web para abrir o site Databricks workspace. -
No site Databricks workspace, depois que a tarefa for concluída com êxito e mostrar uma barra de título verde, clique na tarefa main_task para ver os resultados.