Usar código-fonte controlado por versão em um Jobdo Databricks

O senhor pode executar o Job usando o Notebook ou o código Python localizado em um repositório Git remoto ou em uma pasta Databricks Git . Esse recurso simplifica a criação e o gerenciamento do trabalho de produção e automatiza a implementação contínua:

  • Você não precisa criar um repositório de produção separado no Databricks, gerenciar suas permissões e mantê-lo atualizado.

  • Você pode impedir alterações não intencionais em um Job de produção, como edições locais no repositório de produção ou alterações na troca de uma ramificação.

  • O processo de definição Job tem uma única fonte de verdade no repositório remoto e cada execução Job está vinculada a um hash commit .

Para usar o código-fonte em um repositório Git remoto, o senhor deve configurar as pastas Git do Databricks (Repos).

Observação

Se a sua execução do Job usar uma entidade de serviço como identidade, o senhor poderá configurar a entidade de serviço na pasta Git que contém o código-fonte do Job. Consulte Usar uma entidade de serviço com pastas Git do Databricks.

Use um Notebook de um repositório Git remoto

Para criar uma tarefa com um Notebook localizado em um repositório Git remoto:

  1. Clique Ícone de trabalhos fluxo de trabalho na barra lateral e clique Botão Criar Job ou vá para um Job existente e adicione uma nova tarefa.

  2. Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .

  3. Insira um nome para a tarefa no campo Nome da tarefa .

  4. No menu suspenso Tipo , selecione Notebook.

  5. No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.

  6. Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.

    Para Path, insira um caminho relativo para o local Notebook , como etl/notebooks/.

    Ao inserir o caminho relativo, não comece com / ou ./ e não inclua a extensão do arquivo Notebook , como .py. Por exemplo, se o caminho absoluto para o Notebook que você deseja acessar for /notebooks/covid_eda_raw.py, insira notebooks/covid_eda_raw no campo Caminho.

  7. Clique em Criar.

Use o código Python de um repositório Git remoto

Para criar uma tarefa com código Python localizado em um repositório Git remoto:

  1. Clique Ícone de trabalhos fluxo de trabalho na barra lateral e clique Botão Criar Job ou vá para um Job existente e adicione uma nova tarefa.

  2. Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .

  3. Insira um nome para a tarefa no campo Nome da tarefa .

  4. No menu suspenso Tipo , selecione Script Python.

  5. No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.

  6. Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.

    Para Path, insira um caminho relativo para o local de origem, como etl/python/python_etl.py.

    Ao inserir o caminho relativo, não comece com / ou ./. Por exemplo, se o caminho absoluto para o código Python que você deseja acessar for /python/covid_eda_raw.py, insira python/covid_eda_raw.py no campo Caminho.

  7. Clique em Criar.

Quando você view o histórico de execução de uma tarefa que executa o código Python armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o commit SHA associado à execução.

Use query SQL de um repositório Git remoto

Observação

Apenas uma instrução SQL é suportada em um arquivo. Várias instruções SQL separadas por ponto-e-vírgula (;) não são permitidas.

Para query de execução armazenada em arquivos .sql localizados em um repositório Git remoto:

  1. Clique Ícone de trabalhos fluxo de trabalho na barra lateral e clique Botão Criar Job ou vá para um Job existente e adicione uma nova tarefa.

  2. Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .

  3. Insira um nome para a tarefa no campo Nome da tarefa .

  4. No menu suspenso Tipo , selecione SQL.

  5. No menu suspenso da tarefa SQL , selecione Arquivo.

  6. No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.

  7. Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.

    Para Path, insira um caminho relativo para o local de origem, como queries/sql/myquery.sql.

    Ao inserir o caminho relativo, não comece com / ou ./. Por exemplo, se o caminho absoluto para a query SQL que você deseja acessar for /sql/myqeury.sql, insira sql/myquery.sql no campo Caminho.

  8. Selecione um SQL warehouse. Você deve selecionar um SQL warehouse serverless ou um SQL warehouse.

  9. Clique em Criar.

Adicionando tarefas adicionais de um repositório Git remoto

Tarefas adicionais em um Job multitarefa podem fazer referência ao mesmo commit no repositório remoto de uma das seguintes maneiras:

  • sha de $branch/head quando git_branch é definido

  • sha de $tag quando git_tag é definido

  • o valor de git_commit

Você pode misturar tarefas Notebook e do Python em um Job do Databricks, mas elas devem usar a mesma referência do Git.

Usar uma pasta Git da Databricks

Se preferir usar a interface do usuário do Databricks para controlar a versão do seu código-fonte, clone seu repositório em uma pasta Git do Databricks. Para obter mais informações, consulte Opção 2: Configurar uma pasta Git de produção e automação Git.

Para adicionar um código Notebook ou Python de uma pasta Git em uma tarefa Job, no menu suspenso Source (Fonte ), selecione workspace e insira o caminho para o código Notebook ou Python em Path.

Acesse Notebook a partir de um IDE

Se você precisar acessar Notebook a partir de um ambiente de desenvolvimento integrado, certifique-se de ter o comentário # Databricks notebook source na parte superior do arquivo de código-fonte Notebook . Para distinguir entre um arquivo Python regular e um Notebook em linguagem Python do Databricks exportado no formato de código-fonte, o Databricks adiciona a linha # Databricks notebook source na parte superior do arquivo de código-fonte Notebook . Quando você importa o Notebook, o Databricks o reconhece e o importa como um Notebook, não como um módulo Python.

Solução de problemas

Observação

Job baseado em Git não oferece suporte ao acesso de gravação aos arquivos workspace . Para gravar dados em um local de armazenamento temporário, use o armazenamento do driver. Para gravar dados persistentes de um Git Job, use um volume UC ou DBFS.

Mensagem de erro:

Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook

Possíveis causas:

Seu Notebook não tem o comentário # Databricks notebook source na parte superior do arquivo de código-fonte Notebook ou, no comentário, notebook é maiúsculo quando deve começar com n minúsculo.