Usar código-fonte controlado por versão em um Jobdo Databricks
O senhor pode executar o Job usando o Notebook ou o código Python localizado em um repositório Git remoto ou em uma pasta Databricks Git . Esse recurso simplifica a criação e o gerenciamento do trabalho de produção e automatiza a implementação contínua:
Você não precisa criar um repositório de produção separado no Databricks, gerenciar suas permissões e mantê-lo atualizado.
Você pode impedir alterações não intencionais em um Job de produção, como edições locais no repositório de produção ou alterações na troca de uma ramificação.
O processo de definição Job tem uma única fonte de verdade no repositório remoto e cada execução Job está vinculada a um hash commit .
Para usar o código-fonte em um repositório Git remoto, o senhor deve configurar as pastas Git do Databricks (Repos).
Observação
Se a sua execução do Job usar uma entidade de serviço como identidade, o senhor poderá configurar a entidade de serviço na pasta Git que contém o código-fonte do Job. Consulte Usar uma entidade de serviço com pastas Git do Databricks.
Use um Notebook de um repositório Git remoto
Para criar uma tarefa com um Notebook localizado em um repositório Git remoto:
Clique fluxo de trabalho na barra lateral e clique ou vá para um Job existente e adicione uma nova tarefa.
Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .
Insira um nome para a tarefa no campo Nome da tarefa .
No menu suspenso Tipo , selecione Notebook.
No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.
Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.
Para Path, insira um caminho relativo para o local Notebook , como
etl/notebooks/
.Ao inserir o caminho relativo, não comece com
/
ou./
e não inclua a extensão do arquivo Notebook , como.py
. Por exemplo, se o caminho absoluto para o Notebook que você deseja acessar for/notebooks/covid_eda_raw.py
, insiranotebooks/covid_eda_raw
no campo Caminho.Clique em Criar.
Use o código Python de um repositório Git remoto
Para criar uma tarefa com código Python localizado em um repositório Git remoto:
Clique fluxo de trabalho na barra lateral e clique ou vá para um Job existente e adicione uma nova tarefa.
Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .
Insira um nome para a tarefa no campo Nome da tarefa .
No menu suspenso Tipo , selecione Script Python.
No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.
Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.
Para Path, insira um caminho relativo para o local de origem, como
etl/python/python_etl.py
.Ao inserir o caminho relativo, não comece com
/
ou./
. Por exemplo, se o caminho absoluto para o código Python que você deseja acessar for/python/covid_eda_raw.py
, insirapython/covid_eda_raw.py
no campo Caminho.Clique em Criar.
Quando você view o histórico de execução de uma tarefa que executa o código Python armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o commit SHA associado à execução.
Use query SQL de um repositório Git remoto
Observação
Apenas uma instrução SQL é suportada em um arquivo. Várias instruções SQL separadas por ponto-e-vírgula (;) não são permitidas.
Para query de execução armazenada em arquivos .sql
localizados em um repositório Git remoto:
Clique fluxo de trabalho na barra lateral e clique ou vá para um Job existente e adicione uma nova tarefa.
Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .
Insira um nome para a tarefa no campo Nome da tarefa .
No menu suspenso Tipo , selecione SQL.
No menu suspenso da tarefa SQL , selecione Arquivo.
No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.
Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.
Para Path, insira um caminho relativo para o local de origem, como
queries/sql/myquery.sql
.Ao inserir o caminho relativo, não comece com
/
ou./
. Por exemplo, se o caminho absoluto para a query SQL que você deseja acessar for/sql/myqeury.sql
, insirasql/myquery.sql
no campo Caminho.Selecione um SQL warehouse. Você deve selecionar um SQL warehouse serverless ou um SQL warehouse.
Clique em Criar.
Adicionando tarefas adicionais de um repositório Git remoto
Tarefas adicionais em um Job multitarefa podem fazer referência ao mesmo commit no repositório remoto de uma das seguintes maneiras:
sha
de$branch/head
quandogit_branch
é definidosha
de$tag
quandogit_tag
é definidoo valor de
git_commit
Você pode misturar tarefas Notebook e do Python em um Job do Databricks, mas elas devem usar a mesma referência do Git.
Usar uma pasta Git da Databricks
Se preferir usar a interface do usuário do Databricks para controlar a versão do seu código-fonte, clone seu repositório em uma pasta Git do Databricks. Para obter mais informações, consulte Opção 2: Configurar uma pasta Git de produção e automação Git.
Para adicionar um código Notebook ou Python de uma pasta Git em uma tarefa Job, no menu suspenso Source (Fonte ), selecione workspace e insira o caminho para o código Notebook ou Python em Path.
Acesse Notebook a partir de um IDE
Se você precisar acessar Notebook a partir de um ambiente de desenvolvimento integrado, certifique-se de ter o comentário # Databricks notebook source
na parte superior do arquivo de código-fonte Notebook . Para distinguir entre um arquivo Python regular e um Notebook em linguagem Python do Databricks exportado no formato de código-fonte, o Databricks adiciona a linha # Databricks notebook source
na parte superior do arquivo de código-fonte Notebook . Quando você importa o Notebook, o Databricks o reconhece e o importa como um Notebook, não como um módulo Python.
Solução de problemas
Observação
Job baseado em Git não oferece suporte ao acesso de gravação aos arquivos workspace . Para gravar dados em um local de armazenamento temporário, use o armazenamento do driver. Para gravar dados persistentes de um Git Job, use um volume UC ou DBFS.
Mensagem de erro:
Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook
Possíveis causas:
Seu Notebook não tem o comentário # Databricks notebook source
na parte superior do arquivo de código-fonte Notebook ou, no comentário, notebook
é maiúsculo quando deve começar com n
minúsculo.