Pular para o conteúdo principal
Página não listada
Esta página não está listada. Mecanismos de busca não armazenarão nenhuma informação, e somente usuários que possuam o link direto poderão acessá-la

Git controle de versão para o Notebook (legado)

important

O suporte à integração do Notebook legado Git foi removido em 31 de janeiro de 2024. A Databricks recomenda que o senhor use as pastas Git da Databricks para sincronizar seu trabalho na Databricks com um repositório Git remoto.

Este artigo descreve como configurar o controle de versão do Git para o Notebook (recurso legado). O senhor também pode usar o Databricks CLI ou o espaço de trabalho API para importar e exportar o Notebook e realizar Git operações em seu ambiente de desenvolvimento local.

Ativar e desativar o controle de versão do Git

Em default, o controle de versão está ativado. Para alternar essa configuração:

  1. Acesse Settings (Configurações ) > workspace settings (Configurações do espaço de trabalho).
  2. Na seção Advanced , desmarque a opção Notebook Git Versioning .

Configurar o controle de versão

Para configurar o controle de versão, crie credenciais de acesso em seu provedor Git e, em seguida, adicione essas credenciais à Databricks.

Trabalhar com versões do Notebook

O senhor trabalha com versões do Notebook no painel de história. Abra o painel de histórico clicando em ícone da história da versão na barra lateral direita.

Histórico de versões

nota

O senhor não pode modificar um Notebook enquanto o painel de história estiver aberto.

Vincular um Notebook a GitHub

  1. Clique ícone da história da versão na barra lateral direita. A barra de status do Git exibe Git: Not linked .

    Barra de status do Git

  2. Clique em Git: Não vinculado .

    É exibida a caixa de diálogo Git Preferences (Preferências do Git). Na primeira vez que o senhor abre o Notebook, o Status é Unlink , porque o Notebook não está em GitHub.

    Git preferências - vincular novo Notebook

  3. No campo Status, clique em Link .

  4. No campo Link, cole a URL do repositório do GitHub.

  5. Clique no menu suspenso Filial e selecione uma ramificação ou digite o nome de uma nova ramificação.

  6. No campo Path in Git folder (Caminho na pasta Git), especifique onde o arquivo deve ser armazenado no repositório.

    Python Notebook têm a extensão de arquivo sugerida default .py. Se o senhor usar .ipynb, o Notebook será salvo no formato do iPython Notebook. Se o arquivo já existir no GitHub, o senhor pode copiar e colar diretamente a URL do arquivo.

  7. Clique em Save (Salvar ) para concluir a vinculação do Notebook. Se esse arquivo não existir anteriormente, será exibido um prompt com a opção Save this file to your GitHub repo .

  8. Digite uma mensagem e clique em Salvar .

Salvar um Notebook em GitHub

Embora as alterações que o senhor faz no Notebook sejam salvas automaticamente no histórico de versões do site Databricks, as alterações não persistem automaticamente no site GitHub.

  1. Clique em ícone da história da versão na barra lateral direita para abrir o painel de história.

    painel de história - economize agora

  2. Clique em Save Now para salvar seu Notebook em GitHub. A caixa de diálogo Save Notebook Version é exibida.

  3. Opcionalmente, insira uma mensagem para descrever sua alteração.

  4. Certifique-se de que a opção Also commit to Git esteja selecionada.

    Salvar versão

  5. Clique em Salvar .

Reverter ou atualizar um Notebook para uma versão de GitHub

Depois de vincular um Notebook, o Databricks sincroniza sua história com o Git sempre que o usuário reabrir o painel da história. As versões que sincronizam com Git têm hashes commit como parte da entrada.

  1. Clique em ícone da história da versão na barra lateral direita para abrir o painel de história.

    painel de história

  2. Escolha uma entrada no painel de histórico. O Databricks exibe essa versão.

  3. Clique em Restaurar esta versão .

  4. Clique em Confirmar para confirmar que você deseja restaurar essa versão.

Desvincular um notebook

  1. Clique em ícone da história da versão na barra lateral direita para abrir o painel de história.

  2. A barra de status do Git exibe Git: Synced .

    painel de história - salvar agora imagem

  3. Clique em Git: Synced .

    Git preferências - desvincular o Notebook

  4. Na caixa de diálogo Git Preferences (Preferências do Git), clique em Unlink (Desvincular ).

  5. Clique em Salvar .

  6. Clique em Confirm (Confirmar ) para confirmar que deseja desvincular o Notebook do controle de versão.

Use filiais

O senhor pode trabalhar em qualquer branch do seu repositório e criar novos branches dentro do Databricks.

Crie uma filial

  1. Clique em ícone da história da versão na barra lateral direita para abrir o painel de história.

  2. Clique na barra de status do Git para abrir o painel do GitHub.

  3. Clique em Branch dropdown.

  4. Insira o nome da filial.

    Criar branch

  5. Selecione a opção Create Branch (Criar filial ) na parte inferior do site dropdown. A filial principal é indicada. Você sempre se ramifica a partir da filial atualmente selecionada.

Crie um pull request

  1. Clique em ícone da história da versão na barra lateral direita para abrir o painel de história.

  2. Clique na barra de status do Git para abrir o painel do GitHub.

    Preferências do Git - criar pull request

  3. Clique em Create PR . O GitHub abre uma página de solicitação pull para o branch.

Rebasear uma ramificação

O senhor também pode fazer o rebase de sua ramificação dentro do Databricks. O link Rebase é exibido se houver um novo commit disponível no branch principal. Só há suporte para rebase sobre o ramo default do repositório principal.

Rebase

Por exemplo, suponha que você esteja trabalhando em databricks/reference-apps. O senhor o bifurca em seu próprio account (por exemplo, brkyvz) e começa a trabalhar em uma ramificação chamada my-branch. Se uma nova atualização for enviada para databricks:master, o botão Rebase será exibido e você poderá inserir as alterações em sua ramificação brkyvz:my-branch.

O rebase funciona de forma um pouco diferente no Databricks. Suponha a seguinte estrutura de ramificação:

Antes de rebasear a estrutura da ramificação

Depois de um rebase, a estrutura da ramificação se parece com:

Depois de rebasear a estrutura da ramificação

O que é diferente aqui é que o compromisso C5 e C6 não se aplica ao C4. Elas aparecem como alterações locais em seu Notebook. Os conflitos de mesclagem são exibidos da seguinte forma:

Conflito de merge

Em seguida, o senhor pode fazer o commit no GitHub mais uma vez usando o botão Save Now .

O que acontece se alguém sair da minha filial que acabei de mudar de base?

Se sua ramificação (por exemplo, branch-a) foi a base para outra ramificação (branch-b) e você fez o rebase, não precisa se preocupar! Quando um usuário também rebasear branch-b, tudo funcionará. A prática recomendada nessa situação é usar ramificações separadas para notebooks separados.

Práticas recomendadas para revisões de código

O Databricks é compatível com a ramificação do Git.

  • O senhor pode vincular um Notebook a qualquer branch em um repositório. Databricks recomenda o uso de uma ramificação separada para cada notebook.
  • Durante o desenvolvimento, o senhor pode vincular um Notebook a uma bifurcação de um repositório ou a uma ramificação nãodefault no repositório principal. Para integrar suas alterações no upstream, o senhor pode usar o link Create PR (Criar PR) na caixa de diálogo Git Preferences (Preferências do Git ) no Databricks para criar uma solicitação pull do GitHub. O link Create PR é exibido somente se o senhor não estiver trabalhando no ramo default do repositório principal.

Solução de problemas

Se o senhor receber erros relacionados à sincronização do GitHub história, verifique o seguinte:

  • O senhor só pode vincular um Notebook a um repositório Git inicializado que não esteja vazio. Teste o URL em um navegador da web.
  • Os tokens de acesso pessoal GitHub devem estar ativos.
  • Para usar um repositório privado do GitHub, o senhor deve ter permissão para ler o repositório.
  • Se um Notebook estiver vinculado a uma ramificação GitHub que tenha sido renomeada, a alteração não será refletida automaticamente em Databricks. O senhor deve vincular novamente o Notebook à filial manualmente.

Migrar para as pastas Git da Databricks

Os usuários que precisam migrar para as pastas Git da Databricks a partir do controle de versão Git legado podem usar o seguinte guia: