Use o dbx para sincronizar arquivos locais com o espaço de trabalho remoto no tempo real
Essa documentação foi descontinuada e pode não estar atualizada.
Databricks recomenda que, em vez de dbx sync
, o senhor use o site Databricks CLI versões 0.205 ou acima, que inclui funcionalidade semelhante a dbx sync
por meio do comando databricks sync
.
A extensão Databricks para o Visual Studio Code também inclui funcionalidade semelhante ao dbx sync
integrado ao IDE do Visual Studio Code. Observe que dbx sync
pode sincronizar alterações de arquivos de um computador de desenvolvimento local para DBFSworkspace e Databricks Git pastas em seu espaço de trabalho Databricks. A extensão Databricks para o Visual Studio Code suporta a sincronização de alterações de arquivos somente para arquivos de usuário workspace (/Users
) e pastas Databricks Git (/Repos
).
Este artigo cobre dbx
do Databricks Labs, que é fornecido no estado em que se encontra e não é suportado pelo Databricks por meio do canal do cliente do suporte técnico. Perguntas e solicitações de recurso podem ser comunicadas por meio da página Issues do repositório databrickslabs/dbx em GitHub.
O senhor pode executar a sincronização em tempo real das alterações em arquivos no computador de desenvolvimento local com os arquivos correspondentes no espaço de trabalho do Databricks usando o dbx do Databricks Labs. Esses arquivos workspace podem estar em DBFS ou em Databricks Git pastas.
A sincronização de arquivos em tempo real com dbx
(também conhecido como dbx sync
) é útil em cenários de desenvolvimento rápido de código. Por exemplo, o senhor pode usar um ambiente de desenvolvimento integrado (IDE) local para recursos de produtividade, como realce de sintaxe, autocompletar de código inteligente, code linting, teste e depuração. O senhor pode então acessar imediatamente o site workspace e executar o código atualizado.
O senhor pode usar o site dbx sync
sozinho, com um trabalho automatizado ou com um IDE.
dbx sync
desenvolvimento fluxo de trabalho
Há dois fluxos de trabalho de desenvolvimento para dbx sync
, um com DBFS e outro com Databricks Git pastas.
O fluxo de trabalho de desenvolvimento típico com dbx sync
e DBFS é o seguinte:
- Identifique um diretório local que contenha os arquivos que o senhor deseja sincronizar com o DBFS.
- Identifique o caminho em DBFS com o qual deseja que o diretório local seja sincronizado (ou deixe
dbx sync
criar um caminho default DBFS para você). - execução
dbx sync dbfs
para sincronizar seu diretório local com o caminho DBFS.dbx sync
começa a observar seu diretório local em busca de alterações no arquivo. - Faça alterações nos arquivos em seu diretório local conforme necessário.
dbx sync
aplica essas alterações aos arquivos correspondentes no caminho do DBFS em tempo real.
O fluxo de trabalho típico de desenvolvimento com as pastas Git do dbx sync
e do Databricks é o seguinte:
- Crie um repositório com um provedor Git compatível com as pastas Git da Databricks, se o senhor ainda não tiver um repositório disponível.
- Clone seu repositório em seu Databricks workspace.
- Clone seu repositório em sua máquina de desenvolvimento local.
- execução
dbx sync repo
para associar o repositório clonado local ao repositório clonado workspace.dbx sync
começa a observar seu diretório local em busca de alterações no arquivo. - Faça alterações nos arquivos em seu repositório clonado local conforme necessário.
dbx sync
aplica essas alterações aos arquivos correspondentes nas pastas Git da Databricks em tempo real. - Envie periodicamente arquivos atualizados do repositório clonado em workspace para o provedor Git, de modo que o repositório permaneça atualizado com o provedor Git.
dbx sync
executa apenas a sincronização unidirecional, em tempo real, das alterações de arquivos da máquina de desenvolvimento local para a máquina remota workspace. Portanto, o Databricks não recomenda que o senhor inicie alterações em seus Databricks workspace arquivos que são monitorados pelo dbx sync
. Se precisar fazer essas alterações nos arquivos iniciadas pelo site workspace, o senhor também deverá fazer o seguinte:
- Para alterações de arquivos no DBFS, faça as alterações correspondentes nos arquivos locais manualmente.
- Para alterações de arquivos nas pastas Databricks Git , envie as alterações de arquivos do seu provedor workspace para o seu provedor Git. Em seguida, em sua máquina de desenvolvimento local, extraia essas alterações de arquivo do seu provedor Git.
Requisitos
Se o senhor quiser usar dbx sync
com as pastas Databricks Git , a pasta Databricks workspace deve atender ao seguinte requisito:
- Um clone do seu repositório com o provedor Git, embora não seja necessário, é sugerido.
Em sua máquina de desenvolvimento local, você deve ter o seguinte instalado:
-
Python versão 3.8 ou acima. Para verificar se o Python está instalado e para verificar a versão do Python instalada, execute
python --version
no terminal ou PowerShell.Bashpython --version
Algumas instalações do python
podem exigir que você use python3
em vez de python
. Se for o caso, substitua python
por python3
em todo este artigo.
-
pip. Para verificar se o site
pip
está instalado e para verificar a versão do sitepip
instalada, executepip --version
oupython -m pip --version
.Bashpip --version
# Or...
python -m pip --version
Algumas instalações do pip
podem exigir que você use pip3
em vez de pip
. Se for o caso, substitua pip
por pip3
em todo este artigo.
-
dbx versão 0.8.0 ou acima. Para verificar se o site
dbx
está instalado e para verificar a versão do sitedbx
instalada, executedbx --version
. Para instalardbx
a partir do Python pacote Index (PyPI), executepip install dbx
oupython -m pip install dbx
. (dbx
inclui sincronização dbx.)Bash# Check whether dbx is installed, and check its version.
dbx --version
# Install dbx.
pip install dbx
# Or...
python -m pip install dbx
Para obter mais informações sobre dbx
, consulte dbx by Databricks Labs e a documentação do dbx.
-
O site Databricks CLI versão 0.18 ou abaixo, configurado com autenticação. A CLI legada da Databricks (Databricks CLI versão 0.17) é instalada automaticamente quando o senhor instala o site
dbx
. Essa autenticação pode ser configurada em sua máquina de desenvolvimento local em um ou em ambos os seguintes locais:- Dentro das variáveis de ambiente
DATABRICKS_HOST
eDATABRICKS_TOKEN
(começando com o legado Databricks CLI versão 0.8.0). - Em um perfil de configuração do Databricks em seu arquivo
.databrickscfg
.
dbx
procura credenciais de autenticação nesses dois locais, respectivamente.dbx
usa somente o primeiro conjunto de credenciais correspondentes que encontra. - Dentro das variáveis de ambiente
Se o senhor usar um arquivo .databrickscfg
, dbx sync
procurará nesse arquivo um perfil de configuração chamado DEFAULT
em default. Para especificar um perfil diferente, use a opção --profile
quando o senhor executar o comando dbx sync
, mais adiante neste artigo.
dbx
não suporta o uso de um .netrc arquivo para autenticação.
- Se quiser usar o
dbx sync
com as pastas Git da Databricks, sugerimos um clone local do seu repositório com o provedor Git, embora não seja necessário. Para executar um clone local, consulte a documentação do seu provedor Git.
Use o DBFS com dbx sync
-
No terminal ou em PowerShell no computador de desenvolvimento local, vá para o diretório que contém os arquivos que deseja sincronizar com DBFS em seu Databricks workspace.
-
Execute o comando dbx sync para sincronizar seu diretório local com DBFS em seu workspace, da seguinte forma. (Não esqueça o ponto (
.
) no final, que representa seu diretório atual.)Bashdbx sync dbfs --source .
Para especificar um diretório de origem diferente, substitua o ponto (.
) por um caminho diferente.
Se o erro Error: No such command 'sync'
aparecer, sua instalação do dbx
provavelmente está desatualizada. Para corrigir isso, execute pip install --upgrade dbx==<version>
ou python -m pip install --upgrade dbx==version
, em que <version>
é a versão mais recente de dbx
. Esse número de versão pode ser encontrado na página da web do PyPI para o dbx.
pip install --upgrade dbx==<version>
# Or...
python -m pip install --upgrade dbx==version
-
dbx sync
Começa a sincronizar os arquivos em seu diretório local atual com os arquivos no seguinte caminho DBFS em seu workspace.dbx sync
confirma isso imprimindoTarget base path
seguido do caminho do DBFS, por exemplo:/tmp/users/<your-Databricks-username>/<local-directory-name>
Para especificar um nome de usuário diferente ou o caminho DBFS, especifique as opções --user
e --dest
, respectivamente, ao executar dbx sync
.
- Faça alterações em seus arquivos locais, conforme necessário.
O senhor deve manter o terminal ou o PowerShell aberto para que o dbx sync
continue a sincronizar. Se o senhor fechar o terminal ou o PowerShell, o site dbx sync
deixará de observar as alterações nos arquivos e interromperá a sincronização. Para retomar a sincronização de alterações de arquivos, repita esse procedimento desde o início.
- Conforme necessário, verifique as alterações do arquivo no caminho anterior em DBFS em seu site workspace.
Use as pastas Git da Databricks com dbx sync
-
No terminal ou no PowerShell em sua máquina de desenvolvimento local, mude para o diretório raiz que contém o clone do repositório com seu provedor Git.
-
Em Databricks workspace, identifique o nome da pasta Databricks Git para a qual deseja sincronizar o repositório clonado local. O senhor pode encontrar esse nome de repositório clicando em Git folders (pastas ) na barra lateral do site workspace.
-
Em sua máquina de desenvolvimento local, execute o comando dbx sync para sincronizar o repositório local clonado com as pastas Databricks Git em seu workspace da seguinte forma, substituindo
<your-repo-name>
pelo nome do seu repositório nas pastas Databricks Git . (Não esqueça o ponto (.
) no final, que representa seu diretório atual.)Bashdbx sync repo -d <your-repo-name> --source .
Para especificar um diretório de origem diferente, substitua o ponto (.
) por um caminho diferente.
Se o erro Error: No such command 'sync'
aparecer, sua instalação do dbx
provavelmente está desatualizada. Para corrigir isso, execute pip install --upgrade dbx==<version>
ou python -m pip install --upgrade dbx==version
, em que <version>
é a versão mais recente de dbx
. Esse número de versão pode ser encontrado na página da web do PyPI para o dbx.
pip install --upgrade dbx==<version>
# Or...
python -m pip install --upgrade dbx==version
-
dbx sync
começa a sincronizar os arquivos em seu repositório clonado local com os arquivos em Databricks Git pastas em seu workspace.dbx sync
Confirme isso imprimindoTarget base path
seguido do caminho das pastas Git do Databricks, por exemplo:/Repos/<your-Databricks-username>/<your-repo-name>
Para especificar um nome de usuário ou nome de repositório diferente, especifique as opções --user
e --dest-repo
, respectivamente, ao executar dbx sync
.
- Faça alterações em seus arquivos locais, conforme necessário.
O senhor deve manter o terminal ou o PowerShell aberto para que o dbx sync
continue a sincronizar. Se o senhor fechar o terminal ou o PowerShell, o site dbx sync
deixará de observar as alterações nos arquivos e interromperá a sincronização. Para retomar a sincronização de alterações de arquivos, repita esse procedimento desde o início.
- Conforme necessário, verifique as alterações de arquivo em Databricks Git pastas em seu workspace.
Recurso adicional
- documentação dbx
- documentação de sincronização dbx
- Repositório databrickslabs/dbx no GitHub
- limitações do dbx