Pular para o conteúdo principal

DBFS CLI (legado)

important

Essa documentação foi descontinuada e pode não estar atualizada.

Esta informação se aplica ao legado Databricks CLI versões 0.18 e abaixo. Databricks recomenda que o senhor use a versão mais recente do Databricks CLI 0.205 ou o acima. Consulte O que é a CLI do Databricks? Para encontrar sua versão do site Databricks CLI, execute databricks -v.

Para migrar de Databricks CLI versão 0.18 ou abaixo para Databricks CLI versão 0.205 ou acima, consulte Databricks CLI migration.

O senhor executa Databricks DBFS CLI subcomandos anexando-os a databricks fs (ou o alias dbfs), prefixando todos os caminhos DBFS com dbfs:/. Esses subcomandos chamam a API do DBFS.

Bash
databricks fs -h
Usage: databricks fs [OPTIONS] COMMAND [ARGS]...

Utility to interact with DBFS. DBFS paths are all prefixed
with dbfs:/. Local paths can be absolute or local.

Options:
-v, --version
-h, --help Show this message and exit.

Commands:
cat Shows the contents of a file. Does not work for directories.
configure
cp Copies files to and from DBFS.
Options:
-r, --recursive
--overwrite Overwrites files that exist already.
ls Lists files in DBFS.
Options:
--absolute Displays absolute paths.
-l Displays full information including size and file type.
mkdirs Makes directories in DBFS.
mv Moves a file between two DBFS paths.
rm Removes files from DBFS.
Options:
-r, --recursive

Para operações que listam, movem ou excluem mais de 10 mil arquivos, não recomendamos o uso da CLI do DBFS.

  • As list operações (databricks fs ls) atingirão o tempo limite após aproximadamente 60s.
  • O move operações (databricks fs mv) atingirá o tempo limite após aproximadamente 60s, o que pode resultar em dados parcialmente movidos.
  • O site delete operações (databricks fs rm) excluirá de forma incremental vários arquivos.

Recomendamos que o senhor realize essas operações no contexto de um clustering, usando o File system utilidades (dbutils.fs). dbutils.fs abrange o escopo funcional do site DBFS REST API, mas do Notebook. A execução dessas operações usando o Notebook oferece melhor controle, como exclusões seletivas, capacidade de gerenciamento e a possibilidade de automatizar trabalhos periódicos.

Listar o conteúdo de um arquivo

Para exibir a documentação de uso, execute databricks fs cat --help.

Bash
databricks fs cat dbfs:/tmp/my-file.txt
Console
Apache Spark is awesome!

Copiar um arquivo

Para exibir a documentação de uso, execute databricks fs cp --help.

Bash
databricks fs cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt --overwrite

Em caso de sucesso, esse comando não exibe nada.

Listar informações sobre arquivos e diretórios

Para exibir a documentação de uso, execute databricks fs ls --help.

Bash
databricks fs ls dbfs:/tmp --absolute -l
Console
file  42408084  dbfs:/tmp/LoanStats.csv    1590005159000
file 40 dbfs:/tmp/file_b.txt 1603991038000
dir 0 dbfs:/tmp/hive 0
dir 0 dbfs:/tmp/mlflow 0
file 385 dbfs:/tmp/multi-line.json 1597770632000
dir 0 dbfs:/tmp/new 0
dir 0 dbfs:/tmp/parent 0
file 243 dbfs:/tmp/test.json 1597770628000
file 40 dbfs:/tmp/test_dbfs.txt 1603989162000

Crie um diretório

Para exibir a documentação de uso, execute databricks fs mkdirs --help.

Bash
databricks fs mkdirs dbfs:/tmp/new-dir

Em caso de sucesso, esse comando não exibe nada.

Mover um arquivo

Para exibir a documentação de uso, execute databricks fs mv --help.

Bash
databricks fs mv dbfs:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt

Em caso de sucesso, esse comando não exibe nada.

Excluir um arquivo

Para exibir a documentação de uso, execute databricks fs rm --help.

Bash
databricks fs rm dbfs:/tmp/parent/child/grandchild/my-file.txt
Console
Delete finished successfully.