O que é o Databricks File System (DBFS)?

O Databricks File System (DBFS) é um sistema de arquivos distribuído montado em um workspace do Databricks e disponível em clusters do Databricks. O DBFS é uma abstração sobre o armazenamento de objetos dimensionável que mapeia as chamadas do sistema de arquivos do tipo Unix para chamadas de API de armazenamento na cloud nativas.

Observação

workspace Databricks é implantado com um volumeDBFS root , acessível a todos os usuários por default. Databricks não recomenda o armazenamento de dados de produção neste local.

O que você pode fazer com o DBFS?

O DBFS oferece conveniência ao mapear URIs de armazenamento de objetos na cloud para caminhos relativos.

  • Permite que você interaja com o armazenamento de objetos usando diretório e semântica de arquivo em vez de comandos de API específicos cloud .

  • Permite montar locais de armazenamento de objetos cloud para que você possa mapear credenciais de armazenamento para caminhos no workspace Databricks.

  • Simplifica o processo de persistência de arquivos para armazenamento de objetos, permitindo que máquinas virtuais e armazenamento de volumes anexados sejam excluídos com segurança no encerramento de clusters.

  • Fornece um local conveniente para armazenar init scripts, JARs, bibliotecas e configurações para inicialização de clusters.

  • Fornece um local conveniente para arquivos de ponto de verificação criados durante o treinamento de modelo com bibliotecas de aprendizagem profunda de OSS.

Observação

DBFS é a implementação do Databricks para FUSE. Consulte Trabalhar com arquivos no Databricks.

Montar armazenamento de objetos

A montagem do armazenamento de objetos no DBFS permite acessar objetos no armazenamento de objetos como se estivessem no sistema de arquivos local. As montagens armazenam as configurações do Hadoop necessárias para acessar o armazenamento; portanto, você não precisa especificar essas configurações no código ou durante a configuração dos clusters.

Para obter mais informações, consulte Montagem de armazenamento de objetos na cloud no Databricks.

O que é o DBFS root?

O DBFS root é o local de armazenamento default para um workspace do Databricks, provisionado como parte da criação do workspace na cloud account que contém o workspace do Databricks.Para obter detalhes sobre a configuração raiz e a implantação do Databricks Filesystem, consulte Criar um bucket S3 para implantação do workspace.Para obter as melhores práticas de proteção de dados no DBFS root, consulte Recomendações para trabalhar com o DBFS root.

Alguns usuários do Databricks podem se referir ao DBFS root como "DBFS" ou "o DBFS". É importante diferenciar que o DBFS é um sistema de arquivos usado para interagir com dados no armazenamento de objetos na cloud, e o DBFS root é um local de armazenamento de objetos na cloud. Você usa o DBFS para interagir com o DBFS root, mas eles são conceitos distintos, e o DBFS tem muitos aplicativos além do DBFS root.

O DBFS root contém vários locais especiais que servem como defaults para várias ações executadas pelos usuários no workspace.Para obter detalhes, consulte Quais diretórios estão no DBFS root por default?.

Como o DBFS funciona com o Unity Catalog?

O Unity Catalog adiciona os conceitos de locais externos e credenciais de armazenamento gerenciado para ajudar as organizações a fornecer menos privilégios de acesso aos dados no armazenamento de objetos na cloud. O Unity Catalog também fornece um novo local de armazenamento default para tabelas gerenciadas.Algumas configurações de segurança fornecem acesso direto aos recursos gerenciados pelo Unity Catalog e ao DBFS. O Databricks compilou recomendações para usar o DBFS e o Unity Catalog.