Recomendações para trabalhar com DBFS root

Databricks usa o diretório DBFS root como um localdefault para algumas ações workspace . Databricks recomenda não armazenar quaisquer dados de produção ou informações confidenciais na DBFS root. Este artigo enfoca as recomendações para evitar a exposição acidental de dados confidenciais na DBFS root.

Observação

O Databricks configura um local de armazenamento privado separado para dados persistentes e configurações no armazenamento em cloud de propriedade do cliente, conhecido como DBFS interno. Este local não é exposto aos usuários.

Eduque os usuários para não armazenar dados na DBFS root

Como a DBFS root é acessível a todos os usuários em um workspace, todos os usuários podem acessar quaisquer dados armazenados aqui. É importante instruir os usuários a evitar o uso desse local para armazenar dados confidenciais. O local default para gerenciar tabelas no Hive metastore no Databricks é a DBFS root; para evitar que os usuários finais que criam tabelas gerenciadas gravem na DBFS root, declare um local no armazenamento externo ao criar bancos de dados no Hive metastore.

As tabelas gerenciadas do Unity Catalog usam um local de armazenamento seguro por default. A Databricks recomenda o uso do Unity Catalog para gerenciar tabelas.

Use o log de auditoria para monitorar a atividade

Observação

Para obter detalhes sobre eventos de auditoria DBFS, consulte Eventos DBFS.

Databricks recomenda que você habilite o registro em nível de objeto S3 para seu depósito DBFS root para permitir uma investigação mais rápida de problemas. Esteja ciente de que habilitar o registro em nível de objeto do S3 pode aumentar seu custo de uso da AWS.

Criptografar dados DBFS root com uma chave de geração de cliente

O senhor pode criptografar os dados do DBFS root com um gerenciador de clientes key. Consulte Chave de gerenciamento de clientes para criptografia.