O que são volumes?
Volumes são objetos do Unity Catalog que controlam o acesso a dados não tabulares. Eles fornecem uma camada lógica sobre o armazenamento de objetos cloud para que o senhor possa armazenar, organizar e gerenciar arquivos com governança centralizada.
Para obter uma documentação abrangente sobre volumes, consulte O que são volumes do Unity Catalog?
O Unity Catalog é compatível com dois tipos de volumes:
- gerenciar volumes: Databricks gerenciar o ciclo de vida e cloud local de armazenamento
- Volumes externos: O senhor controla o local e o ciclo de vida do armazenamento cloud
O que o senhor pode fazer com os volumes do Unity Catalog?
O senhor pode realizar operações de gerenciamento de arquivos com volumes usando várias interfaces e ferramentas:
- Faça upload, download e navegue pelos arquivos no Explorador de Catálogo. Consulte O que é o Catalog Explorer?.
- Leia e escreva dados programaticamente usando Apache Spark, Pandas ou SQL. Consulte Trabalhar programaticamente com arquivos em volumes.
- Gerencie arquivos usando
dbutils.fs, comando mágico ou comando bash shell . Veja o comando russos para arquivos em volumes.
Você pode usar volumes com recursos Databricks que exigem um caminho do sistema de arquivos. Os volumes oferecem um caminho controlado que funciona de forma consistente para todos os usuários e espaços de trabalho. Por exemplo:
-
ingestão de dados: Use volumes como local de origem para ingestão de dados. Comece a partir de arquivos em um volume e os insira em tabelas usando:
COPY INTOCarregar arquivos de um volume para uma tabela usando SQL. VejaCOPY INTO.- Auto Loader: Ingere incrementalmente novos arquivos que chegam a um diretório de volume em uma tabela. Veja O que é Auto Loader?
- APIs de leitura do Spark: Use as APIs de leitura do Spark (por exemplo,
spark.read.load) para carregar arquivos de um caminho de volume em um DataFrame e gravá-los em uma tabela. Consulte Trabalhar programaticamente com arquivos em volumes. - Interface do usuário do Databricks: Crie uma tabela diretamente a partir de arquivos armazenados em um volume. Consulte Criar uma tabela a partir de dados em um volume.
-
Entrega log de computação: configure a entrega log compute para gravar logs em um caminho de volume, de forma que o acesso log seja controlado pelo Unity Catalog. Consulte a entrega log de computação.
-
Gatilhos de chegada de arquivos: Use gatilhos de chegada de arquivos para iniciar tarefas LakeFlow quando novos arquivos chegarem a um volume. Consulte Acionar tarefa quando novos arquivos chegarem.
-
biblioteca de cluster: Instale a biblioteca cluster a partir de um volume (JARs, wheels,
requirements.txt), para que o acesso à biblioteca seja controlado pelo Unity Catalog. Consulte Instalar biblioteca a partir de um volume. -
Script de inicialização: Armazena e executa um script de inicialização com escopo clustera partir de um volume, de forma que o acesso ao script de inicialização seja controlado pelo Unity Catalog. Consulte o script de inicialização com escopo de cluster.
-
Artefatos de experimentos ML : Armazene artefatos de experimentos ML (modelos, métricas e arquivos de saída) em um volume para que o acesso às saídas do seu experimento MLflow seja controlado pelo Unity Catalog. Consulte Organizar execução de treinamento com experimentos MLflow.