armazenamento padrão no Databricks

Esta página explica como funciona o armazenamento default no Databricks e como criar catálogos e objetos de dados que o utilizam.

O que é armazenamento default ?

O armazenamento padrão é uma plataforma de armazenamento de objetos totalmente padronizada que fornece armazenamento pronto para uso em sua account Databricks . Alguns recursos Databricks usam o armazenamento default como alternativa ao armazenamento externo.

O espaço de trabalho sem servidor usa o armazenamento default para armazenamento interno e workspace , bem como para o catálogo default que é criado com o workspace. Em um espaço de trabalho serverless , você pode criar catálogos adicionais no armazenamento default ou em seu próprio armazenamento de objetoscloud.

Tanto no espaço de trabalho clássico quanto no espaço de trabalho serverless , o armazenamento default é usado pelo recurso para armazenar itens como metadados do plano de controle, dados derivados, modelos e outros artefatos. Por exemplo, Clean Rooms, Data Classification, Detection de Anomaly e Agent Bricks utilizam o armazenamento default de um workspace. Consulte a documentação do recurso individual para obter detalhes sobre o que cada repositório de recursos está no armazenamento default .

Requisitos

A criação de catálogos no armazenamento default está disponível apenas no espaço de trabalhoserverless (Prévia Pública).
Por default, os catálogos que usam o armazenamento default só podem ser acessados a partir do workspace onde foram criados. Você pode conceder acesso a outros espaços de trabalho, incluindo o espaço de trabalho clássico, mas eles devem usar compute serverless para acessar os dados no catálogo. Consulte Limitar o acesso ao catálogo a um espaço de trabalho específico.
O senhor deve ter privilégios CREATE CATALOG para criar um catálogo com o armazenamento default. Consulte Privilégios e objetos protegidos do Unity Catalog.
Se o seu cliente estiver usando o driver ODBC Databricks para acessar um catálogo de armazenamento default por trás de um firewall, você deverá configurar o firewall para permitir o acesso aos gateways de armazenamento regionais Databricks . Para obter detalhes sobre o endereço IP e o nome de domínio do armazenamento default , consulte Endereços IP e domínios para Databricks serviço e ativo.

Criar um novo catálogo

Conclua as etapas a seguir para criar um novo catálogo usando o armazenamento default:

Clique em Catálogo na barra lateral. O Catalog Explorer é exibido.
Clique em Criar catálogo . A caixa de diálogo Criar um novo catálogo é exibida.
Forneça um nome de catálogo que seja exclusivo em seu site account.
Selecione a opção para Usar o armazenamento default .
Clique em Criar .

No espaço de trabalho serverless, o senhor também pode usar o seguinte comando SQL para criar um novo catálogo no armazenamento default. Você não precisa especificar um local para o catálogo.

SQL
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
    [ COMMENT comment ]

Trabalhe com o armazenamento default

Todas as interações com o armazenamento default requerem serverless, o Unity Catalog habilitado para compute.

O recurso apoiado pelo armazenamento default usa o mesmo modelo de privilégio que outros objetos em Unity Catalog. O senhor deve ter privilégios suficientes para criar, view, consultar ou modificar objetos de dados. Consulte Privilégios e objetos protegidos do Unity Catalog.

O senhor trabalha com o armazenamento default criando e interagindo com tabelas gerenciar e volumes gerenciar apoiados pelo armazenamento default. Consulte Unity Catalog gerenciar tabelas em Databricks para Delta Lake e Apache Iceberge What are Unity Catalog volumes?

O senhor pode usar o Catalog Explorer, o Notebook, o editor SQL e painéis para interagir com objetos de dados armazenados no armazenamento default.

Exemplo de tarefa

A seguir, exemplos de tarefas que o senhor pode concluir com o armazenamento default:

fazer upload de arquivos locais para um volume gerenciar ou criar uma tabela gerenciar. Consulte upload de arquivos para um volume Unity Catalog e Criar ou modificar uma tabela usando o arquivo upload.
Consultar dados com o Notebook. Veja o tutorial: Consultar e visualizar dados de um Notebook.
Crie um painel. Consulte Criar um painel.
Consultar dados com SQL e programar SQL consultas. Consulte Escrever consultas e explorar dados no novo editor SQL.
Ingerir dados de um volume externo em uma tabela gerenciadora. Consulte Uso do Auto Loader com o Unity Catalog.
Ingerir dados em uma tabela gerenciar com Fivetran. Consulte Conectar-se ao Fivetran.
Use as ferramentas do site BI para explorar tabelas gerenciais. Consulte Conectar o Tableau e o Databricks e Power BI com o Databricks.
execução serverless Notebook. Consulte compute sem servidor para o Notebook.
execução serverless Job. Veja a execução do seu LakeFlow Jobs with serverless compute for fluxo de trabalho.
execução servindo modelo endpoint. Veja os modelos implantados usando Mosaic AI Model Serving.
execução pipeline declarativo LakeFlow Spark serverless . Consulte Configurar um pipeline serverless.
Use a otimização preditiva em suas tabelas. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.

Limitações

Aplicam-se as seguintes limitações:

O compute clássico (qualquer compute que não seja serverless) não pode interagir com dados ativos no armazenamento default.
Delta Sharing suporta tabelas de compartilhamento para qualquer destinatário - aberto ou Databricks- e os destinatários podem usar o clássico compute para acessar tabelas compartilhadas(Beta). Ative o recurso Delta Sharing for default Storage - Expanded Access no console account.
- Todos os outros ativos compartilháveis só podem ser Delta compartilhados com Databricks destinatários no mesmo cloud. Os destinatários devem usar o site serverless compute.
As tabelas com particionamento ativado não podem ser compartilhadas em Delta.
Clientes externos Iceberg e Delta não podem acessar diretamente os metadados subjacentes, a lista de manifestos e os arquivos de dados das tabelas UC no armazenamento default (o acesso FileIO não é suportado). No entanto, ferramentas BI como Power BI e Tableau podem acessar as tabelas Unity Catalog no armazenamento default usando drivers ODBC e JDBC . Clientes externos também podem acessar volumes Unity Catalog no armazenamento default usando a API de Arquivos.
O armazenamento padrão oferece suporte a acesso externo por meio dos drivers ODBC e JDBC Databricks , incluindo a otimização de desempenho Cloud Fetch do driver ODBC para consultas em conjuntos de dados maiores. No entanto, se você estiver acessando uma tabela de armazenamento default a partir de um workspace com o PrivateLink de front-end ativado, suas consultas de cliente ODBC maiores que 100 MB falharão, pois a otimização Cloud Fetch para tabelas de armazenamento default não oferece suporte ao PrivateLink de front-end no momento.

O que é armazenamento default ?​

Requisitos​

Criar um novo catálogo​

Trabalhe com o armazenamento default​

Exemplo de tarefa​

Limitações​