Pular para o conteúdo principal

armazenamento padrão no Databricks

Esta página explica como funciona o armazenamento default no Databricks e como criar catálogos e objetos de dados que o utilizam.

O que é armazenamento default ?

O armazenamento padrão é uma plataforma de armazenamento de objetos totalmente padronizada que fornece armazenamento pronto para uso em sua account Databricks . Alguns recursos Databricks usam o armazenamento default como alternativa ao armazenamento externo.

O espaço de trabalho sem servidor usa o armazenamento default para armazenamento interno e workspace , bem como para o catálogo default que é criado com o workspace. Em um espaço de trabalho serverless , você pode criar catálogos adicionais no armazenamento default ou em seu próprio armazenamento de objetoscloud.

Tanto no espaço de trabalho clássico quanto no espaço de trabalho serverless , o armazenamento default é usado pelo recurso para armazenar itens como metadados do plano de controle, dados derivados, modelos e outros artefatos. Por exemplo, Clean Rooms, Data Classification, Detection de Anomaly e Agent Bricks utilizam o armazenamento default de um workspace. Consulte a documentação do recurso individual para obter detalhes sobre o que cada repositório de recursos está no armazenamento default .

Requisitos

  • A criação de catálogos no armazenamento default está disponível apenas no espaço de trabalhoserverless (Prévia Pública).

  • Por default, os catálogos que usam o armazenamento default só podem ser acessados a partir do workspace onde foram criados. Você pode conceder acesso a outros espaços de trabalho, incluindo o espaço de trabalho clássico, mas eles devem usar compute serverless para acessar os dados no catálogo. Consulte Limitar o acesso ao catálogo a um espaço de trabalho específico.

  • O senhor deve ter privilégios CREATE CATALOG para criar um catálogo com o armazenamento default. Consulte Privilégios e objetos protegidos do Unity Catalog.

  • Se o seu cliente estiver usando o driver ODBC Databricks para acessar um catálogo de armazenamento default por trás de um firewall, você deverá configurar o firewall para permitir o acesso aos gateways de armazenamento regionais Databricks . Para obter detalhes sobre o endereço IP e o nome de domínio do armazenamento default , consulte Endereços IP e domínios para Databricks serviço e ativo.

Conclua as etapas a seguir para criar um novo catálogo usando o armazenamento default:

  1. Clique em Ícone de dados. Catálogo na barra lateral. O Catalog Explorer é exibido.
  2. Clique em Criar catálogo . A caixa de diálogo Criar um novo catálogo é exibida.
  3. Forneça um nome de catálogo que seja exclusivo em seu site account.
  4. Selecione a opção para Usar o armazenamento default .
  5. Clique em Criar .

No espaço de trabalho serverless, o senhor também pode usar o seguinte comando SQL para criar um novo catálogo no armazenamento default. Você não precisa especificar um local para o catálogo.

SQL
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]

Trabalhe com o armazenamento default

Todas as interações com o armazenamento default requerem serverless, o Unity Catalog habilitado para compute.

O recurso apoiado pelo armazenamento default usa o mesmo modelo de privilégio que outros objetos em Unity Catalog. O senhor deve ter privilégios suficientes para criar, view, consultar ou modificar objetos de dados. Consulte Privilégios e objetos protegidos do Unity Catalog.

O senhor trabalha com o armazenamento default criando e interagindo com tabelas gerenciar e volumes gerenciar apoiados pelo armazenamento default. Consulte Unity Catalog gerenciar tabelas em Databricks para Delta Lake e Apache Iceberge What are Unity Catalog volumes?

O senhor pode usar o Catalog Explorer, o Notebook, o editor SQL e painéis para interagir com objetos de dados armazenados no armazenamento default.

Exemplo de tarefa

A seguir, exemplos de tarefas que o senhor pode concluir com o armazenamento default:

Limitações

Aplicam-se as seguintes limitações:

  • O compute clássico (qualquer compute que não seja serverless) não pode interagir com dados ativos no armazenamento default.

  • Delta Sharing suporta tabelas de compartilhamento para qualquer destinatário - aberto ou Databricks- e os destinatários podem usar o clássico compute para acessar tabelas compartilhadas(Beta). Ative o recurso Delta Sharing for default Storage - Expanded Access no console account.

    • Todos os outros ativos compartilháveis só podem ser Delta compartilhados com Databricks destinatários no mesmo cloud. Os destinatários devem usar o site serverless compute.
  • As tabelas com particionamento ativado não podem ser compartilhadas em Delta.

  • Clientes externos Iceberg e Delta não podem acessar diretamente os metadados subjacentes, a lista de manifestos e os arquivos de dados das tabelas UC no armazenamento default (o acesso FileIO não é suportado). No entanto, ferramentas BI como Power BI e Tableau podem acessar as tabelas Unity Catalog no armazenamento default usando drivers ODBC e JDBC . Clientes externos também podem acessar volumes Unity Catalog no armazenamento default usando a API de Arquivos.

  • O armazenamento padrão oferece suporte a acesso externo por meio dos drivers ODBC e JDBC Databricks , incluindo a otimização de desempenho Cloud Fetch do driver ODBC para consultas em conjuntos de dados maiores. No entanto, se você estiver acessando uma tabela de armazenamento default a partir de um workspace com o PrivateLink de front-end ativado, suas consultas de cliente ODBC maiores que 100 MB falharão, pois a otimização Cloud Fetch para tabelas de armazenamento default não oferece suporte ao PrivateLink de front-end no momento.