armazenamento padrão no Databricks
Esta página explica como funciona o armazenamento default no Databricks e como criar catálogos e objetos de dados que o utilizam.
O que é armazenamento default ?
O armazenamento padrão é uma plataforma de armazenamento de objetos totalmente padronizada que fornece armazenamento pronto para uso em sua account Databricks . Alguns recursos Databricks usam o armazenamento default como alternativa ao armazenamento externo.
O espaço de trabalho sem servidor usa o armazenamento default para armazenamento interno e workspace , bem como para o catálogo default que é criado com o workspace. Em um espaço de trabalho serverless , você pode criar catálogos adicionais no armazenamento default ou em seu próprio armazenamento de objetoscloud.
Tanto no espaço de trabalho clássico quanto no espaço de trabalho serverless , o armazenamento default é usado pelo recurso para armazenar itens como metadados do plano de controle, dados derivados, modelos e outros artefatos. Por exemplo, Clean Rooms, Data Classification, Detection de Anomaly e Agent Bricks utilizam o armazenamento default de um workspace. Consulte a documentação do recurso individual para obter detalhes sobre o que cada repositório de recursos está no armazenamento default .
Requisitos
-
A criação de catálogos no armazenamento default está disponível apenas no espaço de trabalhoserverless (Prévia Pública).
-
Por default, os catálogos que usam o armazenamento default só podem ser acessados a partir do workspace onde foram criados. Você pode conceder acesso a outros espaços de trabalho, incluindo o espaço de trabalho clássico, mas eles devem usar compute serverless para acessar os dados no catálogo. Consulte Limitar o acesso ao catálogo a um espaço de trabalho específico.
-
O senhor deve ter privilégios
CREATE CATALOGpara criar um catálogo com o armazenamento default. Consulte Privilégios e objetos protegidos do Unity Catalog. -
Se o seu cliente estiver usando o driver ODBC Databricks para acessar um catálogo de armazenamento default por trás de um firewall, você deverá configurar o firewall para permitir o acesso aos gateways de armazenamento regionais Databricks . Para obter detalhes sobre o endereço IP e o nome de domínio do armazenamento default , consulte Endereços IP e domínios para Databricks serviço e ativo.
Criar um novo catálogo
Conclua as etapas a seguir para criar um novo catálogo usando o armazenamento default:
- Clique em
Catálogo na barra lateral. O Catalog Explorer é exibido.
- Clique em Criar catálogo . A caixa de diálogo Criar um novo catálogo é exibida.
- Forneça um nome de catálogo que seja exclusivo em seu site account.
- Selecione a opção para Usar o armazenamento default .
- Clique em Criar .
No espaço de trabalho serverless, o senhor também pode usar o seguinte comando SQL para criar um novo catálogo no armazenamento default. Você não precisa especificar um local para o catálogo.
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]
Trabalhe com o armazenamento default
Todas as interações com o armazenamento default requerem serverless, o Unity Catalog habilitado para compute.
O recurso apoiado pelo armazenamento default usa o mesmo modelo de privilégio que outros objetos em Unity Catalog. O senhor deve ter privilégios suficientes para criar, view, consultar ou modificar objetos de dados. Consulte Privilégios e objetos protegidos do Unity Catalog.
O senhor trabalha com o armazenamento default criando e interagindo com tabelas gerenciar e volumes gerenciar apoiados pelo armazenamento default. Consulte Unity Catalog gerenciar tabelas em Databricks para Delta Lake e Apache Iceberge What are Unity Catalog volumes?
O senhor pode usar o Catalog Explorer, o Notebook, o editor SQL e painéis para interagir com objetos de dados armazenados no armazenamento default.
Exemplo de tarefa
A seguir, exemplos de tarefas que o senhor pode concluir com o armazenamento default:
- fazer upload de arquivos locais para um volume gerenciar ou criar uma tabela gerenciar. Consulte upload de arquivos para um volume Unity Catalog e Criar ou modificar uma tabela usando o arquivo upload.
- Consultar dados com o Notebook. Veja o tutorial: Consultar e visualizar dados de um Notebook.
- Crie um painel. Consulte Criar um painel.
- Consultar dados com SQL e programar SQL consultas. Consulte Escrever consultas e explorar dados no novo editor SQL.
- Ingerir dados de um volume externo em uma tabela gerenciadora. Consulte Uso do Auto Loader com o Unity Catalog.
- Ingerir dados em uma tabela gerenciar com Fivetran. Consulte Conectar-se ao Fivetran.
- Use as ferramentas do site BI para explorar tabelas gerenciais. Consulte Conectar o Tableau e o Databricks e Power BI com o Databricks.
- execução serverless Notebook. Consulte compute sem servidor para o Notebook.
- execução serverless Job. Veja a execução do seu LakeFlow Jobs with serverless compute for fluxo de trabalho.
- execução servindo modelo endpoint. Veja os modelos implantados usando Mosaic AI Model Serving.
- execução pipeline declarativo LakeFlow Spark serverless . Consulte Configurar um pipeline serverless.
- Use a otimização preditiva em suas tabelas. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.
Limitações
Aplicam-se as seguintes limitações:
-
O compute clássico (qualquer compute que não seja serverless) não pode interagir com dados ativos no armazenamento default.
-
Delta Sharing suporta tabelas de compartilhamento para qualquer destinatário - aberto ou Databricks- e os destinatários podem usar o clássico compute para acessar tabelas compartilhadas(Beta). Ative o recurso Delta Sharing for default Storage - Expanded Access no console account.
- Todos os outros ativos compartilháveis só podem ser Delta compartilhados com Databricks destinatários no mesmo cloud. Os destinatários devem usar o site serverless compute.
-
As tabelas com particionamento ativado não podem ser compartilhadas em Delta.
-
Clientes externos Iceberg e Delta não podem acessar diretamente os metadados subjacentes, a lista de manifestos e os arquivos de dados das tabelas UC no armazenamento default (o acesso FileIO não é suportado). No entanto, ferramentas BI como Power BI e Tableau podem acessar as tabelas Unity Catalog no armazenamento default usando drivers ODBC e JDBC . Clientes externos também podem acessar volumes Unity Catalog no armazenamento default usando a API de Arquivos.
-
O armazenamento padrão oferece suporte a acesso externo por meio dos drivers ODBC e JDBC Databricks , incluindo a otimização de desempenho Cloud Fetch do driver ODBC para consultas em conjuntos de dados maiores. No entanto, se você estiver acessando uma tabela de armazenamento default a partir de um workspace com o PrivateLink de front-end ativado, suas consultas de cliente ODBC maiores que 100 MB falharão, pois a otimização Cloud Fetch para tabelas de armazenamento default não oferece suporte ao PrivateLink de front-end no momento.