Pular para o conteúdo principal

Acesso Databricks uso de dados sistemas externos

Esta página fornece uma visão geral da funcionalidade e recomendações para disponibilizar os dados gerenciados e governados pelo Databricks a sistemas externos.

Esses padrões se concentram em cenários nos quais sua organização precisa integrar ferramentas ou sistemas confiáveis aos dados do Databricks. Se você busca orientações sobre como compartilhar dados fora da sua organização, consulte Compartilhar dados e AI ativa com segurança.

Qual é o acesso externo suportado pela Databricks?

Databricks recomenda o uso do site Unity Catalog para controlar todos os seus dados ativos. O Unity Catalog fornece integrações para clientes Delta Lake usando a API REST do Unity e para clientes Apache Iceberg usando o catálogo REST do Iceberg. Para obter uma lista completa das integrações compatíveis, consulte Integrações do Unity Catalog.

A tabela a seguir fornece uma visão geral dos formatos de suporte e padrões de acesso para objetos do Unity Catalog.

Objeto do Unity Catalog

Formatos suportados

Padrões de acesso

Tabelas gerenciadas

Delta Lake, Iceberg

Unity REST API, Iceberg REST catálogo, Delta Sharing

Tabelas externas

Delta Lake

Unity REST API, Iceberg REST catalog, Delta Sharing, cloud URIs

Tabelas externas

CSV, JSON, Avro, Parquet, ORC, texto

API REST do Unity, URIs de nuvem

Volumes externos

Todos os tipos de dados

URIs de nuvem

Tabelas estrangeiras*

Delta Lake, Iceberg

API REST do Unity, catálogo REST Iceberg (prévia), Delta Sharing

Tabelas estrangeiras*

CSV, JSON, Avro, Parquet, ORC, texto

API REST do Unity, URIs de nuvem

* Somente tabelas estrangeiras federadas usando federação de catálogo são suportadas. Para garantir novas leituras de mecanismos externos em tabelas estrangeiras, os clientes podem refresh metadados periodicamente usando LakeFlow Job.

Para obter mais detalhes sobre esses objetos do Unity Catalog, consulte o seguinte:

Venda automática de credenciais do Unity Catalog

A venda de credenciais do Unity Catalog permite que os usuários configurem clientes externos para herdar privilégios nos dados controlados pela Databricks. Os clientes Iceberg e Delta podem oferecer suporte à venda de credenciais. Consulte a venda de credenciais do Unity Catalog para acesso externo ao sistema.

Acesse tabelas com clientes Delta

Utilize a API REST do Unity para ler, gravar e criar tabelas gerenciadas Unity Catalog e tabelas externas com suporte do Delta Lake a partir de clientes Delta compatíveis. Veja Acessar tabelas do Databricks a partir de clientes Delta.

info

Beta

A criação e gravação de tabelas no Unity Catalog a partir de clientes Delta está em versão Beta.

Para tabelas externas, Unity Catalog não controla as operações de leitura e gravação realizadas diretamente no armazenamento de objetos cloud a partir de sistemas externos. Portanto, você deve configurar políticas e credenciais adicionais em sua account cloud para garantir que as políticas de governança de dados sejam respeitadas fora do Databricks.

nota

A documentação da Databricks lista as limitações e considerações de compatibilidade com base nas versões da Databricks Runtime e no recurso de plataforma. O senhor deve confirmar quais protocolos de leitura e gravação e recursos de tabela são compatíveis com o seu cliente. Veja delta.io.

Acesse tabelas com clientes Iceberg

O Databricks fornece aos clientes do Iceberg suporte para leitura, gravação e criação de tabelas registradas no Unity Catalog. Os clientes suportados incluem Apache Spark, Apache Flink, Trino e Snowflake. Veja Acessar tabelas do Databricks a partir de clientes Apache Iceberg.

Compartilhe tabelas somente para leitura em todos os domínios

Você pode usar Delta Sharing para conceder acesso somente leitura a tabelas Delta gerenciais ou externas em domínios e sistemas compatíveis. Sistemas de software que suportam leituras sem cópia de tabelas Delta Sharing incluem SAP, Amperity e Oracle. Consulte Compartilhe dados e AI ativa com segurança.

nota

O senhor também pode usar o Delta Sharing para conceder acesso somente leitura a clientes ou parceiros. O Delta Sharing também faz backup de dados compartilhados usando o Databricks Marketplace.

Acesse dados tabulares que não são do Delta Lake com tabelas externas

As tabelas externas do Unity Catalog suportam muitos formatos além do Delta Lake, incluindo Parquet, ORC, CSV e JSON. As tabelas externas armazenam todos os arquivos de dados em diretórios em um local de armazenamento de objetos na nuvem especificado por um URI na nuvem fornecido durante a criação da tabela. Outros sistemas acessam esses arquivos de dados diretamente do armazenamento de objetos na nuvem.

Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.

A leitura e a gravação em tabelas externas de vários sistemas podem levar a problemas de consistência e corrupção de dados, pois nenhuma garantia transacional é fornecida para formatos diferentes do Delta Lake.

O Unity Catalog pode não pegar novas partições gravadas em tabelas externas com suporte de formatos diferentes do Delta Lake. A Databricks recomenda a execução regular do site MSCK REPAIR TABLE table_name para garantir que o Unity Catalog tenha registrado todos os arquivos de dados gravados por sistemas externos.

Acesse dados não tabulares com volumes externos

A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Consulte O que são volumes do Unity Catalog?

Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.

O Volumes fornece APIs, SDKs e outras ferramentas para obter e colocar arquivos em volumes. Consulte Trabalhar com arquivos em volumes do Unity Catalog.

nota

Delta Sharing permite que o senhor compartilhe volumes com outras contas Databricks, mas não se integra a sistemas externos.