Acesso Databricks uso de dados sistemas externos

Este artigo fornece uma visão geral da funcionalidade e das recomendações para tornar os dados gerenciados e governados pelo site Databricks disponíveis para outros sistemas.

Esses padrões se concentram em cenários em que sua organização precisa integrar ferramentas ou sistemas confiáveis aos dados do Databricks. Se estiver procurando orientação sobre o compartilhamento de dados fora de sua organização, consulte Compartilhar dados e AI ativo de forma segura com usuários de outras organizações.

Qual é o acesso externo suportado pela Databricks?

Databricks recomenda o uso do site Unity Catalog para controlar todos os seus dados ativos.

A tabela a seguir fornece uma visão geral dos formatos de suporte e padrões de acesso para objetos do Unity Catalog.

Objeto do Unity Catalog

Formatos suportados

Padrões de acesso

Tabelas gerenciadas

Delta Lake, Iceberg

Venda de credenciais, catálogo Iceberg REST, Delta Sharing

Tabelas externas

Delta Lake

Venda de credenciais, catálogo Iceberg REST, Delta Sharing, URIs de nuvem

Tabelas externas

CSV, JSON, Avro, Parquet, ORC, texto

URIs de nuvem

Volumes externos

Todos os tipos de dados

URIs de nuvem

Observação

O suporte ao Iceberg descreve tabelas gravadas pelo Databricks usando o Delta Lake, mas com leituras do Iceberg (UniForm) ativadas.

Para obter mais detalhes sobre esses objetos do Unity Catalog, consulte o seguinte:

Venda automática de credenciais do Unity Catalog

A venda de credenciais do Unity Catalog permite que os usuários configurem clientes externos para herdar privilégios nos dados controlados pela Databricks. Consulte a venda de credenciais do Unity Catalog para acesso externo ao sistema.

Leia as tabelas com os clientes da Iceberg

A Databricks fornece aos clientes do Iceberg suporte somente leitura para tabelas registradas no Unity Catalog. Os clientes compatíveis incluem o Apache Spark, o Apache Flink, o Trino e o Snowflake. Consulte Ler tabelas do Databricks de clientes do Iceberg.

Compartilhe tabelas somente para leitura em todos os domínios

O senhor pode usar o site Delta Sharing para conceder acesso somente leitura às tabelas gerenciar ou Delta externas em todos os domínios e sistemas compatíveis. Os sistemas de software que suportam leituras de cópia zero das tabelas Delta Sharing incluem SAP, Amperity e Oracle. Veja Compartilhe dados e AI ativo de forma segura com usuários de outras organizações.

Observação

O senhor também pode usar o Delta Sharing para conceder acesso somente leitura a clientes ou parceiros. O Delta Sharing também faz backup de dados compartilhados usando o Databricks Marketplace.

Ler e gravar tabelas Delta externas

O senhor pode acessar tabelas externas do Unity Catalog com suporte do Delta Lake a partir de clientes externos de leitura e gravação do Delta Lake usando credenciais e URIs de armazenamento de objetos na nuvem.

Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.

Para evitar possíveis problemas de corrupção e perda de dados, o site Databricks recomenda que o senhor não modifique a mesma tabela Delta armazenada em S3 a partir de diferentes espaços de trabalho ou clientes.

Você pode usar o Cloudflare R2 para armazenamento de objetos na nuvem se precisar de gravações de vários clientes. Consulte Criar uma credencial de armazenamento para se conectar ao Cloudflare R2.

Observação

A documentação da Databricks lista as limitações e considerações de compatibilidade com base nas versões da Databricks Runtime e no recurso de plataforma. O senhor deve confirmar quais protocolos de leitura e gravação e recursos de tabela são compatíveis com o seu cliente. Veja delta.io.

Acesse dados tabulares que não são do Delta Lake com tabelas externas

As tabelas externas do Unity Catalog suportam muitos formatos além do Delta Lake, incluindo Parquet, ORC, CSV e JSON. As tabelas externas armazenam todos os arquivos de dados em diretórios em um local de armazenamento de objetos na nuvem especificado por um URI na nuvem fornecido durante a criação da tabela. Outros sistemas acessam esses arquivos de dados diretamente do armazenamento de objetos na nuvem.

Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.

A leitura e a gravação em tabelas externas de vários sistemas podem levar a problemas de consistência e corrupção de dados, pois nenhuma garantia transacional é fornecida para formatos diferentes do Delta Lake.

O Unity Catalog pode não pegar novas partições gravadas em tabelas externas com suporte de formatos diferentes do Delta Lake. A Databricks recomenda a execução regular do site MSCK REPAIR TABLE table_name para garantir que o Unity Catalog tenha registrado todos os arquivos de dados gravados por sistemas externos.

Acesse dados não tabulares com volumes externos

A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Consulte O que são volumes do Unity Catalog?

Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.

O Volumes fornece APIs, SDKs e outras ferramentas para obter e colocar arquivos em volumes. Consulte gerenciar arquivos em volumes.

Observação

Delta Sharing permite que o senhor compartilhe volumes com outras contas Databricks, mas não se integra a sistemas externos.