Acesso Databricks uso de dados sistemas externos
Este artigo fornece uma visão geral da funcionalidade e das recomendações para tornar os dados gerenciados e governados pelo site Databricks disponíveis para outros sistemas.
Esses padrões se concentram em cenários em que sua organização precisa integrar ferramentas ou sistemas confiáveis aos dados do Databricks. Se estiver procurando orientação sobre o compartilhamento de dados fora de sua organização, consulte Compartilhar dados e AI ativo de forma segura com usuários de outras organizações.
Qual é o acesso externo suportado pela Databricks?
Databricks recomenda o uso do site Unity Catalog para controlar todos os seus dados ativos.
A tabela a seguir fornece uma visão geral dos formatos de suporte e padrões de acesso para objetos do Unity Catalog.
Objeto do Unity Catalog | Formatos suportados | Padrões de acesso |
---|---|---|
Tabelas gerenciadas | Delta Lake, Iceberg | Venda de credenciais, catálogo Iceberg REST, Delta Sharing |
Tabelas externas | Delta Lake | Venda de credenciais, catálogo Iceberg REST, Delta Sharing, URIs de nuvem |
Tabelas externas | CSV, JSON, Avro, Parquet, ORC, texto | URIs de nuvem |
Volumes externos | Todos os tipos de dados | URIs de nuvem |
O suporte ao Iceberg descreve tabelas gravadas pelo Databricks usando o Delta Lake, mas com leituras do Iceberg (UniForm) ativadas.
Para obter mais detalhes sobre esses objetos do Unity Catalog, consulte o seguinte:
Venda automática de credenciais do Unity Catalog
A venda de credenciais do Unity Catalog permite que os usuários configurem clientes externos para herdar privilégios nos dados controlados pela Databricks. Consulte a venda de credenciais do Unity Catalog para acesso externo ao sistema.
Leia as tabelas com os clientes da Iceberg
A Databricks fornece aos clientes do Iceberg suporte somente leitura para tabelas registradas no Unity Catalog. Os clientes compatíveis incluem o Apache Spark, o Apache Flink, o Trino e o Snowflake. Consulte Ler tabelas do Databricks de clientes do Iceberg.
Compartilhe tabelas somente para leitura em todos os domínios
O senhor pode usar o site Delta Sharing para conceder acesso somente leitura às tabelas gerenciar ou Delta externas em todos os domínios e sistemas compatíveis. Os sistemas de software que suportam leituras de cópia zero das tabelas Delta Sharing incluem SAP, Amperity e Oracle. Veja Compartilhe dados e AI ativo de forma segura com usuários de outras organizações.
O senhor também pode usar o Delta Sharing para conceder acesso somente leitura a clientes ou parceiros. O Delta Sharing também faz backup de dados compartilhados usando o Databricks Marketplace.
Ler e gravar tabelas Delta externas
O senhor pode acessar tabelas externas do Unity Catalog com suporte do Delta Lake a partir de clientes externos de leitura e gravação do Delta Lake usando credenciais e URIs de armazenamento de objetos na nuvem.
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
Para evitar possíveis problemas de corrupção e perda de dados, o site Databricks recomenda que o senhor não modifique a mesma tabela Delta armazenada em S3 a partir de diferentes espaços de trabalho ou clientes.
Você pode usar o Cloudflare R2 para armazenamento de objetos na nuvem se precisar de gravações de vários clientes. Consulte Criar uma credencial de armazenamento para se conectar ao Cloudflare R2.
A documentação da Databricks lista as limitações e considerações de compatibilidade com base nas versões da Databricks Runtime e no recurso de plataforma. O senhor deve confirmar quais protocolos de leitura e gravação e recursos de tabela são compatíveis com o seu cliente. Veja delta.io.
Acesse dados tabulares que não são do Delta Lake com tabelas externas
As tabelas externas do Unity Catalog suportam muitos formatos além do Delta Lake, incluindo Parquet, ORC, CSV e JSON. As tabelas externas armazenam todos os arquivos de dados em diretórios em um local de armazenamento de objetos na nuvem especificado por um URI na nuvem fornecido durante a criação da tabela. Outros sistemas acessam esses arquivos de dados diretamente do armazenamento de objetos na nuvem.
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
A leitura e a gravação em tabelas externas de vários sistemas podem levar a problemas de consistência e corrupção de dados, pois nenhuma garantia transacional é fornecida para formatos diferentes do Delta Lake.
O Unity Catalog pode não pegar novas partições gravadas em tabelas externas com suporte de formatos diferentes do Delta Lake. A Databricks recomenda a execução regular do site MSCK REPAIR TABLE table_name
para garantir que o Unity Catalog tenha registrado todos os arquivos de dados gravados por sistemas externos.
Acesse dados não tabulares com volumes externos
A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Consulte O que são volumes do Unity Catalog?
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
O Volumes fornece APIs, SDKs e outras ferramentas para obter e colocar arquivos em volumes. Consulte gerenciar arquivos em volumes.
Delta Sharing permite que o senhor compartilhe volumes com outras contas Databricks, mas não se integra a sistemas externos.