Acesso Databricks uso de dados sistemas externos
Este artigo fornece uma visão geral da funcionalidade e das recomendações para tornar os dados gerenciados e governados pelo site Databricks disponíveis para outros sistemas.
Esses padrões se concentram em cenários em que sua organização precisa integrar ferramentas ou sistemas confiáveis aos dados do Databricks. Se estiver procurando orientação sobre o compartilhamento de dados fora de sua organização, consulte Compartilhar dados e AI ativo de forma segura com usuários de outras organizações.
Qual é o acesso externo suportado pela Databricks?
Databricks recomenda o uso do site Unity Catalog para controlar todos os seus dados ativos.
A tabela a seguir fornece uma visão geral dos formatos de suporte e padrões de acesso para objetos do Unity Catalog.
Objeto do Unity Catalog | Formatos suportados | Padrões de acesso |
---|---|---|
Tabelas gerenciadas | Delta Lake, Iceberg | Unity REST API, Iceberg REST catálogo, Delta Sharing |
Tabelas externas | Delta Lake | Unity REST API, Iceberg REST catalog, Delta Sharing, cloud URIs |
Tabelas externas | CSV, JSON, Avro, Parquet, ORC, texto | URIs de nuvem |
Volumes externos | Todos os tipos de dados | URIs de nuvem |
O suporte ao Iceberg descreve tabelas gravadas pelo Databricks usando o Delta Lake, mas com leituras do Iceberg (UniForm) ativadas.
Para obter mais detalhes sobre esses objetos do Unity Catalog, consulte o seguinte:
Venda automática de credenciais do Unity Catalog
A venda de credenciais do Unity Catalog permite que os usuários configurem clientes externos para herdar privilégios nos dados controlados pela Databricks. Os clientes Iceberg e Delta podem oferecer suporte à venda de credenciais. Consulte a venda de credenciais do Unity Catalog para acesso externo ao sistema.
Ler tabelas com clientes Delta
Use o Unity REST API para ler Unity Catalog gerenciar e tabelas externas apoiadas por Delta Lake de clientes Delta compatíveis. Consulte Ler tabelas do Databricks de clientes Delta.
Leia as tabelas com os clientes da Iceberg
A Databricks fornece aos clientes do Iceberg suporte somente leitura para tabelas registradas no Unity Catalog. Os clientes compatíveis incluem o Apache Spark, o Apache Flink, o Trino e o Snowflake. Consulte Ler tabelas do Databricks de clientes do Iceberg.
Compartilhe tabelas somente para leitura em todos os domínios
O senhor pode usar o site Delta Sharing para conceder acesso somente leitura às tabelas gerenciar ou Delta externas em todos os domínios e sistemas compatíveis. Os sistemas de software que suportam leituras de cópia zero das tabelas Delta Sharing incluem SAP, Amperity e Oracle. Veja Compartilhe dados e AI ativo de forma segura com usuários de outras organizações.
O senhor também pode usar o Delta Sharing para conceder acesso somente leitura a clientes ou parceiros. O Delta Sharing também faz backup de dados compartilhados usando o Databricks Marketplace.
Ler e gravar tabelas Delta externas
O senhor pode acessar tabelas externas do Unity Catalog com suporte do Delta Lake a partir de clientes externos de leitura e gravação do Delta Lake usando credenciais e URIs de armazenamento de objetos na nuvem.
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
A documentação da Databricks lista as limitações e considerações de compatibilidade com base nas versões da Databricks Runtime e no recurso de plataforma. O senhor deve confirmar quais protocolos de leitura e gravação e recursos de tabela são compatíveis com o seu cliente. Veja delta.io.
Acesse dados tabulares que não são do Delta Lake com tabelas externas
As tabelas externas do Unity Catalog suportam muitos formatos além do Delta Lake, incluindo Parquet, ORC, CSV e JSON. As tabelas externas armazenam todos os arquivos de dados em diretórios em um local de armazenamento de objetos na nuvem especificado por um URI na nuvem fornecido durante a criação da tabela. Outros sistemas acessam esses arquivos de dados diretamente do armazenamento de objetos na nuvem.
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
A leitura e a gravação em tabelas externas de vários sistemas podem levar a problemas de consistência e corrupção de dados, pois nenhuma garantia transacional é fornecida para formatos diferentes do Delta Lake.
O Unity Catalog pode não pegar novas partições gravadas em tabelas externas com suporte de formatos diferentes do Delta Lake. A Databricks recomenda a execução regular do site MSCK REPAIR TABLE table_name
para garantir que o Unity Catalog tenha registrado todos os arquivos de dados gravados por sistemas externos.
Acesse dados não tabulares com volumes externos
A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Consulte O que são volumes do Unity Catalog?
Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.
O Volumes fornece APIs, SDKs e outras ferramentas para obter e colocar arquivos em volumes. Consulte gerenciar arquivos em volumes.
Delta Sharing permite que o senhor compartilhe volumes com outras contas Databricks, mas não se integra a sistemas externos.