Conecte-se à fonte de dados

Este artigo fornece recomendações opinativas sobre como os administradores e outros usuários avançados podem configurar conexões entre Databricks e fonte de dados. Se você estiver tentando determinar se tem acesso para ler dados de um sistema externo, comece revisando os dados aos quais você tem acesso em seu workspace. Consulte Descobrir dados.

Você pode conectar sua account do Databricks a fontes de dados, como armazenamento de objetos clouds , sistemas de gerenciamento de banco de dados relacional, serviços de transmissão de dados e plataformas empresariais, como CRMs. Os privilégios específicos necessários para configurar ligações dependem da fonte de dados, de como as permissões no seu workspace Databricks estão configuradas, das permissões necessárias para interagir com os dados na fonte, do seu modelo de governança de dados e do seu método preferido para ligação.

A maioria dos métodos requer privilégios elevados tanto na fonte de dados quanto no workspace do Databricks para configurar as permissões necessárias para integrar sistemas. Os usuários sem essas permissões devem solicitar ajuda. Consulte Solicitar acesso à fonte de dados.

Configurar conexões de armazenamento de objetos

o armazenamento de objetos clouds fornece a base para armazenar a maioria dos dados em Databricks. Para saber mais sobre o armazenamento de objetos clouds e onde o Databricks armazena dados, consulte Onde o Databricks grava dados?.

A Databricks recomenda usar o Unity Catalog para configurar o acesso ao armazenamento de objetos clouds . O Unity Catalog fornece governança de dados para dados estruturados e não estruturados em armazenamento de objetos clouds . Consulte Conectar-se ao armazenamento de objetos clouds usando o Unity Catalog.

Os clientes que não usam o Unity Catalog devem configurar as conexões usando métodos antigos. Consulte Configurar o acesso ao armazenamento de objetos cloud para Databricks.

Para configurar a rede para o armazenamento de objetos em nuvens, consulte Rede.

Configurar conexões com sistemas de dados externos

A Databricks recomenda várias opções para configurar ligações a sistemas de dados externos, dependendo das suas necessidades. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Opção

Descrição

Federação lakehouse

Fornece acesso somente leitura aos dados nos sistemas de dados corporativos. As conexões são configuradas por meio do Unity Catalog no nível do catálogo ou do esquema, sincronizando várias tabelas com uma única configuração. Veja o que é lakehouse Federation.

Conexão de parceiros

Aproveita soluções de parceiro tecnológico para conectar-se a fontes de dados externas e automatizar a ingestão de dados para o lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse de sistemas externos. Consulte O que é o Databricks Partner Connect?

Motoristas

O Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Conectar-se a sistemas externos.

JDBC

Vários drivers incluídos para sistemas externos baseiam-se no suporte JDBC nativo, e a opção JDBC fornece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar conexões para cada tabela. Consulte query bancos de dados usando JDBC.

Conecte-se à fonte de transmissão de dados

Databricks fornece conectores otimizados para muitos sistemas de transmissão de dados.

Para toda transmissão fonte de dados, você deve gerar credenciais que forneçam acesso e carregar essas credenciais no Databricks. A Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.

Todos os conectores de dados para fontes de transmissão suportam a passagem de credenciais usando opções quando você define transmissão query. Consulte Configurar transmissão de fonte de dados.

Solicitar acesso à fonte de dados

Em muitas organizações, a maioria dos utilizadores não tem privilégios suficientes em Databricks ou em fontes de dados externas para configurar ligações de dados.

Sua organização pode já ter configurado o acesso a uma fonte de dados usando um dos padrões descritos nos artigos vinculados nesta página. Se a sua organização tiver um processo bem definido para solicitar acesso aos dados, a Databricks recomenda seguir esse processo.

Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento poderá ajudá-lo:

  1. Use o Catalog Explorer para view as tabelas e volumes que você pode acessar. Consulte O que é o Catalog Explorer?.

  2. Pergunte aos seus colegas de equipe ou gerentes sobre a fonte de dados que eles podem acessar.

    • A maioria das organizações utiliza grupos sincronizados a partir do seu fornecedor de identidade (por exemplo: Okta ou Microsoft Entra ID (anteriormente Azure Active Directory)) para gerir permissões para utilizadores workspace . Se outros membros da sua equipe puderem acessar a fonte de dados à qual você precisa, peça a um administrador do espaço de trabalho para adicioná-lo ao grupo correto para conceder-lhe acesso.

    • Se uma determinada tabela, volume ou fonte de dados foi configurada por um colega deworker, esse indivíduo deverá ter permissões para conceder acesso aos dados.

  3. Algumas organizações configuram permissões de acesso a dados por meio de configurações em clusters compute e SQL warehouse.

    • O acesso à fonte de dados pode variar de acordo com compute.

    • Você pode view o compute criador na compute tab. Entre em contato com o criador para perguntar sobre fontes de dados que devem estar acessíveis.