Pular para o conteúdo principal

Conectar-se à fonte de dados

Este artigo fornece recomendações opinativas sobre como os administradores e outros usuários avançados podem configurar as conexões entre Databricks e a fonte de dados. Se estiver tentando determinar se o senhor tem acesso para ler dados de um sistema externo, comece analisando os dados aos quais tem acesso em seu site workspace. Consulte Descobrir dados.

nota

Para obter informações sobre como se conectar a serviços externos que não são necessariamente fontes de dados, consulte gerenciar o acesso a serviços externos na nuvem usando credenciais de serviço.

Você pode conectar sua conta do Databricks a fontes de dados, como armazenamento de objetos em nuvem, sistemas de gerenciamento de bancos de dados relacionais, serviços de streaming de dados e plataformas empresariais, como CRMs. Os privilégios específicos necessários para configurar conexões dependem da fonte de dados, de como estão configuradas as permissões em seu workspace do Databricks, das permissões necessárias para interagir com dados na fonte, de seu modelo de governança de dados e de seu método preferido de conexão.

A maioria dos métodos exige privilégios elevados tanto na fonte de dados quanto no site Databricks workspace para configurar as permissões necessárias para integrar os sistemas. Usuários sem essas permissões devem solicitar ajuda. Consulte Solicitar acesso à fonte de dados.

Configurar conexões de armazenamento de objetos

O armazenamento de objetos na nuvem fornece a base para armazenar a maioria dos dados no Databricks. Para saber mais sobre o armazenamento de objetos na nuvem e onde a Databricks armazena os dados, consulte Onde a Databricks grava os dados?

A Databricks recomenda o uso do Unity Catalog para configurar o acesso ao armazenamento de objetos na nuvem. O Unity Catalog fornece governança de dados para dados estruturados e não estruturados no armazenamento de objetos na nuvem. Consulte Conectar-se ao serviço e armazenamento de objetos na nuvem usando Unity Catalog.

Os clientes que não usam o Unity Catalog devem configurar as conexões usando métodos antigos. Consulte Configurar o acesso ao armazenamento de objetos na nuvem para o Databricks.

Para configurar a rede para o armazenamento de objetos na nuvem, consulte Rede.

Configurar conexões com sistemas de dados externos

O Databricks recomenda várias opções para configurar conexões com sistemas de dados externos, dependendo de suas necessidades. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Opção

Descrição

Federação lakehouse

Fornece acesso somente para leitura aos dados em sistemas de dados corporativos. As conexões são configuradas por meio do Unity Catalog no nível do catálogo ou do esquema, sincronizando várias tabelas com uma única configuração. Veja o que é Lakehouse Federation?

Conexão de parceiros

Aproveita as soluções tecnológicas do parceiro para se conectar a fontes de dados externas e automatizar a ingestão de dados no site lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse a partir de sistemas externos. Consulte O que é o Databricks Partner Connect?

Drivers

A Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar as conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Conectar-se a sistemas externos.

JDBC

Vários drivers incluídos para sistemas externos se baseiam no suporte nativo a JDBC, e a opção JDBC oferece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar as conexões para cada tabela. Consulte Consultar bancos de dados usando JDBC.

Conectar-se à fonte de transmissão de dados

O Databricks fornece conectores otimizados para muitos sistemas de streaming de dados.

Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carregar essas credenciais no Databricks. O Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.

Todos os conectores de dados para fontes de transmissão suportam a transmissão de credenciais usando opções quando o senhor define consultas de transmissão. Consulte Configurar transmissão fonte de dados.

Solicitar acesso à fonte de dados

Em muitas organizações, a maioria dos usuários não tem privilégios suficientes no Databricks ou em fontes de dados externas para configurar conexões de dados.

Sua organização pode já ter configurado o acesso a uma fonte de dados usando um dos padrões descritos nos artigos vinculados nesta página. Se sua organização tiver um processo bem definido para solicitar acesso aos dados, o Databricks recomenda seguir esse processo.

Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento pode ajudá-lo a:

  1. Use o Catalog Explorer para view as tabelas e os volumes que o senhor pode acessar. Consulte O que é o Catalog Explorer?.

  2. Pergunte a seus colegas de equipe ou gerentes sobre as fontes de dados que eles podem acessar.

    • A maioria das organizações usa grupos sincronizados de seu provedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerenciar permissões para usuários do workspace. Se outros membros de sua equipe puderem acessar as fontes de dados que você precisa acessar, peça a um administrador de workspaces que o adicione ao grupo correto para conceder acesso a você.
    • Se uma tabela, volume ou fonte de dados específica foi configurado por um colega de trabalho, esse indivíduo deve ter permissões para conceder acesso aos dados.
  3. Algumas organizações configuram permissões de acesso a dados por meio de configurações em clusters de compute e SQL warehouses.

    • O acesso às fontes de dados pode variar de acordo com o compute.
    • Você pode ver o criador do compute na guia Compute . Entre em contato com o criador para perguntar sobre fontes de dados que devem ser acessíveis.