Conectar à fonte de dados e ao serviço externo
Esta página fornece recomendações para administradores e usuários avançados que estão configurando conexões entre Databricks e fontes de dados e serviços externos.
O senhor pode conectar seu Databricks account a fontes de dados, como armazenamento de objetos em nuvem, sistemas de gerenciamento de banco de dados relacionais, serviços de transmissão de dados e plataformas empresariais, como CRMs. O senhor também pode conectar seu Databricks account a um serviço externo, como o AWS Glue ou AWS Secrets Manager.
Configurar conexões com o armazenamento de objetos
A maioria dos dados usados pelas cargas de trabalho do Databricks é armazenada no armazenamento de objetos em nuvem, como o AWS S3 ou o Cloudflare R2. O senhor pode gerenciar o acesso ao armazenamento de objetos na nuvem usando uma das seguintes opções:
-
Unity Catalog (recomendado), que fornece governança de dados para dados estruturados e não estruturados no armazenamento de objetos na nuvem. Consulte Conectar-se ao armazenamento de objetos na nuvem usando o Unity Catalog.
-
Conectores e padrões de conexão antigos. Consulte Configurar o acesso ao armazenamento de objetos na nuvem para Databricks usando padrões herdados.
Configurar conexões com sistemas de dados externos
A Databricks oferece várias opções para configurar conexões com sistemas de dados externos. A tabela a seguir fornece uma visão geral de alto nível dessas opções:
Opção | Descrição |
---|---|
Conectores de federação de consultas | A lakehouse Federation fornece acesso somente leitura aos dados nos sistemas de dados corporativos. As conexões são configuradas por meio do Unity Catalog no nível do catálogo ou do esquema, sincronizando várias tabelas com uma única configuração. Veja o que é Lakehouse Federation? |
Gerenciar conectores de ingestão | LakeFlow Connect permite que os usuários administradores criem uma conexão e gerenciem a ingestão pipeline ao mesmo tempo na UI de ingestão de dados. Consulte gerenciar conectores em LakeFlow Connect. Se os usuários que criarão o pipeline não forem administradores ou planejarem usar Databricks APIs, Databricks SDKs, Databricks CLI ou Databricks ativo Bundles, um administrador deverá primeiro criar a conexão no Catalog Explorer. Essas interfaces exigem que os usuários especifiquem uma conexão existente quando criam um pipeline. Consulte Conectar-se a fontes de ingestão de gerenciar. |
conectores de transmissão | O Databricks fornece conectores otimizados para muitos sistemas de streaming de dados. Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carregar essas credenciais no Databricks. O Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso. Todos os conectores de dados para fontes de transmissão suportam a transmissão de credenciais usando opções quando o senhor define consultas de transmissão. Consulte Conectores padrão em LakeFlow Connect. |
Integrações de terceiros | Use ferramentas de terceiros para se conectar a fontes de dados externas e automatizar a ingestão de dados no site lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse a partir de sistemas externos. Consulte O que é o Databricks Partner Connect? |
Drivers | A Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar as conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Conectar-se a sistemas externos. Para a federação de consultas somente de leitura, a lakehouse Federation é sempre preferível a esses drivers. |
JDBC | Vários drivers incluídos para sistemas externos se baseiam no suporte nativo a JDBC, e a opção JDBC oferece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar as conexões para cada tabela. Consulte Consultar bancos de dados usando JDBC. Para a federação de consultas somente de leitura, a lakehouse Federation é sempre preferível a esses drivers. |
Configurar conexões com serviços externos
Unity Catalog rege o acesso ao serviço de não armazenamento usando um objeto seguro chamado credencial de serviço . Uma credencial de serviço encapsula uma credencial de nuvem de longo prazo que fornece acesso a um serviço externo ao qual os usuários precisam se conectar a partir da Databricks. Consulte Conectar-se a um serviço de nuvem externo usando Unity Catalog
gerenciar e solicitar acesso a fontes de dados e serviços externos
A maioria dos métodos de conexão exige privilégios elevados tanto na fonte de dados ou serviço externo quanto no site Databricks workspace. Em organizações típicas, poucos usuários têm privilégios suficientes no Databricks ou em provedores externos de dados e armazenamento para configurar as conexões de dados por conta própria.
É possível que sua organização já tenha configurado o acesso a uma fonte de dados ou serviço usando um dos padrões descritos nos artigos vinculados a esta página. Se sua organização tiver um processo bem definido para solicitar acesso a dados e serviços de terceiros, o site Databricks recomenda seguir esse processo. Se o senhor não tiver certeza de como obter acesso a uma fonte de dados, este procedimento pode ajudar:
- Use o Catalog Explorer para view as tabelas e os volumes que o senhor pode acessar. Consulte O que é o Catalog Explorer?.
- Pergunte a seus colegas de equipe ou gerentes sobre as fontes de dados que eles podem acessar.
- A maioria das organizações usa grupos sincronizados do provedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerenciar as permissões dos usuários do workspace. Se outros membros da sua equipe puderem acessar fontes de dados às quais o senhor precisa ter acesso, peça a um administrador do workspace que o adicione ao grupo correto para conceder acesso.
- Se uma determinada tabela, volume ou fonte de dados tiver sido configurada por um colegaworker, esse indivíduo deverá ser capaz de conceder ao senhor acesso aos dados.
Algumas organizações atribuem permissões de acesso a dados específicos ao clustering compute e ao armazém SQL. Esse é um modelo de governança legado, mas se a sua organização o utiliza e o senhor deseja saber quais fontes de dados estão disponíveis em um recurso compute específico, entre em contato com o criador compute listado no computador tab.