LakeFlow Connect
Visualização
gerenciar SaaS e os conectores de banco de dados fornecidos por LakeFlow Connect estão em vários estados de lançamento.
Este artigo fornece uma visão geral do Databricks LakeFlow Connect, que oferece conectores totalmente gerenciados para a ingestão de dados de aplicativos e bancos de dados SaaS em um Databricks lakehouse. A ingestão resultante pipeline é governada por Unity Catalog e é alimentada por serverless compute e DLT. LakeFlow Connect aproveita leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, dimensionável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.
Componentes do conector SaaS
Um conector SaaS é modelado pelos seguintes componentes:
- Conexão : Um objeto seguro do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
- Ingestão pipeline : Ingere os dados em etapas nas tabelas Delta. Esse componente é modelado como um serverless DLT pipeline.
Componentes do conector de banco
Um conector de banco de dados é modelado pelos seguintes componentes:
- Conexão : Um objeto seguro do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
- Gateway : extração de dados do banco de dados de origem e mantém a integridade das transações durante a transferência. Para bancos de dados baseados em nuvem, o gateway é configurado como um DLT pipeline com o clássico compute.
- Armazenamento de preparação : Um volume do Unity Catalog em que os dados do gateway são preparados antes de serem aplicados a uma tabela Delta. O armazenamento de preparação account é criado quando o gateway é implantado e existe no catálogo e no esquema que o senhor especificar.
- Ingestão pipeline : Ingere os dados em etapas nas tabelas Delta. Esse componente é modelado como um serverless DLT pipeline.
LakeFlow Connect vs. lakehouse Federation vs. Delta Sharing
A lakehouse Federation permite que o senhor consulte fontes de dados externas sem mover seus dados. O Delta Sharing permite que o senhor compartilhe com segurança dados em tempo real entre plataformas, nuvens e regiões. Databricks recomenda a ingestão usando o site LakeFlow Connect porque ele escala para acomodar grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. No entanto, talvez você queira consultar seus dados sem movê-los.
Quando o senhor puder escolher entre LakeFlow Connect, lakehouse Federation e Delta Sharing, escolha Delta Sharing para os seguintes cenários:
- Limitar a duplicação de dados.
- Consultando os dados mais recentes possíveis.
Escolha a Lakehouse Federation para os seguintes cenários:
- Relatórios ad hoc ou trabalho de prova de conceito em seu pipeline ETL.
LakeFlow Connect vs. Auto Loader
LakeFlow Connect fornece conectores integrados que permitem a ingestão incremental de dados de aplicativos e bancos de dados corporativos. O Auto Loader é um conector para armazenamento de objetos na nuvem que permite que o senhor ingira arquivos de forma incremental à medida que eles chegam ao S3, ADLS e GCS. Ele é compatível com transmissão estruturada e DLT, mas não se integra com LakeFlow Connect.
O site LakeFlow Connect pode gravar de volta em aplicativos e bancos de dados de terceiros?
Não. Se o senhor estiver interessado nessa funcionalidade, entre em contato com a equipe do account.
Qual é o custo para LakeFlow Connect?
Por enquanto, os clientes são cobrados apenas pelo uso da serverless DLT necessário para carregar dados da fonte (se estiver se conectando a um aplicativo corporativo, como o Salesforce) ou do volume de preparação (se estiver se conectando a um banco de dados, como SQL Server). O modelo final de preços para LakeFlow Connect pode incluir cobranças adicionais e será anunciado no futuro.
Os preços do DLT sem servidor estão visíveis em nossa página de preços.