O que é LakeFlow Connect?

LakeFlow Connect oferece conectores simples e eficientes para ingerir dados de arquivos locais, aplicativos corporativos populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e muito mais. Esta página descreve algumas das maneiras pelas quais a LakeFlow Connect pode melhorar o desempenho da ETL. Ele também abrange casos de uso comuns e a variedade de ferramentas de ingestão compatíveis, desde conectores totalmente gerenciados até estruturas totalmente personalizáveis.

Modelos flexíveis de serviços

LakeFlow Connect oferece uma ampla gama de conectores para aplicativos corporativos, armazenamento em nuvem, bancos de dados, barramentos de mensagens e muito mais. Também oferece a flexibilidade de escolher entre as seguintes opções:

Opção	Descrição
Um serviço totalmente gerenciado	Conectores prontos para uso que democratizam o acesso aos dados com UIs simples e APIs avançadas. Isso permite que o senhor crie rapidamente um pipeline de ingestão robusto e, ao mesmo tempo, minimize os custos de manutenção de longo prazo.
Um pipeline personalizado	Se precisar de mais personalização, o senhor pode usar LakeFlow Declarative pipeline ou transmissão estruturada. Em última análise, essa versatilidade permite que o site LakeFlow Connect atenda às necessidades específicas de sua organização.

Unificação com as principais ferramentas do Databricks

LakeFlow Connect usa o núcleo Databricks recurso para fornecer gerenciamento abrangente de dados. Por exemplo, ele oferece governança usando Unity Catalog, orquestração usando LakeFlow Jobs e monitoramento holístico em todo o seu pipeline. Isso ajuda sua organização a gerenciar a segurança, a qualidade e o custo dos dados, unificando os processos de ingestão com outras ferramentas de engenharia de dados. LakeFlow Connect foi desenvolvido em uma plataforma de inteligência de dados aberta, com total flexibilidade para incorporar suas ferramentas preferidas de terceiros. Isso garante soluções personalizadas que se alinham à sua infraestrutura existente e às estratégias de dados futuras.

Ingestão rápida e escalável

LakeFlow Connect usa leituras e gravações incrementais para permitir uma ingestão eficiente. Quando combinado com transformações incrementais downstream, isso pode melhorar significativamente o desempenho do ETL.

Casos de uso comuns

Os clientes ingerem dados para resolver os problemas mais desafiadores de suas organizações. Exemplos de casos de uso incluem o seguinte:

Caso de uso	Descrição
Cliente 360	Medir o desempenho da campanha e a pontuação de leads de clientes
Gerenciamento de portfólio	Maximizando o ROI com modelos históricos e de previsão
Análise do consumidor	Personalizando as experiências de compra de seus clientes
Recurso humano centralizado	Apoiando a força de trabalho da sua organização
gêmeos digitais	Aumento da eficiência de fabricação
Chatbots RAG	Criar chatbots para ajudar os usuários a entender políticas, produtos e muito mais

Camadas da pilha ETL

Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos corporativos como o Salesforce e bancos de dados como o SQL Server. Outros conectores operam em várias camadas da pilha ETL. Por exemplo, o senhor pode usar conectores padrão na transmissão estruturada para personalização total ou no pipeline declarativo LakeFlow para uma experiência mais gerenciável. Da mesma forma, o senhor pode escolher o nível de personalização para a transmissão de dados de Apache Kafka, Amazon Kinesis, Google Pub/Sub e Apache Pulsar.

Diagrama de pilha ETL

Databricks recomenda começar com a camada mais gerenciável. Se ele não atender aos seus requisitos (por exemplo, se não for compatível com sua fonte de dados), passe para a próxima camada. A Databricks planeja expandir o suporte para mais conectores em todas as três camadas.

A tabela a seguir descreve as três camadas do produto de ingestão, ordenadas da mais personalizável para a mais gerenciável:

Camada	Descrição
Transmissão estruturada	transmissão estructurada é um API para processamento de transmissão incremental em tempo quase real. Ele oferece excelente desempenho, escalabilidade e tolerância a falhas.
Pipelines Declarativos do LakeFlow	LakeFlow O pipeline declarativo se baseia na transmissão estruturada, oferecendo uma estrutura mais declarativa para a criação de pipeline de dados. O senhor pode definir as transformações a serem executadas em seus dados e o LakeFlow Declarative pipeline gerencia a solicitação, o monitoramento, a qualidade dos dados, os erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que a transmissão estruturada.
conectores totalmente gerenciados	Os conectores totalmente gerenciados são baseados no pipeline LakeFlow Declarative, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade do pipeline declarativo LakeFlow para incluir também autenticação específica da fonte, CDC, tratamento de casos extremos, manutenção de longo prazo API, novas tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para qualquer fonte de dados suportada.

gerenciar conectores

O senhor pode usar conectores totalmente gerenciados para fazer a ingestão de aplicativos e bancos de dados corporativos.

Os conectores compatíveis incluem:

As interfaces suportadas incluem:

IU da Databricks
Databricks Asset Bundles
APIs da Databricks
SDKs da Databricks
CLI do Databricks

Conectores padrão

Além dos conectores gerenciáveis, o site Databricks oferece conectores personalizáveis para armazenamento de objetos na nuvem e barramentos de mensagens. Consulte Conectores padrão em LakeFlow Connect.

Arquivo upload e download

O senhor pode ingerir arquivos que residem na sua rede local, arquivos que foram carregados em um volume ou arquivos que foram baixados de um local na Internet. Veja os arquivos.

Ingestão de parceiros

Muitas ferramentas de terceiros suportam a ingestão de lotes ou transmissão em Databricks. A Databricks valida várias integrações de terceiros, embora as etapas para configurar o acesso aos sistemas de origem e ingerir dados variem de acordo com a ferramenta. Consulte Parceiros de ingestão para obter uma lista de ferramentas validadas. Alguns parceiros tecnológicos também são apresentados no Databricks Partner Connectque tem uma interface de usuário que simplifica a conexão de ferramentas de terceiros aos dados da lakehouse.

Ingestão DIY

Databricks fornece uma plataforma compute geral. Como resultado, o senhor pode criar seus próprios conectores de ingestão usando qualquer linguagem de programação suportada pela Databricks, como Python ou Java. O senhor também pode importar e usar uma biblioteca de conectores de código aberto popular, como a ferramenta de carregamento de dados, o Airbyte e o Debezium.

Alternativas de ingestão

Databricks recomenda a ingestão para a maioria dos casos de uso porque ela se adapta a grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. A ingestão copia dados de seus sistemas de origem para o Databricks, o que resulta em dados duplicados que podem se tornar obsoletos com o tempo. Se não quiser copiar dados, você pode usar as seguintes ferramentas:

Ferramenta	Descrição
Federação lakehouse	Permite que o senhor consulte fontes de dados externas sem mover seus dados.
Delta Sharing	Permite que você compartilhe dados com segurança entre plataformas, nuvens e regiões.

Modelos flexíveis de serviços​

Unificação com as principais ferramentas do Databricks​

Ingestão rápida e escalável​

Casos de uso comuns​

Camadas da pilha ETL​

gerenciar conectores​

Conectores padrão​

Arquivo upload e download​

Ingestão de parceiros​

Ingestão DIY​

Alternativas de ingestão​