Pular para o conteúdo principal

O que é LakeFlow Connect?

LakeFlow Connect oferece conectores simples e eficientes para ingerir dados de aplicativos corporativos populares, bancos de dados, armazenamento em nuvem, arquivos locais, barramentos de mensagens e muito mais. Esta página descreve algumas das maneiras pelas quais a LakeFlow Connect pode melhorar o desempenho da ETL. Ele também abrange casos de uso comuns e a variedade de ferramentas de ingestão compatíveis, desde conectores totalmente gerenciados até estruturas totalmente personalizáveis.

Modelos flexíveis de serviços

LakeFlow Connect oferece uma ampla gama de conectores para aplicativos corporativos, armazenamento em nuvem, bancos de dados, barramentos de mensagens e muito mais. O senhor também tem a flexibilidade de escolher entre um serviço totalmente gerenciado e um personalizado pipeline. O serviço gerenciado recurso conectores prontos para uso que democratizam o acesso aos dados com UIs simples e poderosos APIs. Isso permite que o senhor crie rapidamente um pipeline de ingestão robusto e, ao mesmo tempo, minimize os custos de manutenção de longo prazo. Se precisar de mais personalização, o senhor pode usar o site DLT ou a transmissão estruturada. Em última análise, essa versatilidade permite que o site LakeFlow Connect atenda às necessidades específicas de sua organização.

Unificação com as principais ferramentas do Databricks

LakeFlow Connect usa o núcleo Databricks recurso para fornecer gerenciamento abrangente de dados. Por exemplo, ele oferece governança usando Unity Catalog, orquestração usando LakeFlow Jobs e monitoramento holístico em todo o seu pipeline. Isso ajuda sua organização a gerenciar a segurança, a qualidade e o custo dos dados, unificando os processos de ingestão com outras ferramentas de engenharia de dados. LakeFlow Connect foi desenvolvido em uma plataforma de inteligência de dados aberta, com total flexibilidade para incorporar suas ferramentas preferidas de terceiros. Isso garante soluções personalizadas que se alinham à sua infraestrutura existente e às estratégias de dados futuras.

Ingestão rápida e escalável

LakeFlow Connect usa leituras e gravações incrementais para permitir uma ingestão eficiente. Quando combinado com transformações incrementais downstream, isso pode melhorar significativamente o desempenho do ETL.

Casos de uso comuns

Os clientes ingerem dados para resolver os problemas mais desafiadores de suas organizações. Exemplos de casos de uso incluem o seguinte:

Caso de uso

Descrição

Cliente 360

Medir o desempenho da campanha e a pontuação de leads de clientes

Gerenciamento de portfólio

Maximizando o ROI com modelos históricos e de previsão

Análise do consumidor

Personalizando as experiências de compra de seus clientes

Recurso humano centralizado

Apoiando a força de trabalho da sua organização

gêmeos digitais

Aumento da eficiência de fabricação

Chatbots RAG

Criar chatbots para ajudar os usuários a entender políticas, produtos e muito mais

Camadas da pilha ETL

A tabela a seguir descreve as três camadas do produto de ingestão, ordenadas da mais personalizável para a mais gerenciável:

Camada

Descrição

Transmissão estruturada

transmissão estructurada é um API para processamento de transmissão incremental em tempo quase real. Ele oferece excelente desempenho, escalabilidade e tolerância a falhas.

DLT

DLT baseia-se na transmissão estruturada, oferecendo uma estrutura mais declarativa para a criação de pipeline de dados. O senhor pode definir as transformações a serem realizadas em seus dados e DLT gerenciar orquestração, monitoramento, qualidade dos dados, erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que a transmissão estruturada.

conectores totalmente gerenciados

Os conectores totalmente gerenciados são baseados no site DLT, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade do DLT para incluir também autenticação específica da fonte, CDC, tratamento de casos extremos, manutenção de longo prazo do API, novas tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para qualquer fonte de dados suportada.

Alguns conectores operam em um nível dessa pilha ETL. Por exemplo, o site Databricks oferece conectores totalmente gerenciados para aplicativos empresariais (SaaS) (por exemplo, Salesforce) e bancos de dados (por exemplo, SQL Servers). Outros conectores operam em várias camadas dessa pilha de ETL. Por exemplo, o senhor pode usar Auto Loader com transmissão estructurada para personalização total ou DLT para uma experiência mais gerenciar. Isso também se aplica aos dados de transmissão de Apache Kafka, Amazon Kinesis, Google Pub/Sub e Apache Pulsar.

Databricks recomenda começar com a camada mais gerenciável. Se ele não atender aos seus requisitos (por exemplo, se não for compatível com sua fonte de dados), passe para a próxima camada. A Databricks planeja expandir o suporte para mais conectores em todas as três camadas.

Diagrama de pilha ETL

Arquivo upload e download

O senhor pode ingerir arquivos que residem na sua rede local, arquivos que foram carregados em um volume ou arquivos que foram baixados de um local na Internet. Veja os arquivos.

conectores totalmente gerenciados

O senhor pode usar conectores totalmente gerenciados para fazer a ingestão de aplicativos e bancos de dados do site SaaS. Os conectores disponíveis incluem:

Conectores personalizáveis

Além dos conectores totalmente gerenciados, o site Databricks oferece muitas maneiras de ingerir dados. Isso inclui conectores personalizáveis para armazenamento de objetos na nuvem e fontes de transmissão como Kafka. Consulte Conectores padrão em LakeFlow Connect.