gerenciar conectores em LakeFlow Connect

info

Visualização

Os conectores gerenciar em LakeFlow Connect estão em vários estados de liberação.

Este artigo oferece uma visão geral de como gerenciar conectores em Databricks LakeFlow Connect para ingerir dados de aplicativos e bancos de dados SaaS. A ingestão resultante pipeline é governada por Unity Catalog e é alimentada por serverless compute e DLT. Os conectores gerenciar aproveitam leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, dimensionável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.

Componentes do conector SaaS

Um conector SaaS tem os seguintes componentes:

Componente	Descrição
Conexão	Um objeto securizável do Unity Catalog que armazena detalhes de autenticação para o aplicativo.
Ingestão pipeline	Um pipeline que copia os dados do aplicativo para as tabelas de destino. A ingestão pipeline execução em serverless compute.
Tabelas de destino	As tabelas nas quais o pipeline de ingestão grava os dados. Essas são tabelas de transmissão, que são Delta tabelas com suporte extra para processamento incremental de dados.

Diagrama de componentes do conector SaaS

Componentes do conector de banco

Um conector de banco de dados tem os seguintes componentes:

Componente	Descrição
Conexão	Um objeto seguro do Unity Catalog que armazena detalhes de autenticação para o banco de dados.
Gateway de ingestão	Um pipeline que extrai Snapshot, altera logs e metadados do banco de dados de origem. O gateway é executado no site clássico compute e é executado continuamente para capturar alterações antes que a alteração logs possa ser truncada na fonte.
Armazenamento temporário	Um volume Unity Catalog que armazena temporariamente a extração de dados antes de ser aplicada à tabela de destino. Isso permite que o senhor execute sua ingestão pipeline em qualquer programação que desejar, mesmo que o gateway capture continuamente as alterações. Também ajuda na recuperação de falhas. O volume de armazenamento de teste é criado automaticamente quando o gateway é implantado, e o senhor pode personalizar o catálogo e o esquema onde ele reside. Os dados são automaticamente eliminados do teste após 30 dias.
Ingestão pipeline	Um pipeline que move os dados do armazenamento de preparação para as tabelas de destino. A pipeline execução em serverless compute.
Tabelas de destino	As tabelas nas quais o pipeline de ingestão grava os dados. Essas são tabelas de transmissão, que são Delta tabelas com suporte extra para processamento incremental de dados.

Diagrama de componentes do conector de

orquestração

O senhor pode executar sua ingestão pipeline em uma ou mais programações personalizadas. Para cada programa que o senhor adicionar a um pipeline, o LakeFlow Connect cria automaticamente um Job para ele. A ingestão pipeline é uma tarefa dentro do trabalho. Opcionalmente, o senhor pode adicionar mais tarefas ao trabalho.

Diagrama de orquestração de pipeline para conectores SaaS

Para conectores de banco de dados, o gateway de ingestão é executado em seu próprio Job como uma tarefa contínua.

Diagrama de orquestração de pipeline para conectores de banco de dados

Ingestão incremental

LakeFlow Connect usa a ingestão incremental para melhorar a eficiência do pipeline. Na primeira execução de seu pipeline, ele ingere todos os dados selecionados da fonte. Paralelamente, ele rastreia as alterações nos dados de origem. Em cada execução subsequente do pipeline, ele usa esse acompanhamento de alterações para ingerir apenas os dados que foram alterados em relação à execução anterior, sempre que possível.

A abordagem exata depende do que está disponível em sua fonte de dados. Por exemplo, o senhor pode usar tanto o acompanhamento de alterações quanto a captura de dados de alterações (CDC) (CDC) com SQL Server. Por outro lado, o conector Salesforce seleciona uma coluna de cursor em uma lista de opções.

Algumas fontes ou tabelas específicas não oferecem suporte à ingestão incremental no momento. A Databricks planeja expandir a cobertura para suporte incremental.

Trabalho em rede

Há várias opções para se conectar a um aplicativo ou banco de dados SaaS.

Os conectores para aplicativos SaaS acessam as APIs da fonte. Eles também são automaticamente compatíveis com os controles de saída do site serverless.
Os conectores para bancos de dados em nuvem podem se conectar à fonte por meio do link privado. Como alternativa, se o seu workspace tiver uma Virtual Network (VNet) ou Virtual Private Cloud (VPC) que esteja emparelhada com a VNet ou VPC que hospeda seu banco de dados, o senhor poderá implantar o gateway de ingestão dentro dela.
Os conectores para bancos de dados locais podem se conectar usando serviços como AWS Direct Connect e Azure ExpressRoute.

Implantação

O senhor pode implantar o pipeline de ingestão usando DABs, que permitem práticas recomendadas como controle de origem, revisão de código, testes e integração e entrega contínuas (CI/CD). Os pacotes são gerenciados usando o Databricks CLI e podem ser executados em diferentes espaços de trabalho de destino, como desenvolvimento, preparação e produção.

Recuperação de falhas

Como um serviço totalmente gerenciado, o LakeFlow Connect visa à recuperação automática de problemas sempre que possível. Por exemplo, quando um conector falha, ele tenta novamente automaticamente com recuo exponencial.

No entanto, é possível que um erro exija sua intervenção (por exemplo, quando as credenciais expiram). Nesses casos, o conector tenta evitar a perda de dados armazenando a última posição do cursor. Ele pode, então, retomar a partir dessa posição na próxima execução do pipeline, quando possível.

monitoramento

LakeFlow Connect fornece alertas e monitoramento robustos para ajudá-lo a manter seu pipeline. Isso inclui eventos logs, clustering logs, pipeline métricas de saúde e métricas de qualidade de dados.

história acompanhamento

A configuração história acompanhamento, também conhecida como a configuração dimensões que mudam lentamente (SCD) (SCD), determina como lidar com as alterações nos dados ao longo do tempo. Desative o acompanhamento da história (SCD type 1) para sobrescrever registros desatualizados à medida que são atualizados e excluídos na fonte. Ative o acompanhamento do histórico (SCD type 2) para manter um histórico dessas alterações. A exclusão de uma tabela ou coluna na origem não exclui esses dados do destino, mesmo quando o SCD tipo 1 está selecionado.

Por exemplo, digamos que você ingere a tabela a seguir:

Exemplo de tabela de origem

Digamos também que a cor favorita de Alice mude para roxo em 2 de janeiro.

Se o acompanhamento da história estiver desativado (SCD type 1), a próxima execução da ingestão pipeline atualiza essa linha na tabela de destino.

Exemplo de SCD tipo 1

Se o acompanhamento da história estiver ativado (SCD type 2), a ingestão pipeline mantém a linha antiga e adiciona a atualização como uma nova linha. Ele marca a linha antiga como inativa para que você saiba qual linha está atualizada.

Exemplo de SCD tipo 2

Nem todos os conectores suportam o histórico de acompanhamento (SCD type 2).

compatibilidade de recursos

A tabela a seguir resume a disponibilidade do recurso por conector. Para obter recursos e limitações adicionais, consulte a documentação do seu conector específico.

Recurso	Google Analytics	Salesforce	Workday	SQL Server	ServiceNow
Status	Pré-visualização pública	Pré-visualização pública	Pré-visualização pública	Pré-visualização pública fechada Entre em contato com a equipe do account para saber mais.	Pré-visualização pública fechada Entre em contato com a equipe do account para saber mais.
Criação de pipeline com base na interface do usuário
Criação de pipeline baseada em API
dABs
Ingestão incremental		Com uma exceção temporária para campos de fórmula			Com exceções quando sua tabela não tem um campo de cursor
Unity Catalog governança
orquestração usando Databricks Workflows
SCD tipo 2
Seleção e desseleção de colunas com base em API
Evolução automatizada do esquema: Novas colunas excluídas
Evolução automatizada do esquema: Alterações no tipo de dados
Evolução automatizada do esquema: Renomeação de colunas	Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo).	Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo).	Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo).	Quando os objetos DDL estão habilitados, o conector pode renomear a coluna. Quando os objetos DDL não estão habilitados, o conector trata isso como uma nova coluna (novo nome) e uma coluna excluída (nome antigo). Em ambos os casos, é necessário um refresh completo.	Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo).
Evolução automatizada do esquema: Novas tabelas	Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline.	Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline.	N/A	Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline.	Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline.
Número máximo de tabelas por pipeline	250	250	250	250	250

Dependência de serviços externos

Databricks SaaS Os conectores de aplicativos, bancos de dados e outros conectores totalmente gerenciados dependem da acessibilidade, da compatibilidade e da estabilidade do aplicativo, do banco de dados ou do serviço externo ao qual se conectam. Databricks não controla esses serviços externos e, portanto, tem influência limitada (se houver) sobre suas alterações, atualizações e manutenção.

Se alterações, interrupções ou circunstâncias relacionadas a um serviço externo impedirem ou tornarem impraticáveis as operações de um conector, o site Databricks poderá descontinuar ou deixar de manter esse conector. A Databricks envidará esforços razoáveis para notificar os clientes sobre a descontinuação ou interrupção da manutenção, incluindo atualizações da documentação aplicável.

Componentes do conector SaaS​

Componentes do conector de banco​

orquestração​

Ingestão incremental​

Trabalho em rede​

Implantação​

Recuperação de falhas​

monitoramento​

história acompanhamento​

compatibilidade de recursos​

Dependência de serviços externos​