gerenciar conectores em LakeFlow Connect
Visualização
Os conectores gerenciar em LakeFlow Connect estão em vários estados de liberação.
Este artigo oferece uma visão geral de como gerenciar conectores em Databricks LakeFlow Connect para ingerir dados de aplicativos e bancos de dados SaaS. A ingestão resultante pipeline é governada por Unity Catalog e é alimentada por serverless compute e DLT. Os conectores gerenciar aproveitam leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, dimensionável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.
Componentes do conector SaaS
Um conector SaaS tem os seguintes componentes:
Componente | Descrição |
---|---|
Conexão | Um objeto securizável do Unity Catalog que armazena detalhes de autenticação para o aplicativo. |
Ingestão pipeline | Um pipeline que copia os dados do aplicativo para as tabelas de destino. A ingestão pipeline execução em serverless compute. |
Tabelas de destino | As tabelas nas quais o pipeline de ingestão grava os dados. Essas são tabelas de transmissão, que são Delta tabelas com suporte extra para processamento incremental de dados. |
Componentes do conector de banco
Um conector de banco de dados tem os seguintes componentes:
Componente | Descrição |
---|---|
Conexão | Um objeto seguro do Unity Catalog que armazena detalhes de autenticação para o banco de dados. |
Gateway de ingestão | Um pipeline que extrai Snapshot, altera logs e metadados do banco de dados de origem. O gateway é executado no site clássico compute e é executado continuamente para capturar alterações antes que a alteração logs possa ser truncada na fonte. |
Armazenamento temporário | Um volume Unity Catalog que armazena temporariamente a extração de dados antes de ser aplicada à tabela de destino. Isso permite que o senhor execute sua ingestão pipeline em qualquer programação que desejar, mesmo que o gateway capture continuamente as alterações. Também ajuda na recuperação de falhas. O volume de armazenamento de teste é criado automaticamente quando o gateway é implantado, e o senhor pode personalizar o catálogo e o esquema onde ele reside. Os dados são automaticamente eliminados do teste após 30 dias. |
Ingestão pipeline | Um pipeline que move os dados do armazenamento de preparação para as tabelas de destino. A pipeline execução em serverless compute. |
Tabelas de destino | As tabelas nas quais o pipeline de ingestão grava os dados. Essas são tabelas de transmissão, que são Delta tabelas com suporte extra para processamento incremental de dados. |
orquestração
O senhor pode executar sua ingestão pipeline em uma ou mais programações personalizadas. Para cada programa que o senhor adicionar a um pipeline, o LakeFlow Connect cria automaticamente um Job para ele. A ingestão pipeline é uma tarefa dentro do trabalho. Opcionalmente, o senhor pode adicionar mais tarefas ao trabalho.
Para conectores de banco de dados, o gateway de ingestão é executado em seu próprio Job como uma tarefa contínua.
Ingestão incremental
LakeFlow Connect usa a ingestão incremental para melhorar a eficiência do pipeline. Na primeira execução de seu pipeline, ele ingere todos os dados selecionados da fonte. Paralelamente, ele rastreia as alterações nos dados de origem. Em cada execução subsequente do pipeline, ele usa esse acompanhamento de alterações para ingerir apenas os dados que foram alterados em relação à execução anterior, sempre que possível.
A abordagem exata depende do que está disponível em sua fonte de dados. Por exemplo, o senhor pode usar tanto o acompanhamento de alterações quanto a captura de dados de alterações (CDC) (CDC) com SQL Server. Por outro lado, o conector Salesforce seleciona uma coluna de cursor em uma lista de opções.
Algumas fontes ou tabelas específicas não oferecem suporte à ingestão incremental no momento. A Databricks planeja expandir a cobertura para suporte incremental.
Trabalho em rede
Há várias opções para se conectar a um aplicativo ou banco de dados SaaS.
- Os conectores para aplicativos SaaS acessam as APIs da fonte. Eles também são automaticamente compatíveis com os controles de saída do site serverless.
- Os conectores para bancos de dados em nuvem podem se conectar à fonte por meio do link privado. Como alternativa, se o seu workspace tiver uma Virtual Network (VNet) ou Virtual Private Cloud (VPC) que esteja emparelhada com a VNet ou VPC que hospeda seu banco de dados, o senhor poderá implantar o gateway de ingestão dentro dela.
- Os conectores para bancos de dados locais podem se conectar usando serviços como AWS Direct Connect e Azure ExpressRoute.
Implantação
O senhor pode implantar o pipeline de ingestão usando DABs, que permitem práticas recomendadas como controle de origem, revisão de código, testes e integração e entrega contínuas (CI/CD). Os pacotes são gerenciados usando o Databricks CLI e podem ser executados em diferentes espaços de trabalho de destino, como desenvolvimento, preparação e produção.
Recuperação de falhas
Como um serviço totalmente gerenciado, o LakeFlow Connect visa à recuperação automática de problemas sempre que possível. Por exemplo, quando um conector falha, ele tenta novamente automaticamente com recuo exponencial.
No entanto, é possível que um erro exija sua intervenção (por exemplo, quando as credenciais expiram). Nesses casos, o conector tenta evitar a perda de dados armazenando a última posição do cursor. Ele pode, então, retomar a partir dessa posição na próxima execução do pipeline, quando possível.
monitoramento
LakeFlow Connect fornece alertas e monitoramento robustos para ajudá-lo a manter seu pipeline. Isso inclui eventos logs, clustering logs, pipeline métricas de saúde e métricas de qualidade de dados.
história acompanhamento
A configuração história acompanhamento, também conhecida como a configuração dimensões que mudam lentamente (SCD) (SCD), determina como lidar com as alterações nos dados ao longo do tempo. Desative o acompanhamento da história (SCD type 1) para sobrescrever registros desatualizados à medida que são atualizados e excluídos na fonte. Ative o acompanhamento do histórico (SCD type 2) para manter um histórico dessas alterações. A exclusão de uma tabela ou coluna na origem não exclui esses dados do destino, mesmo quando o SCD tipo 1 está selecionado.
Por exemplo, digamos que você ingere a tabela a seguir:
Digamos também que a cor favorita de Alice mude para roxo em 2 de janeiro.
Se o acompanhamento da história estiver desativado (SCD type 1), a próxima execução da ingestão pipeline atualiza essa linha na tabela de destino.
Se o acompanhamento da história estiver ativado (SCD type 2), a ingestão pipeline mantém a linha antiga e adiciona a atualização como uma nova linha. Ele marca a linha antiga como inativa para que você saiba qual linha está atualizada.
Nem todos os conectores suportam o histórico de acompanhamento (SCD type 2).
compatibilidade de recursos
A tabela a seguir resume a disponibilidade do recurso por conector. Para obter recursos e limitações adicionais, consulte a documentação do seu conector específico.
Recurso | Google Analytics | Salesforce | Workday | SQL Server | ServiceNow |
---|---|---|---|---|---|
Status | Pré-visualização pública | Pré-visualização pública | Pré-visualização pública | Pré-visualização pública fechada Entre em contato com a equipe do account para saber mais. | Pré-visualização pública fechada Entre em contato com a equipe do account para saber mais. |
Criação de pipeline com base na interface do usuário | |||||
Criação de pipeline baseada em API | |||||
dABs | |||||
Ingestão incremental | Com uma exceção temporária para campos de fórmula | Com exceções quando sua tabela não tem um campo de cursor | |||
Unity Catalog governança | |||||
orquestração usando Databricks Workflows | |||||
SCD tipo 2 | |||||
Seleção e desseleção de colunas com base em API | |||||
Evolução automatizada do esquema: Novas colunas excluídas | |||||
Evolução automatizada do esquema: Alterações no tipo de dados | |||||
Evolução automatizada do esquema: Renomeação de colunas | Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo). | Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo). | Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo). | Quando os objetos DDL estão habilitados, o conector pode renomear a coluna. Quando os objetos DDL não estão habilitados, o conector trata isso como uma nova coluna (novo nome) e uma coluna excluída (nome antigo). Em ambos os casos, é necessário um refresh completo. | Tratada como uma nova coluna (novo nome) e coluna excluída (nome antigo). |
Evolução automatizada do esquema: Novas tabelas | Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline. | Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline. | N/A | Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline. | Se você ingerir todo o esquema. Veja as limitações do número de tabelas por pipeline. |
Número máximo de tabelas por pipeline | 250 | 250 | 250 | 250 | 250 |
Dependência de serviços externos
Databricks SaaS Os conectores de aplicativos, bancos de dados e outros conectores totalmente gerenciados dependem da acessibilidade, da compatibilidade e da estabilidade do aplicativo, do banco de dados ou do serviço externo ao qual se conectam. Databricks não controla esses serviços externos e, portanto, tem influência limitada (se houver) sobre suas alterações, atualizações e manutenção.
Se alterações, interrupções ou circunstâncias relacionadas a um serviço externo impedirem ou tornarem impraticáveis as operações de um conector, o site Databricks poderá descontinuar ou deixar de manter esse conector. A Databricks envidará esforços razoáveis para notificar os clientes sobre a descontinuação ou interrupção da manutenção, incluindo atualizações da documentação aplicável.