gerenciar conector FAQs

Encontre respostas para perguntas frequentes sobre conectores de gerenciamento no Databricks LakeFlow Connect. Para perguntas frequentes específicas sobre conectores, consulte a documentação do seu conector.

Quais conectores gerenciadores o site Databricks suporta?

LakeFlow Connect oferece conectores para gerenciar o Salesforce, SQL Server, ServiceNow e Google analítica. Para informar o roteiro ou obter acesso antecipado aos conectores Private Preview, entre em contato com sua equipe account.

Quais interfaces os conectores gerenciados suportam?

Todos os conectores do Gerenciador suportam a criação pipeline usando APIs Databricks e Pacotes de Automação Declarativa. Alguns conectores também suportam a criação pipeline na interface do usuário a partir dos seguintes pontos de entrada:

A página Add data (ingestão de dados )
A página do pipeline Jobs & (Create new > Ingestion pipeline )
O painel de tarefa para um novo trabalho (Adicionar tarefa > + Nova ingestão pipeline ou Tipo > pipeline )

Para obter informações sobre as interfaces compatíveis, consulte a seção de disponibilidade de recursos na página de visão geral do seu conector.

Como os conectores gerenciáveis lidam com a evolução do esquema?

Todos os conectores gerenciar lidam automaticamente com colunas novas e excluídas, a menos que o senhor opte por não fazê-lo especificando explicitamente as colunas que gostaria de ingerir.

Quando uma nova coluna aparece na fonte, o Databricks a ingere automaticamente na próxima execução do pipeline. Para qualquer linha na coluna que apareceu antes da alteração do esquema, o Databricks deixa o valor vazio. No entanto, o senhor pode desativar a ingestão automatizada de colunas, listando colunas específicas a serem ingeridas por meio da API ou desativando quaisquer colunas futuras na interface do usuário.
Quando uma coluna é excluída da fonte de dados, o Databricks não a exclui automaticamente. Em vez disso, o conector usa uma propriedade da tabela para definir a coluna excluída como "inativa" no destino. Se outra coluna com o mesmo nome aparecer posteriormente, o pipeline falhará. Nesse caso, você pode acionar uma refresh completa da tabela ou remover manualmente a coluna inativa.

Da mesma forma, os conectores podem lidar com tabelas novas e excluídas. Se você importar um esquema inteiro, o Databricks importará automaticamente quaisquer novas tabelas, a menos que você opte por não participar. E se uma tabela for excluída na origem, o conector a define como inactive no destino. Caso opte por ingerir um esquema completo, verifique as limitações quanto ao número de tabelas por pipeline para o seu conector.

Alterações adicionais no esquema dependem da fonte. Por exemplo, o conector do Salesforce trata as renomeações de coluna como exclusões e adições de coluna e faz a alteração automaticamente, com o comportamento descrito acima. No entanto, o conector SQL Server exige um refresh completo das tabelas afetadas para continuar a ingestão.

Para obter mais informações sobre o comportamento da evolução do esquema, consulte a seção disponibilidade de recursos na página de visão geral do seu conector.

Posso personalizar os conectores gerenciar?

Você pode escolher os objetos ingeridos, destino, agendamento, permissões, notificações e muito mais. Você não pode personalizar o processo de ingestão em si, porque esses conectores são totalmente gerenciados. Para personalização adicional, você pode usar os Lakeflow pipelines ou o Structured Streaming.

Qual a diferença entre conectores gerenciados, Federação Lakehouse e OpenSharing?

A Lakehouse Federation permite consultar fontes de dados externas sem mover seus dados. O OpenSharing permite que você compartilhe dados dinâmicos com segurança entre plataformas, clouds e regiões.

Quando tiver uma escolha entre conectores gerenciados, Lakehouse Federation e OpenSharing, escolha o OpenSharing para os seguintes cenários:

Limitar a duplicação de dados.
Consultando os dados mais recentes possíveis.

Escolha a Lakehouse Federation para os seguintes cenários:

Relatórios ad hoc ou trabalho de prova de conceito em seu pipeline ETL.

Qual é a diferença entre gerenciar conectores e Auto Loader?

Conectores gerenciados permitem que você ingira dados incrementalmente de aplicativos SaaS como Salesforce e bancos de dados como SQL Server. O Auto Loader é um conector de armazenamento de objetos na nuvem que permite ingerir arquivos incrementalmente à medida que eles chegam no S3, ADLS e GCS. Ele é compatível com Structured Streaming e Lakeflow Pipelines, mas não oferece pipelines de ingestão totalmente gerenciados.

Os conectores gerenciar podem gravar de volta na fonte de dados?

Não. Se o senhor estiver interessado nessa funcionalidade, entre em contato com a equipe do account.

Os conectores da Gerenciar estão disponíveis em todas as regiões?

Não. Consulte a disponibilidade de ingestão.

Um pipeline pode gravar em vários esquemas de destino?

Esse recurso é compatível com o site LakeFlow Connect API para todos os conectores do gerenciar SaaS, como Salesforce, Workday e ServiceNow.

Se o senhor optar por usar esse recurso, seu pipeline se tornará somente de API. Você não pode editá-lo na interface do usuário.

Posso alterar o nome de uma tabela que eu ingiro?

Sim, você pode definir um nome para a tabela de destino na interface do usuário do Databricks ou usando as APIs do Databricks. Consulte Nomear uma tabela de destino. Se você não definir um nome, o nome da tabela de origem será usado por default.

O que acontece se um pipeline ainda estiver em execução (atualização N) quando a próxima atualização estiver programada para ser executada (atualização N+1)?

O Databricks pula a atualização N+1 e retoma a atualização N+2, presumindo que a atualização N tenha sido concluída a tempo.

O que acontece com as tabelas de destino quando um pipeline de ingestão é excluído?

As tabelas de destino são descartadas quando o pipeline de ingestão é excluído.

Posso usar `ALTER` para modificar tabelas de transmissão ou visualizações materializadas criadas pelo pipeline de ingestão de gerenciamento?

Sim, você pode modificar as tabelas de transmissão e a visão materializada criadas pelo pipeline de ingestão gerenciado usando as ALTER instruções SQL :

SQL
ALTER MATERIALIZED VIEW view_name | ALTER STREAMING TABLE table_name
{
    ALTER COLUMN column_clause |
    SET ROW FILTER clause |
    DROP ROW FILTER |
    SET TAGS clause |
    UNSET TAGS clause
}

column_clause
{
    column_identifier
    COMMENT clause |
    SET MASK clause |
    DROP MASK |
    SET TAGS clause |
    UNSET TAGS clause
}

Para obter a sintaxe completa e exemplos, consulte ALTER STREAMING TABLE e ALTER MATERIALIZED VIEW.

nota

Você não pode modificar o programar ou o gatilho de um pipeline de ingestão gerenciada usando uma instrução ALTER . Consulte Atualizar o programador pipeline.

Qual é o preço dos conectores gerenciar?

Os conectores gerenciar têm um modelo de preços baseado em compute.

Fontes de SaaS como Salesforce e Workday, que funcionam exclusivamente em infraestrutura Serverless, incorrem em cobranças de DBU dos Lakeflow Pipelines Serverless.

Para fontes de banco de dados como SQL Server, os gateways de ingestão podem ser executados no modo clássico ou no modo Serverless, dependendo da fonte, e os pipelines de ingestão são executados em Serverless. Como resultado, você pode receber encargos de DBU de LakeFlow Pipelines clássicos e Serverless.

Para detalhes da tarifa, consulte a página de preços do Lakeflow pipelines.

É possível executar um gateway de ingestão em um workspace totalmente serverless ?

Não. Os gateways exigem compute clássica e não podem ser implantados em um workspace que não ofereça suporte compute clássica. Isso se aplica somente a conectores de banco de dados (CDC).

Posso ativar o feed de dados de alteração do Delta Lake em uma tabela de destino?

Isso está ativado para todas as tabelas de destino.

Como o filtro de linhas lida com linhas ou consultas que mudam após o carregamento inicial?

O comportamento da filtragem de linhas varia dependendo se uma linha ou a consulta de filtro é atualizada após o carregamento inicial. Para um resumo dos cenários de casos extremos, consulte Comportamento de filtragem de linhas em casos extremos.

Perguntas frequentes específicas sobre conectores

Para perguntas frequentes específicas sobre conectores, consulte a documentação do seu conector:

Quais conectores gerenciadores o site Databricks suporta?​

Quais interfaces os conectores gerenciados suportam?​

Como os conectores gerenciáveis lidam com a evolução do esquema?​

Posso personalizar os conectores gerenciar?​

Qual a diferença entre conectores gerenciados, Federação Lakehouse e OpenSharing?​

Qual é a diferença entre gerenciar conectores e Auto Loader?​

Os conectores gerenciar podem gravar de volta na fonte de dados?​

Os conectores da Gerenciar estão disponíveis em todas as regiões?​

Um pipeline pode gravar em vários esquemas de destino?​

Posso alterar o nome de uma tabela que eu ingiro?​

O que acontece se um pipeline ainda estiver em execução (atualização N) quando a próxima atualização estiver programada para ser executada (atualização N+1)?​

O que acontece com as tabelas de destino quando um pipeline de ingestão é excluído?​

Posso usar ALTER para modificar tabelas de transmissão ou visualizações materializadas criadas pelo pipeline de ingestão de gerenciamento?​

Qual é o preço dos conectores gerenciar?​

É possível executar um gateway de ingestão em um workspace totalmente serverless ?​

Posso ativar o feed de dados de alteração do Delta Lake em uma tabela de destino?​

Como o filtro de linhas lida com linhas ou consultas que mudam após o carregamento inicial?​

Perguntas frequentes específicas sobre conectores​