Limitações do conector Veeva Vault

info

Beta

Este recurso está em Beta. Os administradores de workspace podem controlar o acesso a este recurso na página **Pré-visualizações**. Consulte Gerenciar prévias do Databricks.

O conector Veeva Vault tem as seguintes limitações.

Limitações gerais

Quando se executa um pipeline agendado, os alertas não são acionados imediatamente. Em vez disso, eles são acionados na próxima execução de atualização.
Quando uma tabela de origem é excluída, a tabela de destino não é excluída automaticamente. Você deve excluir a tabela de destino manualmente. Este comportamento não é consistente com o comportamento de Spark Declarative Pipelines em Lakeflow.
Durante os períodos de manutenção da origem, o Databricks talvez não consiga acessar seus dados.
Se o nome de uma tabela de origem entrar em conflito com o nome de uma tabela de destino existente, a atualização do pipeline falha.
O suporte a pipeline de vários destinos está disponível apenas via API.
Você pode, opcionalmente, renomear uma tabela que você ingere. Se você renomear uma tabela em seu pipeline, ela se tornará um pipeline somente de API, e você não poderá mais editar o pipeline na UI.
Se uma coluna for selecionada depois que um pipeline já tiver começado, o conector não preenche automaticamente os dados para a nova coluna. Para ingerir data histórica, execute manualmente um refresh completo na tabela.
A Databricks não consegue ingerir duas ou mais tabelas com o mesmo nome no mesmo pipeline, mesmo que venham de esquemas de origem diferentes.
O sistema de origem assume que as colunas de cursor são monotonicamente crescentes.
O conector ingere dados brutos sem transformações. Utilize Spark Declarative Pipelines em cascata em LakeFlow Pipelines para transformações.

Autenticação

Somente a autenticação OAuth 2.0 Machine-to-Machine (M2M) por meio de um provedor de identidade OIDC externo (Microsoft Entra ID) é compatível. A autenticação por nome de usuário e senha não é compatível.

Agendamento do pipeline

A Veeva gera arquivos incrementais a cada 15 minutos. Execuções de pipeline agendadas com mais frequência do que a cada 15 minutos não veem novos dados.

Retenção de arquivo

A Veeva retém arquivos incrementais por 10 dias e arquivos completos por 2 dias. Se um pipeline atrasar mais de 10 dias, a cadeia de arquivos incrementais é quebrada e um refresh completo é necessário.

Comportamento de full refresh

Quando uma atualização completa é acionada, o processo abrange duas atualizações de pipeline: a primeira atualização limpa o estado do arquivo em staging do volume do Unity Catalog, e o recarregamento completo dos dados ocorre na atualização subsequente.

Tipos de Dados do Campo ID

id Os campos são sempre armazenados como o tipo STRING no Databricks, independentemente do tipo declarado no Veeva. Isso é necessário para que a funcionalidade de chave primária do Lakeflow Pipelines funcione corretamente.

Alterações de esquema

A Databricks recomenda realizar um refresh completo após alterações de esquema no Veeva para garantir que sejam visíveis em suas tabelas de destino.

O conector lida com as alterações de esquema da seguinte forma:

Exclusão de campo : A coluna permanece na tabela de destino, mas todos os valores são definidos como null e não podem mais ser consultados.
Renomear campo : os registros existentes podem ser encontrados com o nome de campo antigo. Os novos registros criados após a renomeação aparecem com o novo nome de campo.
Exclusão de objeto : objetos excluídos permanecem detectáveis no esquema.
Renomeação de objeto : O nome do objeto antigo permanece no esquema. Novos registros adicionados sob o novo nome de objeto aparecem sob o novo nome de tabela.

Suporte para tabelas do sistema

A versão inicial suporta a ingestão de um conjunto fixo de __sys tabelas:

DOCUMENT_VERSION
DOCUMENT_RELATIONSHIP
PICKLIST
WORKFLOW
WORKFLOW_ITEM
WORKFLOW_TASK
WORKFLOW_TASK_ITEM
ACTIVE_LEGACY_WORKFLOW
ACTIVE_LEGACY_WORKFLOW_TASK
INACTIVE_LEGACY_WORKFLOW
INACTIVE_LEGACY_WORKFLOW_TASK

Outras tabelas __sys não são ingeridas nesta versão. Uma versão subsequente expandirá o suporte para todas as tabelas do sistema disponíveis em seu Vault. Após essa versão, um refresh completo será necessário para ingerir as tabelas recém-suportadas.

Limitações gerais​

Autenticação​

Agendamento do pipeline​

Retenção de arquivo​

Comportamento de full refresh​

Tipos de Dados do Campo ID​

Alterações de esquema​

Suporte para tabelas do sistema​