Limitações do conector do Google Drive

Esta página lista limitações e considerações para ingestão do Google Drive usando o Databricks LakeFlow Connect.

Limitações gerais do conector SaaS

As limitações nesta seção aplicam-se a todos os conectores SaaS no LakeFlow Connect.

Quando um pipeline agendado é executado, os alertas não são acionados imediatamente. Em vez disso, eles são acionados quando a próxima atualização é executada.
Quando uma tabela de origem é excluída, a tabela de destino não é excluída automaticamente. Você deve excluir a tabela de destino manualmente. Este comportamento não é consistente com o comportamento dos Spark Declarative Pipelines no Lakeflow.
Durante períodos de manutenção da fonte, o Databricks pode não conseguir acessar seus dados.
Se o nome de uma tabela de origem entrar em conflito com o nome de uma tabela de destino existente, a atualização do pipeline falha.
O suporte para pipeline multidestino é somente por API.
Opcionalmente, é possível renomear uma tabela ingerida. Se você renomear uma tabela em seu pipeline, ele se torna um pipeline somente de API, e você não pode mais editar o pipeline na IU.
Se uma coluna for selecionada depois que um pipeline já tiver começado, o conector não preenche automaticamente os dados para a nova coluna. Para ingerir dados históricos, execute manualmente um refresh completo na tabela.
Databricks não pode ingerir duas ou mais tabelas com o mesmo nome no mesmo pipeline, mesmo que provenham de esquemas de origem diferentes.
O sistema de origem assume que as colunas do cursor aumentam monotonicamente.
O conector ingere dados brutos sem transformações. Use o Spark Declarative Pipelines downstream nos Lakeflow Pipelines para transformações.

Limitações específicas do conector

Durante a ingestão não estruturada usando arquivo binário, o conteúdo de cada arquivo é carregado na memória como um único registro, assim, arquivos maiores que 100 MB podem fazer com que a atualização falhe (por exemplo, com um erro de falta de memória ou excedendo o limite de 2 GB em colunas binárias no Delta). Para evitar isso, exclua arquivos grandes usando um row_filter na coluna length em table_configuration. Por exemplo, "row_filter": "length <= 104857600" ignora arquivos maiores que 100 MB. Não há limite de tamanho de arquivo para formatos de arquivo estruturados.
A ingestão não estruturada (BINARYFILE) suporta apenas o modo de armazenamento SCD_TYPE_1. A ingestão estruturada (CSV, JSON, XML, EXCEL e outros formatos) suporta apenas o modo de armazenamento APPEND_ONLY. SCD tipo 2 não é compatível. Ao configurar o modo de armazenamento, defina storage_mode em table_configuration. Configurar o campo scd_type gera um erro.
Seleção de arquivo individual não é suportada. O conector ingere todos os arquivos em uma pasta ou unidade configurada. Para restringir quais arquivos são ingeridos, use file_filters com um padrão de glob path_filter.
Durante a ingestão não estruturada (BINARYFILE), as exclusões de arquivo são rastreadas apenas ao ingerir de um drive compartilhado. Exclusões de arquivos não são rastreadas ao ingerir de uma pasta. As atualizações de arquivo são rastreadas em ambos os casos.
BINARYFILE, CSV, JSON, XML, EXCEL, PARQUET, AVRO, ORC são compatíveis. Formatos não compatíveis (por exemplo, Google Forms, Google Sites) são ignorados durante a ingestão.

Limitações gerais do conector SaaS​

Limitações específicas do conector​

Limitações gerais do conector SaaS

Limitações específicas do conector