Limitações do conector do Google Drive
Esta página lista limitações e considerações para ingestão do Google Drive usando o Databricks LakeFlow Connect.
Limitações gerais do conector SaaS
As limitações nesta seção aplicam-se a todos os conectores SaaS no LakeFlow Connect.
- Quando um pipeline agendado é executado, os alertas não são acionados imediatamente. Em vez disso, eles são acionados quando a próxima atualização é executada.
- Quando uma tabela de origem é excluída, a tabela de destino não é automaticamente excluída. Você deve excluir a tabela de destino manualmente. Este comportamento não é consistente com o comportamento do Lakeflow Spark Declarative Pipelines.
- Durante períodos de manutenção da fonte, o Databricks pode não conseguir acessar seus dados.
- Se o nome de uma tabela de origem entrar em conflito com o nome de uma tabela de destino existente, a atualização do pipeline falha.
- O suporte para pipeline multidestino é somente por API.
- Opcionalmente, é possível renomear uma tabela ingerida. Se você renomear uma tabela em seu pipeline, ele se torna um pipeline somente de API, e você não pode mais editar o pipeline na IU.
- Se uma coluna for selecionada depois que um pipeline já tiver começado, o conector não preenche automaticamente os dados para a nova coluna. Para ingerir dados históricos, execute manualmente um refresh completo na tabela.
- Databricks não pode ingerir duas ou mais tabelas com o mesmo nome no mesmo pipeline, mesmo que provenham de esquemas de origem diferentes.
- O sistema de origem assume que as colunas do cursor aumentam monotonicamente.
- O conector ingere dados brutos sem transformações. Use pipelines declarativos do Lakeflow Spark a jusante para transformações.
Limitações específicas do conector
- Para a ingestão não estruturada (
BINARYFILE), o conector aceita somente arquivos de até 100 MB. Os metadados para arquivos maiores que 100 MB são ingeridos, mas o conteúdo do arquivo não é baixado. Não há limite de tamanho de arquivo para formatos de arquivo estruturados. - A ingestão não estruturada (
BINARYFILE) suporta apenas o modo de armazenamentoSCD_TYPE_1. A ingestão estruturada (CSV,JSON,XML,EXCELe outros formatos) suporta apenas o modo de armazenamentoAPPEND_ONLY. SCD tipo 2 não é compatível. Ao configurar o modo de armazenamento, definastorage_modeemtable_configuration. Configurar o camposcd_typegera um erro. - Seleção de arquivo individual não é suportada. O conector ingere todos os arquivos em uma pasta ou unidade configurada. Para restringir quais arquivos são ingeridos, use
file_filterscom um padrão de globpath_filter. - Durante a ingestão não estruturada (
BINARYFILE), as exclusões de arquivo são rastreadas apenas ao ingerir de um drive compartilhado. Exclusões de arquivos não são rastreadas ao ingerir de uma pasta. As atualizações de arquivo são rastreadas em ambos os casos. BINARYFILE,CSV,JSON,XML,EXCEL,PARQUET,AVRO,ORCsão compatíveis. Formatos não compatíveis (por exemplo, Google Forms, Google Sites) são ignorados durante a ingestão.