Pular para o conteúdo principal

Limitações do conector do Google Drive

Esta página lista limitações e considerações para ingestão do Google Drive usando o Databricks LakeFlow Connect.

Limitações gerais do conector SaaS

As limitações nesta seção aplicam-se a todos os conectores SaaS no LakeFlow Connect.

  • Quando um pipeline agendado é executado, os alertas não são acionados imediatamente. Em vez disso, eles são acionados quando a próxima atualização é executada.
  • Quando uma tabela de origem é excluída, a tabela de destino não é automaticamente excluída. Você deve excluir a tabela de destino manualmente. Este comportamento não é consistente com o comportamento do Lakeflow Spark Declarative Pipelines.
  • Durante períodos de manutenção da fonte, o Databricks pode não conseguir acessar seus dados.
  • Se o nome de uma tabela de origem entrar em conflito com o nome de uma tabela de destino existente, a atualização do pipeline falha.
  • O suporte para pipeline multidestino é somente por API.
  • Opcionalmente, é possível renomear uma tabela ingerida. Se você renomear uma tabela em seu pipeline, ele se torna um pipeline somente de API, e você não pode mais editar o pipeline na IU.
  • Se uma coluna for selecionada depois que um pipeline já tiver começado, o conector não preenche automaticamente os dados para a nova coluna. Para ingerir dados históricos, execute manualmente um refresh completo na tabela.
  • Databricks não pode ingerir duas ou mais tabelas com o mesmo nome no mesmo pipeline, mesmo que provenham de esquemas de origem diferentes.
  • O sistema de origem assume que as colunas do cursor aumentam monotonicamente.
  • O conector ingere dados brutos sem transformações. Use pipelines declarativos do Lakeflow Spark a jusante para transformações.

Limitações específicas do conector

  • Para a ingestão não estruturada (BINARYFILE), o conector aceita somente arquivos de até 100 MB. Os metadados para arquivos maiores que 100 MB são ingeridos, mas o conteúdo do arquivo não é baixado. Não há limite de tamanho de arquivo para formatos de arquivo estruturados.
  • A ingestão não estruturada (BINARYFILE) suporta apenas o modo de armazenamento SCD_TYPE_1. A ingestão estruturada (CSV, JSON, XML, EXCEL e outros formatos) suporta apenas o modo de armazenamento APPEND_ONLY. SCD tipo 2 não é compatível. Ao configurar o modo de armazenamento, defina storage_mode em table_configuration. Configurar o campo scd_type gera um erro.
  • Seleção de arquivo individual não é suportada. O conector ingere todos os arquivos em uma pasta ou unidade configurada. Para restringir quais arquivos são ingeridos, use file_filters com um padrão de glob path_filter.
  • Durante a ingestão não estruturada (BINARYFILE), as exclusões de arquivo são rastreadas apenas ao ingerir de um drive compartilhado. Exclusões de arquivos não são rastreadas ao ingerir de uma pasta. As atualizações de arquivo são rastreadas em ambos os casos.
  • BINARYFILE, CSV, JSON, XML, EXCEL, PARQUET, AVRO, ORC são compatíveis. Formatos não compatíveis (por exemplo, Google Forms, Google Sites) são ignorados durante a ingestão.