Conector do Google Drive - Perguntas Frequentes

info

Beta

Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.

Esta página responde a perguntas frequentes sobre o conector do Google Drive no Databricks LakeFlow Connect.

Perguntas Frequentes gerais sobre conectores gerenciados

As respostas em Perguntas frequentes sobre conectores gerenciados aplicam-se a todos os conectores gerenciados no LakeFlow Connect. Continue lendo para as perguntas frequentes específicas do conector.

Quais formatos de arquivo são compatíveis?

O conector permite a ingestão de arquivos estruturados e não estruturados:

Não estruturado: BINARYFILE
- Arquivos são ingeridos como linhas com uma coluna content mais colunas de metadados. Use para PDFs, imagens, arquivos do Office e outros arquivos que você pretende processar downstream.
Estruturado: CSV, JSON, XML, EXCEL, PARQUET, AVRO, ORC
- Os arquivos são analisados e cada linha dentro do arquivo se torna uma linha na tabela de destino.

O conector ignora formatos do Google não compatíveis (por exemplo, Google Forms, Google Sites, Google Jams e Google Vids) durante a ingestão.

Quais modos de armazenamento são compatíveis?

A ingestão não estruturada (BINARYFILE) suporta o modo de armazenamento SCD_TYPE_1. A ingestão estruturada (CSV, JSON, XML, EXCEL e outros formatos) suporta o modo de armazenamento APPEND_ONLY. O SCD Tipo 2 não é compatível atualmente.

Como SCD_TYPE_1 e APPEND_ONLY são os padrões para seus respectivos tipos de formato e também as únicas opções atualmente suportadas, definir storage_mode explicitamente em table_configuration é opcional.

Como funciona a ingestão incremental?

Nas execuções subsequentes do pipeline, o conector reingere apenas arquivos que foram adicionados ou atualizados desde a última execução. Não é atualizado incrementalmente nesses arquivos (por exemplo, apenas as linhas em CSV que foram alteradas).

Posso ingerir um único arquivo?

Não diretamente. O conector ingere todos os arquivos em uma pasta ou unidade. No entanto, é possível aproximar a seleção de arquivo único apontando o url para a pasta que contém o arquivo e usando o file_filters com um padrão glob path_filter que corresponda apenas ao nome desse arquivo. Consulte a referência do conector do Google Drive.

Existe um limite de tamanho de arquivo?

Para ingestão não estruturada usando arquivos binários, arquivos grandes podem fazer com que a atualização falhe (por exemplo, com um erro de falta de memória ou excedendo o limite de 2 GB em colunas binárias no Delta), porque o conteúdo de cada arquivo é carregado na memória como um único registro. Para excluir arquivos grandes, use um row_filter na coluna length em table_configuration. Consulte limitações do conector do Google Drive.

Como são gerenciados os formatos integrados do Google?

Ao usar o conector gerenciado do Google Drive, os formatos Google integrados (Google Docs, Google Sheets, Google Slides) são automaticamente exportados para um formato aberto durante a ingestão. Defina o format em file_ingestion_options como BINARYFILE para ingeri-los como binários, ou use EXCEL para Planilhas do Google. Para obter mais detalhes sobre o tratamento de formato do Google com o conector gerenciado, consulte Como os formatos integrados do Google são tratados.

Qual é a diferença entre o conector gerenciado do Google Drive e o conector padrão do Google Drive?

O conector gerenciado do Google Drive (gdrive_options na API de pipeline) é um pipeline de ingestão totalmente gerenciado que sincroniza incrementalmente arquivos do Google Drive em tabelas Delta, com inferência de esquema, evolução do esquema, filtragem de arquivos e orquestração via fluxos de trabalho. É configurado por meio da API do pipeline do LakeFlow Connect.

O conector padrão do Google Drive usa as funções do Spark e do SQL (read_files, spark.read, Auto Loader) para construir pipelines personalizados. Utilize-o quando você precisar de controle refinado sobre como os arquivos são lidos e transformados, ou quando você desejar usar as APIs de leitor do Spark diretamente.

Perguntas Frequentes gerais sobre conectores gerenciados​

Quais formatos de arquivo são compatíveis?​

Quais modos de armazenamento são compatíveis?​

Como funciona a ingestão incremental?​

Posso ingerir um único arquivo?​

Existe um limite de tamanho de arquivo?​

Como são gerenciados os formatos integrados do Google?​

Qual é a diferença entre o conector gerenciado do Google Drive e o conector padrão do Google Drive?​