Conector do Google Drive - Perguntas Frequentes
Beta
Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.
Esta página responde a perguntas frequentes sobre o conector do Google Drive no Databricks LakeFlow Connect.
Perguntas Frequentes gerais sobre conectores gerenciados
As respostas em Perguntas frequentes sobre conectores gerenciados aplicam-se a todos os conectores gerenciados no LakeFlow Connect. Continue lendo para as perguntas frequentes específicas do conector.
Quais formatos de arquivo são compatíveis?
O conector permite a ingestão de arquivos estruturados e não estruturados:
-
Não estruturado:
BINARYFILE- Arquivos são ingeridos como linhas com uma coluna
contentmais colunas de metadados. Use para PDFs, imagens, arquivos do Office e outros arquivos que você pretende processar downstream.
- Arquivos são ingeridos como linhas com uma coluna
-
Estruturado:
CSV,JSON,XML,EXCEL,PARQUET,AVRO,ORC- Os arquivos são analisados e cada linha dentro do arquivo se torna uma linha na tabela de destino.
O conector ignora formatos do Google não compatíveis (por exemplo, Google Forms, Google Sites, Google Jams e Google Vids) durante a ingestão.
Quais modos de armazenamento são compatíveis?
A ingestão não estruturada (BINARYFILE) suporta o modo de armazenamento SCD_TYPE_1. A ingestão estruturada (CSV, JSON, XML, EXCEL e outros formatos) suporta o modo de armazenamento APPEND_ONLY. O SCD Tipo 2 não é compatível atualmente.
Como SCD_TYPE_1 e APPEND_ONLY são os padrões para seus respectivos tipos de formato e também as únicas opções atualmente suportadas, definir storage_mode explicitamente em table_configuration é opcional.
Como funciona a ingestão incremental?
Nas execuções subsequentes do pipeline, o conector reingere apenas arquivos que foram adicionados ou atualizados desde a última execução. Não é atualizado incrementalmente nesses arquivos (por exemplo, apenas as linhas em CSV que foram alteradas).
Posso ingerir um único arquivo?
Não diretamente. O conector ingere todos os arquivos em uma pasta ou unidade. No entanto, é possível aproximar a seleção de arquivo único apontando o url para a pasta que contém o arquivo e usando o file_filters com um padrão glob path_filter que corresponda apenas ao nome desse arquivo. Consulte a referência do conector do Google Drive.
Existe um limite de tamanho de arquivo?
Para ingestão não estruturada (BINARYFILE), arquivos grandes podem afetar o desempenho do pipeline. O Databricks recomenda a ingestão no máximo uma vez por hora e o monitoramento dos tempos de execução do pipeline para sinais de pressão de recursos.
Como são gerenciados os formatos integrados do Google?
Ao usar o conector gerenciado do Google Drive, os formatos Google integrados (Google Docs, Google Sheets, Google Slides) são automaticamente exportados para um formato aberto durante a ingestão. Defina o format em file_ingestion_options como BINARYFILE para ingeri-los como binários, ou use EXCEL para Planilhas do Google. Para obter mais detalhes sobre o tratamento de formato do Google com o conector gerenciado, consulte Como os formatos integrados do Google são tratados.
Qual é a diferença entre o conector gerenciado do Google Drive e o conector padrão do Google Drive?
O conector gerenciado do Google Drive (gdrive_options na API de pipeline) é um pipeline de ingestão totalmente gerenciado que sincroniza incrementalmente arquivos do Google Drive em tabelas Delta, com inferência de esquema, evolução do esquema, filtragem de arquivos e orquestração via fluxos de trabalho. É configurado por meio da API do pipeline do LakeFlow Connect.
O conector padrão do Google Drive usa as funções do Spark e do SQL (read_files, spark.read, Auto Loader) para construir pipelines personalizados. Utilize-o quando você precisar de controle refinado sobre como os arquivos são lidos e transformados, ou quando você desejar usar as APIs de leitor do Spark diretamente.