Pular para o conteúdo principal

Conector do Google Drive

info

Beta

Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.

O conector gerenciado do Google Drive no LakeFlow Connect permite ingerir arquivos do Google Drive no Databricks. Ingerir arquivos não estruturados como dados binários, analisar formatos estruturados (CSV, JSON, XML, EXCEL e muito mais) em tabelas Delta ou capturar metadados de arquivo sem carregar o conteúdo do arquivo.

Para o conector padrão do Google Drive que usa APIs do leitor Spark (read_files, spark.read, Auto Loader), consulte Ingerir arquivos do Google Drive.

O que saber antes de começar

tópico

Por que é importante

Persona do usuário da Databricks

O fluxo de trabalho depende da sua persona de usuário do Databricks:

  • Usuário único: Um usuário administrador cria uma conexão do Unity Catalog e um pipeline de ingestão.
  • Multiusuário: um usuário administrador cria uma conexão para que usuários não administradores criem pipeline.

Método de autenticação

Os passos para criar uma conexão dependem do método de autenticação que for selecionado.

Interface

Os passos para criar um pipeline dependem da interface.

Frequência de ingestão

O agendamento do pipeline depende de seus requisitos de latência e custo.

Padrões comuns

Dependendo das suas necessidades de ingestão, o pipeline pode usar configurações como acompanhamento de história, seleção de coluna e filtragem de linha. Configurações compatíveis variam de acordo com o conector. Consulte Disponibilidade do recurso.

Começar a ingerir do Google Drive

A tabela a seguir apresenta uma visão geral do fluxo de ingestão de ponta a ponta do Google Drive, com base no tipo de usuário.

Usuário

os passos

Administrador

  1. Configurar OAuth 2.0 e criar uma conexão do Unity Catalog. Consulte Configurar o Google Drive para ingestão gerenciada.
  2. Use o Catalog Explorer para criar uma conexão com o Google Drive para que não administradores possam criar pipelines. Consulte Conectar-se a fontes de ingestão gerenciadas.

Não-administrador

Use qualquer interface compatível para criar um pipeline a partir de uma conexão existente. Consulte Ingerir dados do Google Drive.

Disponibilidade de recursos

Recurso

Disponibilidade

Criação de pipelines via interface do usuário

Ícone de marca de verificação verde Compatível

Criação de pipelines baseada em API

Ícone de marca de verificação verde Compatível

Pacotes de Automação Declarativa

Ícone de marca de verificação verde Compatível

Ingestão incremental

Ícone de marca de verificação verde Compatível

Governança do Unity Catalog

Ícone de marca de verificação verde Compatível

Orquestração com o Databricks Workflows

Ícone de marca de verificação verde Compatível

SCD tipo 2

Ícone X vermelho Não suportado

evolução do esquema

Ícone de marca de verificação verde Compatível

Configurável via schema_evolution_mode. Consulte a referência do conector do Google Drive.

Seleção e desseleção de colunas com base em API

Ícone X vermelho Não suportado

Filtragem de linhas baseada em API

Ícone X vermelho Não suportado

Métodos de autenticação

Método de autenticação

Disponibilidade

OAuth U2M

Ícone de marca de verificação verde Compatível

OAuth M2M

Ícone X vermelho Não suportado

OAuth (token de refresh manual)

Ícone X vermelho Não suportado

Autenticação básica (nome de usuário e senha)

Ícone X vermelho Não suportado

Autenticação básica (API key)

Ícone X vermelho Não suportado

Autenticação básica (JSON key da account de serviço)

Ícone X vermelho Não suportado