Referência de conector do Google Drive
Esta página contém documentação de referência para o conector do Google Drive no Databricks LakeFlow Connect.
gdrive_options parâmetros
Defina estas opções dentro do bloco connector_options.gdrive_options de cada tabela na sua definição de pipeline.
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| String | Sim | O tipo de entidade de ingestão. Valores compatíveis:
|
| String | Sim | O URL da pasta do Google Drive ou do drive compartilhado para ingerir. Exemplos:
|
| Objeto | Sim | Controla o formato de arquivo e o comportamento de ingestão. Consulte Parâmetros de |
file_ingestion_options parâmetros
Defina estas opções dentro de gdrive_options.file_ingestion_options.
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| String | Sim | O formato de arquivo a ser ingerido. Valores suportados: |
| Matriz de objetos | Não | Filtros que restringem quais arquivos são ingeridos. Cada objeto de filtro pode conter uma das seguintes chaves:
|
| String | Não | Controla como as novas colunas nos arquivos recebidos são tratadas. Os modos são compatíveis com os modos de evolução do esquema do Auto Loader. Valores suportados: |
| String | Não | Substitui os tipos de coluna inferidos. Especifique como uma lista delimitada por vírgulas de |
| Objeto | Não | Opções de análise específicas do formato. Chaves são nomes de opção de formato padrão do Auto Loader. Ver Opções de formato. |
table_configuration parâmetros
Defina estas opções dentro do bloco table_configuration de cada tabela na sua definição de pipeline. table_configuration é um irmão de connector_options, não aninhado dentro dele.
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| String | Não | O modo de armazenamento para a tabela de destino. Valores compatíveis:
Como estes são os defaults e os únicos valores suportados, definir |
Opções de formato
O bloco format_options aceita as chaves de opção de formato padrão do Auto Loader, organizadas abaixo por formato de arquivo. Para obter detalhes, consulte Auto Loader.
JSON
Chave | Descrição |
|---|---|
| Permite que barras invertidas escapem qualquer caractere. |
| Permite comentários no estilo Java e C++ no conteúdo JSON. |
| Permite |
| Permite zeros à esquerda em valores inteiros. |
| Permite aspas simples como delimitadores de strings, além de aspas duplas. |
| Permite caracteres de controle sem aspas em strings JSON. |
| Permite nomes de campo sem aspas. |
| Caminho para armazenar registros corrompidos ou não processáveis em vez de interromper o pipeline. |
| Codificação de caracteres do arquivo (por exemplo, |
| Padrão para analisar strings de data (por exemplo, |
| Ignora colunas onde todos os valores são nulos ou vazios durante a inferência de esquema. |
| Infere |
| Caractere ou string de separador de linha. |
| Locale para análise de datas e números (por exemplo, |
| Comportamento para registros malformados: |
| Analisa registros que abrangem múltiplas linhas |
| Infire |
| Se inferir todos os valores primitivos como |
| Habilita a correspondência de nomes de coluna que diferencia maiúsculas e minúsculas com o esquema. |
| Padrão para analisar strings de timestamp (por exemplo, |
| Fuso horário para analisar carimbos de data/hora (por exemplo, |
CSV
Oferece suporte a todas as opções JSON acima, além das seguintes opções específicas de CSV:
Chave | Descrição |
|---|---|
| Caractere de escape usado antes de uma aspa dentro de um campo entre aspas. |
| Caractere que marca uma linha como um comentário; linhas que começam com este caractere são ignoradas. |
| Caractere delimitador de coluna (padrão: |
| String a ser usada para valores vazios ao escrever. |
| Aplica o esquema declarado aos dados CSV, ignorando os nomes de cabeçalho. |
| Caractere de escape (default: |
| Se a primeira linha contém os nomes das colunas (default: |
| Apara espaços em branco iniciais dos valores. |
| Apara espaços em branco à direita dos valores. |
| Número máximo de caracteres permitido por valor de coluna. |
| Número máximo de colunas permitido em um registro. |
| Mescla o esquema em vários arquivos CSV. |
| Representação de string de |
| Representação de string do infinito negativo. |
| String que representa um valor nulo. |
| Permite a correspondência com diferenciação de maiúsculas e minúsculas entre nomes de cabeçalhos e nomes de campos de esquema. |
| Representação de string do infinito positivo. |
| Infere |
| Caractere de citação usado para envolver valores de campo que contêm o delimitador (padrão: |
| Número de linhas a serem ignoradas no início do arquivo antes do cabeçalho ou dos dados. |
| Como lidar com aspas sem escape em campos entre aspas. |
XML
Chave | Descrição |
|---|---|
| Nome do elemento XML que envolve cada item da matriz ao escrever. |
| Prefixo adicionado aos nomes dos atributos XML para distingui-los dos nomes dos elementos (default: |
| Codec de compressão para leitura (por exemplo, |
| String de declaração XML a ser pré-anexada ao escrever. |
| Codificação de caracteres do arquivo XML. |
| Exclui atributos de elementos XML da análise. |
| Ignorar espaços em branco ao redor dos valores do elemento. |
| Ignora os prefixos de namespace XML durante a análise. |
| Localidade para analisar datas e números. |
| Comportamento para registros malformados: |
| String que representa um valor nulo. |
| Nome da tag do elemento raiz. |
| Tag de elemento XML que identifica cada linha (obrigatório). |
| Caminho para um arquivo de esquema XSD para validar cada elemento de linha. |
| Fração de linhas amostradas para inferência de esquema (default: |
| Padrão para analisar strings de carimbo de data/hora |
| Padrão para analisar strings de carimbo de data/hora sem fuso horário. |
| Fuso horário para análise de carimbos de data/hora. |
| Valida que os nomes de elementos XML estejam em conformidade com a especificação XML. |
| Nome da tag usado para valores de texto em elementos que também têm atributos (default: |
Parquet
Chave | Descrição |
|---|---|
| Tratamento para datas e carimbos de data/hora escritos em formato de calendário juliano: |
| Gerenciamento de carimbos de data/hora INT96 gravados no formato de calendário Juliano: |
| Merge o esquema em vários arquivos Parquet. |
Avro
Chave | Descrição |
|---|---|
| Esquema Avro no formato de strings JSON. Utilizado para impor um esquema específico durante as leituras. |
| Tratamento para datas e carimbos de data/hora escritos em formato de calendário juliano: |
| Mescla o esquema em vários arquivos Avro. |
Formato de dados ingeridos
O esquema da tabela de destino depende de entity_type e format configurados.
BINARYFILE tipo de entidade (Arquivo)
Quando entity_type for FILE e format for BINARYFILE, cada arquivo ingerido se torna uma linha com as seguintes colunas:
campo | Tipo | Descrição |
|---|---|---|
|
| O identificador do Google Drive do arquivo. |
|
| Contém metadados de arquivo genéricos:
|
|
| Contém metadados específicos do Google Drive para o arquivo:
|
|
| Contém conteúdo do arquivo. |
|
| Metadados de arquivo padrão adicionados pelo Databricks durante a ingestão. Contém informações do arquivo de origem, como caminho e hora da modificação. |
Tipo de entidade estruturada (ARQUIVO com formato estruturado)
Quando entity_type é FILE e format é um formato estruturado (CSV, JSON, XML, EXCEL, PARQUET, AVRO ou ORC), o esquema da tabela de destino corresponde ao esquema dos arquivos de origem. As colunas são inferidas a partir do conteúdo do arquivo, sujeitas às configurações schema_evolution_mode e schema_hints.
FILE_METADATA tipo de entidade
Quando entity_type for FILE_METADATA, o conteúdo do arquivo não é baixado. A tabela de destino contém apenas as colunas de metadados das estruturas file_metadata e _file_metadata descritas acima, além de file_id.