Referência do conector do Microsoft SharePoint
Esta página contém material de referência para o conector do SharePoint Microsoft em Databricks LakeFlow Connect.
sharepoint_options parâmetros
Defina estas opções dentro do bloco connector_options.sharepoint_options de cada tabela na sua definição de pipeline.
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| String | Sim | Tipo de entidade para ingestão. Valores compatíveis: |
| String | Sim | O URL do site, subsites, drive ou pasta do SharePoint a ser ingerido. Exemplos:
Consulte Ler arquivos do SharePoint para obter detalhes do formato do URL. |
| Objeto | Sim | Controla o formato de arquivo e o comportamento de ingestão. Consulte |
Parâmetrosfile_ingestion_options
Configure essas opções dentro de sharepoint_options.file_ingestion_options.
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| String | Sim | O formato de arquivo para ingestão. Valores suportados: |
| Matriz de objetos | Não | Filtros que restringem quais arquivos devem ser ingeridos. Cada objeto de filtro pode conter uma das seguintes chaves:
|
| String | Não | Controla como novas colunas em arquivos recebidos são tratadas. Os modos correspondem aos modos de evolução do esquema do Auto Loader. Valores compatíveis: |
| String | Não | Substitui os tipos de coluna inferidos. Especifique como uma lista delimitada por vírgulas de pares |
| Objeto | Não | Opções de análise específicas do formato. Keys são nomes de opção de formato padrão do Auto Loader. Consulte Opções de formato. |
table_configuration parâmetros
Configure estas opções dentro do bloco table_configuration de cada tabela na sua definição de pipeline. table_configuration é um elemento par de connector_options, não aninhado nele.
Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
| String | Não | O modo de armazenamento para a tabela de destino. Valores compatíveis:
Como estes são os padrões e os únicos valores suportados, definir |
Opções de formato
O bloco format_options aceita chaves de opção de formato padrão do Auto Loader, organizadas abaixo por formato de arquivo. Para obter todos os detalhes sobre qualquer opção, consulte Auto Loader.
JSON
Chave | Descrição |
|---|---|
| Permite que barras invertidas escapem qualquer caractere. |
| Permite comentários no estilo Java e C++ no conteúdo JSON. |
| Permite |
| Permite zeros à esquerda em valores inteiros. |
| Permite aspas simples como delimitadores de strings além de aspas duplas. |
| Permite caracteres de controle sem aspas em strings JSON. |
| Permite nomes de campo sem aspas. |
| Caminho para armazenar registros corrompidos ou não analisáveis em vez de falhar o pipeline. |
| Codificação de caracteres do arquivo (por exemplo, |
| Padrão para analisar strings de data (por exemplo, |
| Ignora colunas em que todos os valores são nulos ou vazios durante a inferência do esquema. |
| Infere |
| Caractere ou string de separador de linha. |
| Localidade para analisar datas e números (por exemplo, |
| Comportamento para registros malformados: |
| Analisa registros que abrangem várias linhas. |
| Tenta inferir |
| Infera todos os valores primitivos como |
| Habilita a correspondência de nomes de coluna com diferenciação de maiúsculas e minúsculas em relação ao esquema. |
| Padrão para analisar cadeias de caracteres de carimbo de data/hora (por exemplo, |
| Fuso horário para análise de carimbos de data/hora (por exemplo, |
CSV
Suporta todas as opções JSON acima, além das seguintes opções específicas do CSV:
Chave | Descrição |
|---|---|
| Caractere de escape usado antes de um caractere de aspas dentro de um campo entre aspas. |
| Caractere que marca uma linha como um comentário; as linhas que começam com este caractere são ignoradas. |
| Caractere delimitador de coluna (default: |
| String a ser utilizada para valores vazios na escrita. |
| Aplica o esquema declarado aos dados CSV, ignorando os cabeçalhos. |
| Caractere de escape (default: |
| Se a primeira linha contém nomes de coluna (default: |
| Remover espaços em branco iniciais dos valores. |
| Apara espaços em branco à direita dos valores. |
| Número máximo de caracteres permitidos por valor da coluna. |
| Número máximo de colunas permitidas em um registro. |
| Mescla o esquema em vários arquivos CSV. |
| Representação de string de |
| Representação de string do infinito negativo. |
| Representação de string de um valor nulo. |
| Habilita a correspondência com diferenciação de maiúsculas e minúsculas entre nomes de cabeçalho e nomes de campos do esquema. |
| Representação de string do infinito positivo. |
| Infere |
| O caractere de aspas utilizado para envolver os valores de campo que contêm o delimitador (default: |
| O número de linhas a serem ignoradas no início do arquivo antes do cabeçalho ou dos dados. |
| A forma de lidar com caracteres de citação sem escape dentro de campos entre aspas. |
XML
Chave | Descrição |
|---|---|
| Nome do elemento XML que envolve cada item da matriz ao escrever. |
| Prefixo adicionado aos nomes de atributos XML para distingui-los dos nomes de elementos (default: |
| Codec de compressão para leitura (por exemplo, |
| String de declaração XML a ser adicionada antes ao gravar. |
| Codificação de caracteres do arquivo XML. |
| Exclui atributos de elemento XML da análise. |
| Ignora espaços em branco ao redor dos valores dos elementos. |
| Ignora prefixos de namespace XML durante a análise. |
| Localidade para análise de datas e números |
| Comportamento para registros malformados: |
| Representação de string de um valor nulo. |
| Nome da tag do elemento raiz. |
| Tag de elemento XML que identifica cada linha (obrigatório). |
| Caminho para um arquivo de esquema XSD para validar cada elemento de linha. |
| Fração de linhas amostradas para inferência de esquema (default: |
| Padrão para análise de strings de timestamp. |
| Padrão para analisar strings de carimbo de data/hora sem fuso horário. |
| Fuso horário para analisar carimbos de data/hora. |
| Valida que os nomes dos elementos XML estão em conformidade com a especificação XML. |
| Nome da tag usado para valores de texto em elementos que também possuem atributos (default: |
Parquet
Chave | Descrição |
|---|---|
| Manipulação para datas e carimbos de data/hora escritas no formato de calendário Juliano: |
| Controle de valores de carimbo de data/hora INT96 escritos no formato de calendário Juliano: |
| Merge o esquema em vários arquivos Parquet. |
Avro
Chave | Descrição |
|---|---|
| Esquema Avro em formato de string JSON. Serve para impor um esquema específico durante leituras. |
| Manipulação para datas e carimbos de data/hora escritas no formato de calendário Juliano: |
| Mesclar o esquema em vários arquivos Avro. |
Formato de dados ingeridos
O esquema da tabela de destino depende dos entity_type e format que configurar.
BINARYFILE tipo de entidade (arquivo)
Quando entity_type for FILE e format for BINARYFILE, cada arquivo ingerido torna-se uma linha com as seguintes colunas:
campo | Tipo | Descrição |
|---|---|---|
|
| O identificador exclusivo do SharePoint do arquivo. |
|
| Contém metadados genéricos do arquivo:
|
|
| Contém metadados específicos do SharePoint para o arquivo:
|
|
| Contém o conteúdo do arquivo. A Databricks não recomenda o acesso direto a essa estrutura. Em vez disso, acesse-a usando os UDFs no caso de uso do Downstream RAG. |
|
| Metadados de arquivo padrão adicionados por Databricks durante a ingestão. Contém informações do arquivo de origem, como caminho e hora da modificação. |
Tipo de entidade estruturada (arquivo com formato estruturado)
Quando entity_type for FILE e format for um formato estruturado (CSV, JSON, XML, EXCEL, PARQUET, AVRO ou ORC), o esquema da tabela de destino corresponde ao esquema dos arquivos de origem. As colunas são inferidas a partir do conteúdo do arquivo, sujeito às configurações schema_evolution_mode e schema_hints.
Tipo de entidade FILE_METADATA
Quando entity_type é FILE_METADATA, o conteúdo do arquivo não é baixado. A tabela de destino contém apenas as colunas de metadados das structs file_metadata e _file_metadata descritas acima, mais file_id.