Opções do Auto Loader
As opções de configuração específicas para a origem do cloudFiles
são prefixadas com cloudFiles
de forma que estejam em um espaço de nome separado de outras opções de origem da transmissão estruturada.
Opções comuns do Auto Loader
Você pode configurar as seguintes opções para listagem de diretórios ou modo de notificação de arquivos.
Opção |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Opções de lista de diretórios
As seguintes opções são relevantes para o modo de listagem de diretórios.
Opção |
---|
|
Opções de notificação de arquivos
As seguintes opções são relevantes para o modo de notificação de arquivo.
Opção |
---|
|
|
|
|
(1) O Auto Loader adiciona os seguintes pares de tags de chave-valor por padrão com base no melhor esforço:
vendor
:Databricks
path
: O local de onde os dados são carregados. Indisponível no GCP devido a limitações de rotulagem.checkpointLocation
: A localização do ponto de verificação do fluxo. Indisponível no GCP devido a limitações de rotulagem.streamId
: um identificador globalmente exclusivo para a transmissão.
Esses nomes de keys são reservados e você não pode substituir seus valores.
Opções de formato de arquivo
Com o Auto Loader, você pode ingerir arquivos JSON
, CSV
, PARQUET
, AVRO
, TEXT
, BINARYFILE
e ORC
.
- Opções genéricas
JSON
opçõesCSV
opçõesXML
opçõesPARQUET
opçõesAVRO
opçõesBINARYFILE
opçõesTEXT
opçõesORC
opções
Opções genéricas
As seguintes opções se aplicam a todos os formatos de arquivo.
Opção |
---|
|
|
|
|
|
|
OpçõesJSON
Opção |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
OpçõesCSV
Opção |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
OpçõesXML
Opção | Descrição | Escopo |
---|---|---|
| A tag de linha dos arquivos XML a serem tratados como uma linha. No exemplo XML | Ler |
| Define uma fração das linhas usadas para inferência de esquema. As funções XML integradas ignoram essa opção. Padrão: | Ler |
| Se deve excluir atributos em elementos. Padrão: | Ler |
| Mode para lidar com registros corrompidos durante a análise. | Ler |
| Se | Ler |
| Permite renomear o novo campo que contém uma cadeia de caracteres malformada criada pelo | Ler |
| O prefixo dos atributos para diferenciar os atributos dos elementos. Esse será o prefixo para nomes de campo. O padrão é | ler, escrever |
| A tag usada para os dados do personagem em elementos que também têm elementos de atributo (s) ou elemento (s) filho (s). O usuário pode especificar o campo | ler, escrever |
| Para leitura, decodifica os arquivos XML pelo tipo de codificação fornecido. Para gravação, especifica a codificação (conjunto de caracteres) dos arquivos XML salvos. As funções XML integradas ignoram essa opção. Padrão: | ler, escrever |
| Define se os espaços em branco ao redor dos valores que estão sendo lidos devem ser ignorados. Padrão: | Ler |
| Caminho para um arquivo XSD opcional que é usado para validar o XML para cada linha individualmente. As linhas que falham na validação são tratadas como erros de análise, conforme descrito acima. De outra forma, o XSD não afeta o esquema fornecido ou inferido. | Ler |
| Se | Ler |
| Cadeias de formato de carimbo de data/hora personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo | ler, escrever |
| Strings de formato personalizado para carimbo de data/hora sem fuso horário que segue o formato padrão datetime. Isso se aplica ao tipo TimestampNtzType. padrão: | ler, escrever |
| Cadeias de formato de data personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo de data. Padrão: | ler, escrever |
| Define uma localidade como uma tag de idioma no formato IETF BCP 47. Por exemplo, | Ler |
| Marca raiz dos arquivos XML. Por exemplo, em | Gravar |
| Conteúdo da declaração XML a ser escrita no início de cada arquivo XML de saída, antes de | Gravar |
| Nome do elemento XML que envolve cada elemento de uma coluna com valor de matriz ao escrever. Padrão: | Gravar |
| Define a representação de strings de um valor nulo. Padrão: strings | ler, escrever |
| Código de compressão a ser usado ao salvar em um arquivo. Esse pode ser um dos nomes abreviados conhecidos que não diferenciam maiúsculas de minúsculas ( | Gravar |
| Se verdadeiro, gera um erro na falha na validação do nome do elemento XML. Por exemplo, os nomes de campos SQL podem ter espaços, mas os nomes de elementos XML não podem. padrão: | Gravar |
| Especifica o comportamento de diferenciação entre maiúsculas e minúsculas quando RescuedDataColumn está habilitado. Se verdadeiro, recupere as colunas de dados cujos nomes diferem do esquema por maiúsculas e minúsculas; caso contrário, leia os dados sem diferenciar maiúsculas de minúsculas. Padrão: | Ler |
| Se deve coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo maiúsculas e minúsculas de coluna) em uma coluna separada. Essa coluna é incluída por default ao usar Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados? . | Ler |
OpçõesPARQUET
Opção |
---|
|
|
|
|
|
OpçõesAVRO
Opção |
---|
|
|
|
|
|
OpçõesBINARYFILE
Arquivos binários não têm opções de configuração adicionais.
OpçõesTEXT
Opção |
---|
|
|
|
OpçõesORC
Opção |
---|
|
Opções específicas da nuvem
O Auto Loader oferece uma série de opções para configurar a infraestrutura de nuvem.
Opções específicas do AWS
Forneça a seguinte opção somente se você escolher cloudFiles.useNotifications
= true
e desejar que o Auto Loader configure os serviços de notificação para você:
Opção |
---|
|
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
|
Opções de autenticação do AWS
Forneça a seguinte opção de autenticação para usar uma credencial de serviço do Databricks:
Opção |
---|
|
Quando as credenciais de serviço Databricks ou a função IAM não estiverem disponíveis, o senhor poderá fornecer as seguintes opções de autenticação:
Opção |
---|
|
|
|
|
|
|
Opções específicas do Azure
Você deve fornecer valores para todas as seguintes opções se especificar cloudFiles.useNotifications
= true
e desejar que o Auto Loader configure os serviços de notificação para você:
Opção |
---|
|
|
|
Se uma credencial de serviço do Databricks não estiver disponível, o senhor poderá fornecer as seguintes opções de autenticação:
Opção |
---|
|
|
|
|
A configuração de notificação automática está disponível nas regiões Azure China e Government com Databricks Runtime 9.1e acima. Você deve fornecer um queueName
para usar o Auto Loader com notificações de arquivo nessas regiões para versões mais antigas do DBR.
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
|
Opções específicas do Google
Auto Loader pode configurar automaticamente o serviço de notificação para Databricks o senhor, aproveitando as credenciais do serviço. O serviço account criado com a credencial de serviço Databricks exigirá as permissões especificadas em What is Auto Loader file notification mode?
Opção |
---|
|
|
Se a credencial do Databricks serviço não estiver disponível, o senhor poderá usar diretamente a conta do Google serviço. O senhor pode configurar seu clustering para assumir um serviço account seguindo a configuração de serviço do Google ou fornecer as seguintes opções de autenticação diretamente:
Opção |
---|
|
|
|
|
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
|