Opções do Auto Loader
As opções de configuração específicas para a origem do cloudFiles
são prefixadas com cloudFiles
de forma que estejam em um espaço de nome separado de outras opções de origem da transmissão estruturada.
Opções comuns do Auto Loader
O senhor pode configurar as seguintes opções para a transmissão Auto Loader.
Opções |
---|
Tipo: Se permitir que alterações no arquivo do diretório de entrada substituam os dados existentes. Para ver as ressalvas de configuração, consulte O Auto Loader processa o arquivo novamente quando o arquivo é anexado ou substituído? padrão: |
Tipo: O Auto Loader pode acionar backfills assíncronos em um determinado intervalo. Por exemplo, Não use quando padrão: Nenhum |
Tipo: Se os arquivos processados devem ser excluídos automaticamente do diretório de entrada. Quando definido como Quando definido como Quando definido como Um arquivo é considerado processado quando tem um valor não nulo para Observação: o site Databricks não recomenda o uso dessa opção se houver várias transmissões consumindo dados do local de origem, pois o consumidor mais rápido excluirá os arquivos e eles não serão ingeridos nas origens mais lentas. Observação: a ativação desse recurso exige que o Auto Loader mantenha um estado adicional em seu ponto de verificação, o que gera sobrecarga de desempenho, mas permite uma melhor observabilidade por meio da função valorizada da tabela Nota: Disponível em Databricks Runtime 16.4 e acima. padrão: OFF |
Tipo: Tempo de espera antes que os arquivos processados se tornem candidatos para arquivamento com Disponível em Databricks Runtime 16.4 e acima. valor padrão: 30 dias |
Tipo: Caminho para arquivar os arquivos processados até quando O local da mudança é restrito das seguintes formas:
O Auto Loader deve ter permissões de gravação nesse diretório. Disponível em Databricks Runtime 16.4 e acima. Valor padrão: Nenhum |
Tipo: O formato do arquivo de dados no caminho de origem. Os valores permitidos incluem:
padrão: None (opção obrigatória) |
Tipo: Se os arquivos existentes devem ser incluídos no caminho de entrada do processamento da transmissão ou se devem ser processados somente os novos arquivos que chegarem após a configuração inicial. Essa opção é avaliada somente quando você inicia uma transmissão pela primeira vez. Alterar esta opção após reiniciar a transmissão não tem efeito. padrão: |
Tipo: Se é necessário inferir tipos de coluna exatos ao aproveitar a inferência de esquema. Por default, as colunas são inferidas como strings ao inferir o conjunto de dados JSON e CSV. Consulte inferência de esquema para obter mais detalhes. padrão: |
Tipo: O número máximo de novos bytes a serem processados em cada gatilho. O senhor pode especificar uma cadeia de bytes, como padrão: Nenhum |
Tipo: Por quanto tempo um evento de arquivo é rastreado para fins de desduplicação. A Databricks não recomenda o ajuste desse parâmetro, a menos que o senhor esteja ingerindo dados da ordem de milhões de arquivos por hora. Consulte a seção sobre acompanhamento de eventos de arquivo para obter mais detalhes. Ajustar padrão: Nenhum |
Tipo: O número máximo de novos arquivos a serem processados em cada gatilho. Quando usado junto com padrão: 1000 |
Tipo: Uma lista separada por vírgulas de colunas de partição no estilo Hive que o senhor gostaria que fossem inferidas da estrutura de diretório dos arquivos. Hive As colunas de partição de estilo são par key-value combinadas por um sinal de igualdade, como
Especificar
padrão: Nenhum |
Tipo: O modo de evolução do esquema à medida que novas colunas são descobertas nos dados. Por default, as colunas são inferidas como strings ao inferir o conjunto de dados JSON. Consulte a evolução do esquema para obter mais detalhes. Padrão: |
Tipo: Informações de esquema que o senhor fornece para Auto Loader durante a inferência de esquema. Consulte as dicas de esquema para obter mais detalhes. padrão: Nenhum |
Tipo: O local para armazenar o esquema inferido e as alterações subsequentes. Consulte inferência de esquema para obter mais detalhes. padrão: None (necessário para inferir o esquema) |
Tipo: Se o senhor deve usar um globber estrito que corresponda ao comportamento de globbing de default de outras fontes de arquivos em Apache Spark. Consulte Padrões comuns de carregamento de dados para obter mais detalhes. Disponível em Databricks Runtime 12.2 LTS e acima. padrão: |
Tipo: Se deve validar as opções do Auto Loader e retornar um erro para opções desconhecidas ou inconsistentes. padrão: |
Opções de lista de diretórios
As seguintes opções são relevantes para o modo de listagem de diretórios.
Opções |
---|
Tipo: Esse recurso foi descontinuado. A Databricks recomenda usar o modo de notificação de arquivo com eventos de arquivo em vez de Se deve usar a listagem incremental em vez da listagem completa no modo de listagem de diretórios. Em default, Auto Loader faz o melhor esforço para detectar automaticamente se um determinado diretório é aplicável à listagem incremental. Você pode usar explicitamente a listagem incremental ou usar a listagem completa do diretório definindo-a como A ativação incorreta da listagem incremental em um diretório não ordenado de forma lógica impede que o Auto Loader descubra novos arquivos. Funciona com Azure data lake Storage ( Disponível em Databricks Runtime 9.1 LTS e acima. Padrão: Valores disponíveis: |
Opções de notificação de arquivos
As seguintes opções são relevantes para o modo de notificação de arquivo.
Opções |
---|
Tipo: Número de segmentos a serem usados ao buscar mensagens do serviço de enfileiramento. Não use quando padrão: 1 |
Tipo: uma string JSON Obrigatório somente se você especificar um Não use quando padrão: Nenhum |
Tipo: Uma série de pares de tags de valor chave para ajudar a associar e identificar recursos relacionados, por exemplo:
Para obter mais informações sobre AWS, consulte Amazon Tags de alocação de custos do SQS e tópico Configurando tags para um SNS Amazon. (1) Para obter mais informações sobre Azure, consulte Naming Queues and Metadata e a cobertura de Para obter mais informações sobre GCP, consulte Reporting usage with rótulo. (1) Não use quando padrão: Nenhum |
Pré-visualização : O suporte do Auto Loader para eventos de arquivo está na visualização pública. Ele está disponível somente em Databricks Runtime 14.3 LTS e acima. Para se inscrever na pré-visualização, entre em contato com a equipe Databricks account . Quando definido como Os eventos de arquivo oferecem desempenho em nível de notificação na descoberta de arquivos, pois o Auto Loader pode descobrir novos arquivos desde a última execução. Diferentemente da listagem de diretórios, esse processo não precisa listar todos os arquivos no diretório. Há algumas situações em que o Auto Loader usa a listagem de diretórios, embora a opção de eventos de arquivo esteja ativada:
|
Tipo: Se deve usar o modo de notificação de arquivos para determinar quando há novos arquivos. Se Não use quando padrão: |
(1) O Auto Loader adiciona os seguintes pares de tags de chave-valor por padrão com base no melhor esforço:
vendor
:Databricks
path
: O local de onde os dados são carregados. Indisponível no GCP devido a limitações de rotulagem.checkpointLocation
: A localização do ponto de controle da transmissão. Indisponível em GCP devido a limitações de rótulo.streamId
: um identificador globalmente exclusivo para a transmissão.
Esses nomes de keys são reservados e você não pode substituir seus valores.
Opções de formato de arquivo
Com o Auto Loader, você pode ingerir arquivos JSON
, CSV
, PARQUET
, AVRO
, TEXT
, BINARYFILE
e ORC
.
- Opções genéricas
JSON
opçõesCSV
opçõesXML
opçõesPARQUET
opçõesAVRO
opçõesBINARYFILE
opçõesTEXT
opçõesORC
opções
Opções genéricas
As seguintes opções se aplicam a todos os formatos de arquivo.
Opção |
---|
|
|
|
|
|
|
OpçõesJSON
Opção |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
OpçõesCSV
Opção |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
OpçõesXML
Opção | Descrição | Escopo |
---|---|---|
| A tag de linha dos arquivos XML a serem tratados como uma linha. No exemplo XML | Ler |
| Define uma fração das linhas usadas para inferência de esquema. As funções XML integradas ignoram essa opção. Padrão: | Ler |
| Se deve excluir atributos em elementos. Padrão: | Ler |
| Mode para lidar com registros corrompidos durante a análise. | Ler |
| Se | Ler |
| Permite renomear o novo campo que contém uma cadeia de caracteres malformada criada pelo | Ler |
| O prefixo dos atributos para diferenciar os atributos dos elementos. Esse será o prefixo para nomes de campo. O padrão é | ler, escrever |
| A tag usada para os dados do personagem em elementos que também têm elementos de atributo (s) ou elemento (s) filho (s). O usuário pode especificar o campo | ler, escrever |
| Para leitura, decodifica os arquivos XML pelo tipo de codificação fornecido. Para gravação, especifica a codificação (conjunto de caracteres) dos arquivos XML salvos. As funções XML integradas ignoram essa opção. Padrão: | ler, escrever |
| Define se os espaços em branco ao redor dos valores que estão sendo lidos devem ser ignorados. Padrão: | Ler |
| Caminho para um arquivo XSD opcional que é usado para validar o XML para cada linha individualmente. As linhas que falham na validação são tratadas como erros de análise, conforme descrito acima. De outra forma, o XSD não afeta o esquema fornecido ou inferido. | Ler |
| Se | Ler |
| Cadeias de formato de carimbo de data/hora personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo | ler, escrever |
| Strings de formato personalizado para carimbo de data/hora sem fuso horário que segue o formato padrão datetime. Isso se aplica ao tipo TimestampNtzType. padrão: | ler, escrever |
| Cadeias de formato de data personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo de data. Padrão: | ler, escrever |
| Define uma localidade como uma tag de idioma no formato IETF BCP 47. Por exemplo, | Ler |
| Marca raiz dos arquivos XML. Por exemplo, em | Gravar |
| Conteúdo da declaração XML a ser escrita no início de cada arquivo XML de saída, antes de | Gravar |
| Nome do elemento XML que envolve cada elemento de uma coluna com valor de matriz ao escrever. Padrão: | Gravar |
| Define a representação de strings de um valor nulo. Padrão: strings | ler, escrever |
| Código de compressão a ser usado ao salvar em um arquivo. Esse pode ser um dos nomes abreviados conhecidos que não diferenciam maiúsculas de minúsculas ( | Gravar |
| Se verdadeiro, gera um erro na falha na validação do nome do elemento XML. Por exemplo, os nomes de campos SQL podem ter espaços, mas os nomes de elementos XML não podem. padrão: | Gravar |
| Especifica o comportamento de diferenciação entre maiúsculas e minúsculas quando RescuedDataColumn está habilitado. Se verdadeiro, recupere as colunas de dados cujos nomes diferem do esquema por maiúsculas e minúsculas; caso contrário, leia os dados sem diferenciar maiúsculas de minúsculas. Padrão: | Ler |
| Se deve coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo maiúsculas e minúsculas de coluna) em uma coluna separada. Essa coluna é incluída por default ao usar Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados? . | Ler |
| Especifica o nome da coluna de variante única. Se essa opção for especificada para leitura, analisará todo o registro XML em uma única coluna Variant com o valor das cadeias de opções fornecido como o nome da coluna. Se essa opção for fornecida para gravação, grave o valor da única coluna Variant em arquivos XML. Padrão: | ler, escrever |
OpçõesPARQUET
Opção |
---|
|
|
|
|
|
OpçõesAVRO
Opção |
---|
|
|
|
|
|
OpçõesBINARYFILE
Arquivos binários não têm opções de configuração adicionais.
OpçõesTEXT
Opção |
---|
|
|
|
OpçõesORC
Opção |
---|
|
Opções específicas da nuvem
O Auto Loader oferece uma série de opções para configurar a infraestrutura de nuvem.
Opções específicas da AWS
Forneça a seguinte opção somente se você escolher cloudFiles.useNotifications
= true
e desejar que o Auto Loader configure os serviços de notificação para você:
Opção |
---|
Tipo: A região onde o bucket do S3 de origem reside e onde os serviços do AWS SNS e do SQS serão criados. padrão: A região da instância EC2. |
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
Tipo: O URL da fila SQS. Se fornecido, o Auto Loader consome diretamente os eventos dessa fila em vez de configurar seus próprios serviços AWS SNS e SQS. padrão: Nenhum |
Opções de autenticação do AWS
Forneça a seguinte opção de autenticação para usar uma credencial de serviço do Databricks:
Opção |
---|
Tipo: O nome de sua credencial de serviço Databricks. Disponível em Databricks Runtime 16.1 e acima. padrão: Nenhum |
Quando as credenciais de serviço Databricks ou a função IAM não estiverem disponíveis, o senhor poderá fornecer as seguintes opções de autenticação:
Opções |
---|
Tipo: A ID da chave de acesso AWS para o usuário. Deve ser fornecido com padrão: Nenhum |
Tipo: A chave de acesso secreto da AWS para o usuário. Deve ser fornecido com padrão: Nenhum |
Tipo: O ARN de um IAM role a ser assumido, se necessário. A função pode ser assumida no site instance profile do seu clustering ou fornecendo credenciais com padrão: Nenhum |
Tipo: Um identificador a ser fornecido ao assumir uma função usando padrão: Nenhum |
Tipo: Um nome de sessão opcional para utilizar ao assumir um papel utilizando padrão: Nenhum |
Tipo: Um ponto final opcional a ser fornecido para acessar o AWS STS ao assumir uma função utilizando o padrão: Nenhum |
Opções específicas do Azure
Você deve fornecer valores para todas as seguintes opções se especificar cloudFiles.useNotifications
= true
e desejar que o Auto Loader configure os serviços de notificação para você:
Opções |
---|
Tipo: O Grupo de Recursos do Azure sob o qual a conta de armazenamento é criada. padrão: Nenhum |
Tipo: O ID de assinatura do Azure sob o qual o grupo de recursos é criado. padrão: Nenhum |
Tipo: O nome de sua credencial de serviço Databricks. Disponível em Databricks Runtime 16.1 e acima. padrão: Nenhum |
Se uma credencial de serviço do Databricks não estiver disponível, o senhor poderá fornecer as seguintes opções de autenticação:
Opções |
---|
Tipo: A ID do cliente ou ID da aplicação da entidade do serviço. padrão: Nenhum |
Tipo: O segredo do cliente da entidade de serviço. padrão: Nenhum |
Tipo: A string de caracteres de conexão para a conta de armazenamento, com base na chave de acesso à conta ou na assinatura de acesso compartilhado (SAS). padrão: Nenhum |
Tipo: A ID do tenant do Azure sob a qual a entidade de serviço é criada. padrão: Nenhum |
A configuração de notificação automática está disponível nas regiões Azure China e Government com Databricks Runtime 9.1e acima. Você deve fornecer um queueName
para usar o Auto Loader com notificações de arquivo nessas regiões para versões mais antigas do DBR.
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
Tipo: O nome da fila do Azure. Se fornecido, a origem dos arquivos na nuvem consome diretamente os eventos dessa fila em vez de configurar seu próprio serviço Azure Event Grid e Queue Storage. Nesse caso, seu padrão: Nenhum |
Opções específicas do Google
Auto Loader pode configurar automaticamente o serviço de notificação para Databricks o senhor, aproveitando as credenciais do serviço. O serviço account criado com a credencial de serviço Databricks exigirá as permissões especificadas em Configurar transmissão Auto Loader no modo de notificação de arquivo.
Opções |
---|
Tipo: O ID do projeto em que o bucket do GCS está. A assinatura do Google Cloud Pub/Subscrição também será criada dentro deste projeto. padrão: Nenhum |
Tipo: O nome de sua credencial de serviço Databricks. Disponível em Databricks Runtime 16.1 e acima. padrão: Nenhum |
Se a credencial do Databricks serviço não estiver disponível, o senhor poderá usar diretamente a conta do Google serviço. O senhor pode configurar seu clustering para assumir um serviço account seguindo a configuração de serviço do Google ou fornecer as seguintes opções de autenticação diretamente:
Opções |
---|
Tipo: A ID do cliente da conta do Google Service. padrão: Nenhum |
Tipo: O e-mail da Conta de Serviço do Google. padrão: Nenhum |
Tipo: O key privado que é gerado para a conta de serviço do Google. padrão: Nenhum |
Tipo: O ID do key privado que é gerado para a conta de serviço do Google. padrão: Nenhum |
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
Tipo: O nome da assinatura do Google Cloud Pub/Sub. Se fornecido, a fonte de arquivos na nuvem consome eventos desta fila em vez de configurar seus próprios serviços de Notificação GCS e Google Cloud Pub/Sub. padrão: Nenhum |