Você pode configurar as seguintes opções para listagem de diretórios ou modo de notificação de arquivos.
Opção |
---|
cloudFiles.allowOverwrites Tipo: Boolean Se permitir que alterações no arquivo do diretório de entrada substituam os dados existentes. Existem algumas ressalvas em relação à habilitação dessa configuração. Consulte O Auto Loader processa o arquivo novamente quando o arquivo é anexado ou substituído? para obter detalhes. Valor default: false
|
cloudFiles.backfillInterval Tipo: Interval String O Auto Loader pode acionar backfills assíncronos em um determinado intervalo, ex. 1 day para preencher uma vez por dia ou 1 week para preencher uma vez por semana. Os sistemas de notificação de eventos de arquivos não garantem 100% de entrega de todos os arquivos que foram carregados; portanto, o senhor pode usar backfills para garantir que todos os arquivos sejam processados, o que está disponível em Databricks Runtime 8.4 (EoS) e acima. Valor padrão: Nenhum
|
cloudFiles.format Tipo: String O formato do arquivo de dados no caminho de origem. Os valores permitidos incluem: - avro : Arquivo Avro - binaryFile : Arquivo binário - csv : Ler arquivos CSV - json : arquivo JSON - orc : Arquivo ORC -:parquet read.parquet arquivos usando Databricks - text : Arquivos de texto - xml : Leia e grave arquivos XML Valor padrão: Nenhum (opção obrigatória)
|
cloudFiles.includeExistingFiles Tipo: Boolean Se os arquivos existentes devem ser incluídos no caminho de entrada do processamento da transmissão ou se devem ser processados somente os novos arquivos que chegarem após a configuração inicial. Essa opção é avaliada somente quando você inicia uma transmissão pela primeira vez. Alterar esta opção após reiniciar a transmissão não tem efeito. Valor default: true
|
cloudFiles.inferColumnTypes Tipo: Boolean Se é necessário inferir tipos de coluna exatos ao aproveitar a inferência de esquema. Por default, as colunas são inferidas como strings ao inferir o conjunto de dados JSON e CSV. Consulte inferência de esquema para obter mais detalhes. Valor default: false
|
cloudFiles.maxBytesPerTrigger Tipo: Byte String O número máximo de novos bytes a serem processados em cada gatilho. O senhor pode especificar uma cadeia de bytes, como 10g , para limitar cada microbatch a 10 GB de dados. Este é um máximo flexível. Se o senhor tiver arquivos de 3 GB cada, a Databricks processa 12 GB em um microbatch. Quando usado junto com cloudFiles.maxFilesPerTrigger , o Databricks consome até o limite inferior de cloudFiles.maxFilesPerTrigger ou cloudFiles.maxBytesPerTrigger , o que for atingido primeiro. Essa opção não tem efeito quando usada com Trigger.Once() (Trigger.Once() está obsoleto). Valor padrão: Nenhum
|
cloudFiles.maxFileAge Tipo: Interval String Por quanto tempo um evento de arquivo é rastreado para fins de desduplicação. A Databricks não recomenda o ajuste desse parâmetro, a menos que o senhor esteja ingerindo dados da ordem de milhões de arquivos por hora. Consulte a seção sobre retenção de eventos para obter mais detalhes. Ajustar cloudFiles.maxFileAge de forma muito agressiva pode causar problemas de qualidade de dados, como ingestão duplicada ou perda de arquivos. Portanto, a Databricks recomenda uma configuração conservadora para cloudFiles.maxFileAge , como 90 dias, que é semelhante ao que as soluções de ingestão de dados comparáveis recomendam. Valor padrão: Nenhum
|
cloudFiles.maxFilesPerTrigger Tipo: Integer O número máximo de novos arquivos a serem processados em cada gatilho. Quando usado junto com cloudFiles.maxBytesPerTrigger , o Databricks consome até o limite mais baixo de cloudFiles.maxFilesPerTrigger ou cloudFiles.maxBytesPerTrigger , o que for atingido primeiro. Essa opção não tem efeito quando usada com Trigger.Once() (descontinuada). Valor padrão: 1000
|
cloudFiles.partitionColumns Tipo: String Uma lista separada por vírgulas de colunas de partição no estilo Hive que o senhor gostaria que fossem inferidas da estrutura de diretório dos arquivos. Hive As colunas de partição de estilo são par key-valor combinadas por um sinal de igualdade, como <base-path>/a=x/b=1/c=y/file.format . Neste exemplo, as colunas de partição são a , b e c . Em default, essas colunas serão adicionadas automaticamente ao seu esquema se o senhor estiver usando inferência de esquema e fornecer o <base-path> para carregar os dados. Se o senhor fornecer um esquema, o Auto Loader espera que essas colunas sejam incluídas no esquema. Se você não quiser essas colunas como parte do seu esquema, você pode especificar "" para ignorar essas colunas. Além disso, o senhor pode usar essa opção quando quiser que as colunas sejam inferidas do caminho do arquivo em estruturas de diretório complexas, como no exemplo abaixo: <base-path>/year=2022/week=1/file1.csv <base-path>/year=2022/month=2/day=3/file2.csv <base-path>/year=2022/month=2/day=4/file3.csv Especificar cloudFiles.partitionColumns como year,month,day retornará year=2022 para file1.csv , mas as colunas month e day serão null . month e day serão analisados corretamente para file2.csv e file3.csv . Valor padrão: Nenhum
|
cloudFiles.schemaEvolutionMode Tipo: String O modo de evolução do esquema à medida que novas colunas são descobertas nos dados. Por default, as colunas são inferidas como strings ao inferir o conjunto de dados JSON. Consulte a evolução do esquema para obter mais detalhes. Valor padrão: "addNewColumns" quando um esquema não é fornecido. "none" caso contrário.
|
cloudFiles.schemaHints Tipo: String Informações de esquema que o senhor fornece para Auto Loader durante a inferência de esquema. Consulte as dicas de esquema para obter mais detalhes. Valor padrão: Nenhum
|
cloudFiles.schemaLocation Tipo: String O local para armazenar o esquema inferido e as alterações subsequentes. Consulte inferência de esquema para obter mais detalhes. Valor padrão: Nenhum (necessário ao inferir o esquema)
|
cloudFiles.useStrictGlobber Tipo: Boolean Se o senhor deve usar um globber estrito que corresponda ao comportamento de globbing de default de outras fontes de arquivos em Apache Spark. Consulte Padrões comuns de carregamento de dados para obter mais detalhes. Disponível em Databricks Runtime 12.2 LTS e acima. Valor default: false
|
cloudFiles.validateOptions Tipo: Boolean Se deve validar as opções do Auto Loader e retornar um erro para opções desconhecidas ou inconsistentes. Valor default: true
|
As seguintes opções são relevantes para o modo de listagem de diretórios.
As seguintes opções são relevantes para o modo de notificação de arquivo.
Esses nomes de keys são reservados e você não pode substituir seus valores.
As seguintes opções se aplicam a todos os formatos de arquivo.
Opção |
---|
ignoreCorruptFiles Tipo: Boolean Se deve ignorar arquivos corrompidos. Se for verdadeiro, o trabalho Spark continuará a ser executado ao encontrar arquivos corrompidos e o conteúdo que foi lido ainda será retornado. Observável como numSkippedCorruptFiles no operationMetrics coluna do site Delta Lake história. Disponível em Databricks Runtime 11.3 LTS e acima. Valor default: false
|
ignoreMissingFiles Tipo: Boolean Se deve ignorar os arquivos ausentes. Se for verdadeiro, o trabalho Spark continuará a ser executado quando encontrar arquivos ausentes e o conteúdo que foi lido ainda será retornado. Disponível em Databricks Runtime 11.3 LTS e acima. Valor padrão: false para Auto Loader, true para COPY INTO (legado)
|
modifiedAfter Tipo: Timestamp String , por exemplo, 2021-01-01 00:00:00.000000 UTC+0 Um carimbo de data e hora opcional para ingerir arquivos com um carimbo de data e hora de modificação posterior ao carimbo fornecido. Valor padrão: Nenhum
|
modifiedBefore Tipo: Timestamp String , por exemplo, 2021-01-01 00:00:00.000000 UTC+0 Um carimbo de data e hora opcional para ingerir arquivos com um carimbo de data e hora de modificação antes do carimbo de data/hora fornecido. Valor padrão: Nenhum
|
pathGlobFilter ou fileNamePattern Tipo: String Um padrão global em potencial para permitir a escolha de arquivos. Equivalente a PATTERN em COPY INTO (legado). fileNamePattern pode ser usado em read_files . Valor padrão: Nenhum
|
recursiveFileLookup Tipo: Boolean Essa opção pesquisa em diretórios aninhados, mesmo que seus nomes não sigam um esquema de nomenclatura de partições como date=2019-07-01. Valor default: false
|
Opção |
---|
allowBackslashEscapingAnyCharacter Tipo: Boolean Se deve permitir que barras invertidas () sejam usadas para escapar qualquer caractere que a suceda.Se não estiver habilitado, somente caracteres que são explicitamente listados pela especificação JSON podem ser escapados. Valor default: false
|
allowComments Tipo: Boolean Se deve permitir ou não o uso de comentários no estilo Java, C e C++ (variedades '/' , '*' e '//' ) no conteúdo analisado. Valor default: false
|
allowNonNumericNumbers Tipo: Boolean Se o conjunto de tokens não é um número (NaN ) deve ser permitido como valores numéricos flutuantes legais. Valor default: true
|
allowNumericLeadingZeros Tipo: Boolean Se o senhor deve permitir que números integrais comecem com zeros adicionais (ignoráveis) (por exemplo, 000001 ). Valor default: false
|
allowSingleQuotes Tipo: Boolean Se deve ser permitido o uso de aspas simples (apóstrofo, caractere '\' ) para citar strings (nomes e valores de String). Valor default: true
|
allowUnquotedControlChars Tipo: Boolean Permitir ou não que as strings JSON contenham caracteres de controle sem escape (caracteres ASCII com valor menor que a 32, incluindo caracteres de tabulação e de avanço de linha). Valor default: false
|
allowUnquotedFieldNames Tipo: Boolean Se deve permitir o uso de nomes de campo sem aspas (que são permitidos pelo JavaScript, mas não pela especificação JSON). Valor default: false
|
badRecordsPath Tipo: String O caminho para armazenar arquivos que registram informações sobre registros JSON inválidos. Valor padrão: Nenhum
|
columnNameOfCorruptRecord Tipo: String A coluna para armazenar registros que estão malformados e não podem ser analisados. Se o mode para análise estiver definido como DROPMALFORMED , esta coluna estará vazia. Valor default: _corrupt_record
|
dateFormat Tipo: String O formato para analisar cadeias de caracteres de data. Valor default: yyyy-MM-dd
|
dropFieldIfAllNull Tipo: Boolean Se deve ignorar colunas de todos os valores nulos ou matrizes e estruturas vazias durante a inferência do esquema. Valor default: false
|
encoding ou charset Tipo: String O nome da codificação dos arquivos JSON. Consulte java.nio.charset.Charset para obter uma lista de opções. Você não pode usar UTF-16 e UTF-32 quando multiline for true . Valor default: UTF-8
|
inferTimestamp Tipo: Boolean Se o senhor deve tentar inferir o registro de data e hora strings como TimestampType . Quando definido como true , a inferência do esquema pode levar muito mais tempo. O senhor deve ativar o cloudFiles.inferColumnTypes para usá-lo com o Auto Loader. Valor default: false
|
lineSep Tipo: String Uma string entre dois registros JSON consecutivos. Valor padrão: Nenhum, que cobre \r , \r\n e \n
|
locale Tipo: String Um identificador java.util.Locale . Influencia a data padrão, o carimbo de data e a análise decimal dentro do JSON. Valor default: US
|
mode Tipo: String Modo de análise para lidar com registros malformados. Um dos 'PERMISSIVE' , 'DROPMALFORMED' , ou 'FAILFAST' . Valor default: PERMISSIVE
|
multiLine Tipo: Boolean Se os registros JSON abrangem múltiplas linhas. Valor default: false
|
prefersDecimal Tipo: Boolean Tenta inferir strings como DecimalType em vez de tipo float ou double quando possível. Você também deve usar a inferência de esquema, seja ativando inferSchema ou usando o site cloudFiles.inferColumnTypes com o Auto Loader. Valor default: false
|
primitivesAsString Tipo: Boolean Se inferir tipos primitivos como números e booleanos como StringType . Valor default: false
|
readerCaseSensitive Tipo: Boolean Especifica o comportamento de diferenciação entre maiúsculas e minúsculas quando rescuedDataColumn está ativado. Se verdadeiro, recupere as colunas de dados cujos nomes diferem do esquema por maiúsculas e minúsculas; caso contrário, leia os dados sem diferenciar maiúsculas de minúsculas. Disponível no Databricks Runtime 13.3 e acima. Valor default: true
|
rescuedDataColumn Tipo: String Se deve coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados ou incompatibilidade de esquema (incluindo maiúsculas e minúsculas de coluna) em uma coluna separada. Essa coluna é incluída por default ao usar Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados? . COPY INTO (legado) não oferece suporte à coluna de dados resgatada porque você não pode definir manualmente o esquema usando COPY INTO . A Databricks recomenda o uso do Auto Loader para a maioria dos cenários de ingestão. Valor padrão: Nenhum
|
singleVariantColumn Tipo: String Se o documento JSON inteiro deve ser ingerido, analisado em uma única coluna Variant com as cadeias de caracteres fornecidas como o nome da coluna. Se estiver desativado, os campos JSON serão ingeridos em suas próprias colunas. Valor padrão: Nenhum
|
timestampFormat Tipo: String O formato para analisar cadeias de caracteres de carimbo de data/hora. Valor default: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
|
timeZone Tipo: String O java.time.ZoneId a ser usado ao analisar carimbos de data/hora e datas. Valor padrão: Nenhum
|
Opção |
---|
badRecordsPath Tipo: String O caminho para armazenar arquivos para registrar as informações sobre registros CSV ruins. Valor padrão: Nenhum
|
charToEscapeQuoteEscaping Tipo: Char O caractere usado para escapar do caractere usado para escapar das citações. Por exemplo, para o seguinte registro: [ " a\\", b ] : - Se o caractere para escapar do '\' for indefinido, o registro não será analisado. O analisador lerá os caracteres: [a],[\],["],[,],[ ],[b] e emitirá um erro porque não consegue encontrar uma aspa de fechamento. - Se o caractere para escapar do '\' for definido como '\' , o registro será lido com 2 valores: [a\] e [b] . Valor default: '\0'
|
columnNameOfCorruptRecord Suportado pelo Auto Loader. Não é compatível com COPY INTO (legacy). Tipo: String A coluna para armazenar registros que estão malformados e não podem ser analisados. Se o mode para análise estiver definido como DROPMALFORMED , esta coluna estará vazia. Valor default: _corrupt_record
|
comment Tipo: Char Define o caractere que representa um comentário de linha quando encontrado no início de uma linha de texto. Use '\0' para desativar a omissão de comentários. Valor default: '\u0000'
|
dateFormat Tipo: String O formato para analisar cadeias de caracteres de data. Valor default: yyyy-MM-dd
|
emptyValue Tipo: String Representação de string de um valor vazio. Valor default: ""
|
encoding ou charset Tipo: String O nome da codificação dos arquivos CSV. Consulte java.nio.charset.Charset para obter a lista de opções. UTF-16 e UTF-32 não podem ser utilizados quando multiline é true . Valor default: UTF-8
|
enforceSchema Tipo: Boolean Se deve aplicar à força o esquema especificado ou inferido aos arquivos CSV. Se a opção estiver habilitada, os cabeçalhos de arquivos CSV serão ignorados. Essa opção é ignorada por padrão ao usar o Auto Loader para resgatar dados e permitir a evolução do esquema. Valor default: true
|
escape Tipo: Char O caractere de escape a ser usado ao analisar os dados. Valor default: '\'
|
header Tipo: Boolean Se os arquivos CSV contêm um cabeçalho. O Auto Loader pressupõe que os arquivos tenham cabeçalhos ao inferir o esquema. Valor default: false
|
ignoreLeadingWhiteSpace Tipo: Boolean Se deve ignorar os principais espaços em branco para cada valor analisado. Valor default: false
|
ignoreTrailingWhiteSpace Tipo: Boolean Se devem ser ignorados os espaços em branco à direita para cada valor analisado. Valor default: false
|
inferSchema Tipo: Boolean Se deve inferir os tipos de dados dos registros CSV analisados ou assumir que todas as colunas são de StringType . Exige um passe adicional sobre os dados se configurado para true . Para o Auto Loader, use cloudFiles.inferColumnTypes em vez disso. Valor default: false
|
lineSep Tipo: String Uma string entre dois registros CSV consecutivos. Valor padrão: Nenhum, que cobre \r , \r\n e \n
|
locale Tipo: String Um identificador java.util.Locale . Influencia a data padrão, o carimbo de data e a análise decimal dentro do CSV. Valor default: US
|
maxCharsPerColumn Tipo: Int Número máximo de caracteres esperado de um valor para analisar. Pode ser usado para evitar erros de memória. O padrão é -1 , o que significa ilimitado. Valor default: -1
|
maxColumns Tipo: Int O limite rígido de quantas colunas um registro pode ter. Valor default: 20480
|
mergeSchema Tipo: Boolean Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Habilitado por padrão para o Auto Loader ao inferir o esquema. Valor default: false
|
mode Tipo: String Modo de análise para lidar com registros malformados. Um dos 'PERMISSIVE' , 'DROPMALFORMED' e 'FAILFAST' . Valor default: PERMISSIVE
|
multiLine Tipo: Boolean Se os registros CSV abrangem várias linhas. Valor default: false
|
nanValue Tipo: String A representação de string de um valor não numérico ao analisar colunas FloatType e DoubleType . Valor default: "NaN"
|
negativeInf Tipo: String A representação de string do infinito negativo ao analisar colunas FloatType ou DoubleType . Valor default: "-Inf"
|
nullValue Tipo: String Representação de string de um valor nulo. Valor default: ""
|
parserCaseSensitive (obsoleto) Tipo: Boolean Durante a leitura de arquivos, verifique se as colunas declaradas no cabeçalho devem ser alinhadas com o esquema com diferenciação de maiúsculas e minúsculas. Isso é true por padrão para o Auto Loader. As colunas que diferem por maiúsculas e minúsculas serão resgatadas no rescuedDataColumn se habilitadas. Esta opção foi preterida a favor de readerCaseSensitive . Valor default: false
|
positiveInf Tipo: String A representação de string do infinito positivo ao analisar colunas FloatType ou DoubleType . Valor default: "Inf"
|
preferDate Tipo: Boolean Tenta inferir strings como datas em vez de carimbo de data/hora quando possível. Você também deve usar a inferência de esquema, habilitando inferSchema ou usando cloudFiles.inferColumnTypes com Auto Loader. Valor default: true
|
quote Tipo: Char O caractere usado para escapar de valores onde o delimitador de campo faz parte do valor. Valor default: "
|
readerCaseSensitive Tipo: Boolean Especifica o comportamento de diferenciação de maiúsculas e minúsculas quando rescuedDataColumn está habilitado. Se verdadeiro, resgate as colunas de dados cujos nomes diferem por maiúsculas e minúsculas do esquema; caso contrário, leia os dados de maneira que não diferencie maiúsculas de minúsculas. Valor default: true
|
rescuedDataColumn Tipo: String Se deve coletar todos os dados que não podem ser analisados devido a: uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo maiúsculas e minúsculas de coluna) em uma coluna separada. Essa coluna é incluída por default ao usar Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados? . COPY INTO (legado) não oferece suporte à coluna de dados resgatada porque você não pode definir manualmente o esquema usando COPY INTO . A Databricks recomenda o uso do Auto Loader para a maioria dos cenários de ingestão. Valor padrão: Nenhum
|
sep ou delimiter Tipo: String A string separadora entre colunas. Valor default: ","
|
skipRows Tipo: Int O número de linhas do início do arquivo CSV que devem ser ignoradas (incluindo linhas comentadas e vazias). Se header for verdadeiro, o cabeçalho será a primeira linha não ignorada e não comentada. Valor default: 0
|
timestampFormat Tipo: String O formato para analisar cadeias de caracteres de carimbo de data/hora. Valor default: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
|
timeZone Tipo: String O java.time.ZoneId a ser usado ao analisar carimbos de data/hora e datas. Valor padrão: Nenhum
|
unescapedQuoteHandling Tipo: String A estratégia para lidar com cotações sem escape. Opções permitidas: - STOP_AT_CLOSING_QUOTE : Se aspas sem escape forem encontradas na entrada, acumule o caractere de aspa e continue analisando o valor como um valor entre aspas, até que uma cotação de fechamento seja encontrada. - BACK_TO_DELIMITER : Se aspas sem escape forem encontradas na entrada, considere o valor como um valor sem aspas. Isso fará com que o analisador acumule todos os caracteres do valor analisado atual até que o delimitador definido por sep seja encontrado. Se nenhum delimitador for encontrado no valor, o analisador continuará acumulando caracteres da entrada até que um delimitador ou final de linha seja encontrado. - STOP_AT_DELIMITER : Se aspas sem escape forem encontradas na entrada, considere o valor como um valor sem aspas. Isso fará com que o analisador acumule todos os caracteres até que o delimitador definido por sep ou um final de linha seja encontrado na entrada. - SKIP_VALUE : Se aspas sem escape forem encontradas na entrada, o conteúdo analisado para o valor fornecido será ignorado (até que o próximo delimitador seja encontrado) e o valor definido em nullValue será produzido em seu lugar. - RAISE_ERROR : Se aspas sem escape forem encontradas na entrada, um TextParsingException serão lançados. Valor default: STOP_AT_DELIMITER
|
Opção | Descrição | Escopo |
---|
rowTag
| A tag de linha dos arquivos XML a serem tratados como uma linha. No exemplo XML <books> <book><book>...<books> , o valor apropriado é book . Essa é uma opção obrigatória. | Ler |
samplingRatio
| Define uma fração das linhas usadas para inferência de esquema. As funções XML integradas ignoram essa opção. Padrão: 1.0 . | Ler |
excludeAttribute
| Se deve excluir atributos em elementos. Padrão: false . | Ler |
mode
| Mode para lidar com registros corrompidos durante a análise. PERMISSIVE : Para registros corrompidos, coloca as cadeias de caracteres malformadas em um campo configurado por columnNameOfCorruptRecord , e define os campos malformados como null . Para manter registros corrompidos, você pode definir um campo do tipo string chamado columnNameOfCorruptRecord em um esquema definido pelo usuário. Se um esquema não tiver o campo, os registros corrompidos serão eliminados durante a análise. Ao inferir um esquema, o analisador adiciona implicitamente um campo columnNameOfCorruptRecord em um esquema de saída. DROPMALFORMED : ignora registros corrompidos. Esse modo não é compatível com as funções integradas de XML. FAILFAST : lança uma exceção quando o analisador encontra registros corrompidos. | Ler |
inferSchema
| Se true , tenta inferir um tipo apropriado para cada coluna DataFrame resultante. Se false , todas as colunas resultantes serão do tipo string . padrão: true . As funções XML integradas ignoram essa opção. | Ler |
columnNameOfCorruptRecord
| Permite renomear o novo campo que contém uma cadeia de caracteres malformada criada pelo PERMISSIVE modo. Padrão: spark.sql.columnNameOfCorruptRecord . | Ler |
attributePrefix
| O prefixo dos atributos para diferenciar os atributos dos elementos. Esse será o prefixo para nomes de campo. O padrão é _ . Pode estar vazio para ler XML, mas não para escrever. | ler, escrever |
valueTag
| A tag usada para os dados do personagem em elementos que também têm elementos de atributo (s) ou elemento (s) filho (s). O usuário pode especificar o campo valueTag no esquema ou ele será adicionado automaticamente durante a inferência do esquema quando os dados do caractere estiverem presentes em elementos com outros elementos ou atributos. padrão: _VALUE | ler, escrever |
encoding
| Para leitura, decodifica os arquivos XML pelo tipo de codificação fornecido. Para gravação, especifica a codificação (conjunto de caracteres) dos arquivos XML salvos. As funções XML integradas ignoram essa opção. Padrão: UTF-8 . | ler, escrever |
ignoreSurroundingSpaces
| Define se os espaços em branco ao redor dos valores que estão sendo lidos devem ser ignorados. Padrão: true . Os dados de caracteres somente com espaços em branco são ignorados. | Ler |
rowValidationXSDPath
| Caminho para um arquivo XSD opcional que é usado para validar o XML para cada linha individualmente. As linhas que falham na validação são tratadas como erros de análise, conforme descrito acima. De outra forma, o XSD não afeta o esquema fornecido ou inferido. | Ler |
ignoreNamespace
| Se true , os prefixos dos namespaces em elementos e atributos XML serão ignorados. As tags <abc:author> e <def:author> , por exemplo, são tratadas como se ambas fossem apenas <author> . Os namespaces não podem ser ignorados no elemento rowTag , somente em seus filhos lidos. A análise de XML não reconhece namespaces, mesmo que seja false . Padrão: false . | Ler |
timestampFormat
| Cadeias de formato de carimbo de data/hora personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo timestamp . Padrão: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] . | ler, escrever |
timestampNTZFormat
| Strings de formato personalizado para carimbo de data/hora sem fuso horário que segue o formato padrão datetime. Isso se aplica ao tipo TimestampNtzType. padrão: yyyy-MM-dd'T'HH:mm:ss[.SSS] | ler, escrever |
dateFormat
| Cadeias de formato de data personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo de data. Padrão: yyyy-MM-dd . | ler, escrever |
locale
| Define uma localidade como uma tag de idioma no formato IETF BCP 47. Por exemplo, locale é usado ao analisar datas e carimbos de data/hora. Padrão: en-US . | Ler |
rootTag
| Marca raiz dos arquivos XML. Por exemplo, em <books> <book><book>...</books> , o valor apropriado é books . Você pode incluir atributos básicos especificando um valor como books foo="bar" . Padrão: ROWS . | Gravar |
declaration
| Conteúdo da declaração XML a ser escrita no início de cada arquivo XML de saída, antes de rootTag . Por exemplo, um valor de foo faz com que <?xml foo?> seja escrito. Defina como uma cadeia de caracteres vazia para suprimir. padrão: version="1.0" encoding="UTF-8" standalone="yes" . | Gravar |
arrayElementName
| Nome do elemento XML que envolve cada elemento de uma coluna com valor de matriz ao escrever. Padrão: item . | Gravar |
nullValue
| Define a representação de strings de um valor nulo. Padrão: strings null . Quando isso é null , o analisador não grava atributos e elementos para campos. | ler, escrever |
compression
| Código de compressão a ser usado ao salvar em um arquivo. Esse pode ser um dos nomes abreviados conhecidos que não diferenciam maiúsculas de minúsculas (none , bzip2 , gzip ,lz4 , snappy e deflate ). As funções XML integradas ignoram essa opção. Padrão: none . | Gravar |
validateName
| Se verdadeiro, gera um erro na falha na validação do nome do elemento XML. Por exemplo, os nomes de campos SQL podem ter espaços, mas os nomes de elementos XML não podem. padrão: true . | Gravar |
readerCaseSensitive
| Especifica o comportamento de diferenciação entre maiúsculas e minúsculas quando RescuedDataColumn está habilitado. Se verdadeiro, recupere as colunas de dados cujos nomes diferem do esquema por maiúsculas e minúsculas; caso contrário, leia os dados sem diferenciar maiúsculas de minúsculas. Padrão: true . | Ler |
rescuedDataColumn
| Se deve coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo maiúsculas e minúsculas de coluna) em uma coluna separada. Essa coluna é incluída por default ao usar Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados? . COPY INTO (legado) não oferece suporte à coluna de dados resgatada porque você não pode definir manualmente o esquema usando COPY INTO . A Databricks recomenda o uso do Auto Loader para a maioria dos cenários de ingestão. padrão: Nenhum. | Ler |
Arquivos binários não têm opções de configuração adicionais.
O Auto Loader oferece uma série de opções para configurar a infraestrutura de nuvem.
Forneça a seguinte opção de autenticação para usar uma credencial de serviço do Databricks:
Quando as credenciais de serviço Databricks ou a função IAM não estiverem disponíveis, o senhor poderá fornecer as seguintes opções de autenticação:
Se uma credencial de serviço do Databricks não estiver disponível, o senhor poderá fornecer as seguintes opções de autenticação:
Se a credencial do Databricks serviço não estiver disponível, o senhor poderá usar diretamente a conta do Google serviço. O senhor pode configurar seu clustering para assumir um serviço account seguindo a configuração de serviço do Google ou fornecer as seguintes opções de autenticação diretamente: