Atualizações de manutenção para o Databricks Runtime (arquivado)
Esta página arquivada lista as atualizações de manutenção emitidas para as versões do Databricks Runtime que não são mais suportadas. Para adicionar uma atualização de manutenção a um clustering existente, reinicie o clustering.
Essa documentação foi descontinuada e pode não estar atualizada. O produto, o serviço ou a tecnologia mencionados neste conteúdo chegaram ao fim do suporte. Consulte Databricks Runtime notas sobre as versões e a compatibilidade.
Essa lista de atualizações de manutenção pode incluir referências a recursos que não estão disponíveis no Google Cloud.
Versões do Databricks Runtime
Atualizações de manutenção por lançamento:
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.1
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS0.
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13,0 (EoS)
- Databricks Runtime 12,1 (EoS)
- Databricks Runtime 12,0 (EoS)
- Databricks Runtime 11,2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11,0 (EoS)
- Databricks Runtime 10,5 (EoS)
- Databricks Runtime 10,3 (EoS)
- Databricks Runtime 10,2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10,0 (EoS)
- Databricks Runtime 9,0 (EoS)
- Databricks Runtime 8,4 (EoS)
- Databricks Runtime 8,3 (EoS)
- Databricks Runtime 8,2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8,0 (EoS)
- Databricks Runtime 7,6 (EoS)
- Databricks Runtime 7,5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
Para obter as atualizações de manutenção das versões suportadas do Databricks Runtime, consulte Atualizações de manutenção do Databricks Runtime.
Databricks Runtime 15.3
Consulte o Databricks Runtime 15.3 (EoS).
-
26 de novembro de 2024
- Com esta versão, agora você pode consultar a função
vector_search
usandoquery_text
para entrada de texto ouquery_vector
para incorporar entrada. - Atualizações de segurança do sistema operacional.
- Com esta versão, agora você pode consultar a função
-
5 de novembro de 2024
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice estiver fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843] [15,3,15,2] Evite o loop infinito com bindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada para armazenamento do estado em transmissão-transmissão join (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade dos structs aninhados
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-46632][SQL] Corrige a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
-
22 de outubro de 2024
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
- [SPARK-49867][SQL] Melhorar a mensagem de erro quando o índice estiver fora dos limites ao chamar GetColumnByOrdinal
- [SPARK-48843] [15,3,15,2] Evite o loop infinito com bindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada para armazenamento do estado em transmissão-transmissão join (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade dos structs aninhados
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-46632][SQL] Corrige a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
-
10 de outubro de 2024
- [SPARK-49688] [CONNECT] Corrija uma corrida de dados entre interromper e executar o plano
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos do esquema ao podar GetArrayStructFields
- [BACKPORT] [ SPARK-49474] [SS] Classificar classe de erro para erro de função de usuário FlatmapGroupsWithState
- Atualizações de segurança do sistema operacional.
-
25 de setembro de 2024
- [SPARK-49492] [CONNECT] Tentativa de reconexão no ExecutionHolder inativo
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão stateful antes de avaliar
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t", onde t é uma tabela vazia, expandindo RewriteDistinctAggregates
- [SPARK-49458][CONNECT][Python] Fornecer o ID da sessão do lado do servidor por meio do ReattachExecute
- [SPARK-48719][SQL] Corrigir o erro de cálculo de
RegrSlope
&RegrIntercept
quando o primeiro parâmetro é nulo - Atualizações de segurança do sistema operacional.
-
17 de setembro de 2024
- [SPARK-49336] [CONNECT] Limite o nível de aninhamento ao truncar uma mensagem protobuf
- [SPARK-49526] [CONECTAR] [15.3.5] Ofereça suporte a caminhos no estilo Windows no ArtifactManager
- [SPARK-49366] [CONNECT] Trate o nó Union como folha na resolução da coluna do dataframe
- [SPARK-43242] [CORE] Corrige o lançamento de 'Tipo inesperado de BlockId' no diagnóstico aleatório de corrupção
- [SPARK-49409][CONNECT] Ajuste o valor default de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
-
29 de agosto de 2024
- [SPARK-49263][CONNECT] Spark Cliente Connect Python: Tratar de forma consistente as opções de leitura de Dataframe Booleano
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue lidar corretamente com null
- [SPARK-48862][Python][CONNECT] Evite chamar
_proto_to_string
quando o nível INFO não estiver ativado - [SPARK-49146][SS] Mover erros de asserção relacionados à falta de marca d'água em consultas de transmissão no modo append para a estrutura de erros
-
14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções no gravador/leitor do Backport ML
- [SPARK-48706][Python] Python UDF em funções de ordem superior não deve gerar erro interno
- [SPARK-48954] try_mod () substitui try_remainder ()
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebaseamento em formatadores/parsers legados deve ser compatível com fusos horários que não sejam JVM default
- [SPARK-49047][Python][CONNECT] Truncar a mensagem para registro
- [SPARK-48740][SQL] Erro de especificação de janela ausente antecipado
-
1 de agosto de 2024
- [Mudança radical] Em Databricks Runtime 15.3 e acima, chamar qualquer função definida pelo usuário Python (UDF), função agregada definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que use um tipo
VARIANT
como argumento ou valor de retorno gera uma exceção. Essa alteração é feita para evitar problemas que possam ocorrer devido a um valor inválido retornado por uma dessas funções. Para saber mais sobre o tipoVARIANT
, consulte Usar variantes para armazenar dados semiestruturados. - Em serverless compute para Notebook e Job, o modo ANSI SQL é ativado por default. Consulte Parâmetros de configuração do Spark compatíveis.
- No site compute configurado com o modo de acesso compartilhado, as leituras e gravações de Kafka lotes agora têm as mesmas limitações impostas que as documentadas para a transmissão estruturada. Consulte as limitações e os requisitos de transmissão para o modo de acesso padrão Unity Catalog.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma tabela materializada view ou de transmissão. Consulte SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtro sensível tabela uso de dados filtros de linha e máscaras de coluna. - [SPARK-46957][CORE] A desativação de arquivos shuffle migrados deve poder ser limpa a partir do executor
- [SPARK-48648][Python][CONNECT] Faça com que o SparkConnectClient.tags seja corretamente threadlocal
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do escritor do Spark ML
- [SPARK-48713][SQL] Adicionar verificação de intervalo de índice para UnsafeRow.pointTo quando baseObject for uma matriz de bytes
- [SPARK-48834][SQL] Desativar a entrada/saída de variantes para Python UDFs escalares, UDTFs, UDAFs durante a compilação da consulta
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [SPARK-48705][Python] Use explicitamente o trabalhador quando ele começar com PySpark
- [SPARK-48544][SQL] Reduzir a pressão da memória dos BitSets TreeNode vazios
- [SPARK-48889] [SS] TestStream para descarregar os armazenamentos de estado antes de terminar
- [SPARK-49054][SQL] O valor da coluna default deve ser compatível com as funções current_*
- [SPARK-48653][Python] Corrigir referências de classe de erro inválidas Python fonte de dados
- [SPARK-48463] Faça com que o StringIndexer suporte colunas de entrada aninhadas
- [SPARK-48810][CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido encerrada pelo servidor
- [SPARK-48873][SQL] Usar UnsafeRow no analisador JSON.
- Atualizações de segurança do sistema operacional.
- [Mudança radical] Em Databricks Runtime 15.3 e acima, chamar qualquer função definida pelo usuário Python (UDF), função agregada definida pelo usuário (UDAF) ou função de tabela definida pelo usuário (UDTF) que use um tipo
-
11 de julho de 2024
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
.checkpoint()
para manter o estado de uma tabela durante toda a vida útil de um DataFrame. - O driver JDBC da Snowflake foi atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que o ambiente Spark UI tab fosse exibido corretamente ao ser executado em Databricks Container Services.
- Para ignorar partições inválidas durante a leitura de dados, as fontes de dados baseadas em arquivos, como Parquet, ORC, CSV ou JSON, podem definir a opção ignoreInvalidPartitionPaths fonte de dados como true. Por exemplo: spark.read.format("Parquet").option("ignoreInvalidPartitionPaths", “verdadeiro”) .load (...) `. O senhor também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa em default.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Use o V2Predicate para envolver a expressão com o tipo de retorno Boolean
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48475][Python] Otimizar _get_jvm_function em PySpark.
- [SPARK-48286] Corrigir análise de coluna com existência de expressão default - Adicionar erro enfrentado pelo usuário
- [SPARK-48481][SQL][SS] Não aplicar o OptimizeOneRowPlan ao conjunto de dados de transmissão
- Reverter "[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME em MYSQLDialect"
- [SPARK-48383][SS] Lançar um erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48503][14.3-15.3][SQL] Corrija subconsultas escalares inválidas com group-by em colunas não equivalentes que foram permitidas incorretamente
- [SPARK-48445][SQL] Não inline UDFs com filhos caros
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48273][master][SQL] Corrigir a reescrita tardia do PlanWithUnresolvedIdentifier
- [SPARK-48566][Python] Corrigir o erro em que os índices de partição estão incorretos quando UDTF analyze() usa select e partitionColumns
- [SPARK-48556][SQL] Corrigir mensagem de erro incorreta apontando para UNSUPPORTED_GROUPING_EXPRESSION
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
Databricks Runtime 15.2
Consulte o Databricks Runtime 15.2 (EoS).
-
26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
-
5 de novembro de 2024
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
- [SPARK-48843] [15,3,15,2] Evite o loop infinito com bindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada para armazenamento do estado em transmissão-transmissão join (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade dos structs aninhados
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-46632][SQL] Corrige a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
-
22 de outubro de 2024
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
- [SPARK-48843] [15,3,15,2] Evite o loop infinito com bindParameters
- [SPARK-49829] Revisar a otimização na adição de entrada para armazenamento do estado em transmissão-transmissão join (correção de correção)
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade dos structs aninhados
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-46632][SQL] Corrige a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- Atualizações de segurança do sistema operacional.
-
10 de outubro de 2024
- [BACKPORT] [ SPARK-49474] [SS] Classificar classe de erro para erro de função de usuário FlatmapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos do esquema ao podar GetArrayStructFields
- [SPARK-49688] [CONNECT] Corrija uma corrida de dados entre interromper e executar o plano
- Atualizações de segurança do sistema operacional.
-
25 de setembro de 2024
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t", onde t é uma tabela vazia, expandindo RewriteDistinctAggregates
- [SPARK-48719][SQL] Corrige o erro de cálculo do RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [SPARK-49458][CONNECT][Python] Fornecer o ID da sessão do lado do servidor por meio do ReattachExecute
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão stateful antes de avaliar
- [SPARK-49492] [CONNECT] Tentativa de reconexão no ExecutionHolder inativo
- Atualizações de segurança do sistema operacional.
-
17 de setembro de 2024
- [SPARK-49336] [CONNECT] Limite o nível de aninhamento ao truncar uma mensagem protobuf
- [SPARK-49526] [CONNECT] Ofereça suporte a caminhos no estilo Windows no ArtifactManager
- [SPARK-49366] [CONNECT] Trate o nó Union como folha na resolução da coluna do dataframe
- [SPARK-43242] [CORE] Corrige o lançamento de 'Tipo inesperado de BlockId' no diagnóstico aleatório de corrupção
- [SPARK-49409][CONNECT] Ajuste o valor default de CONNECT_SESSION_PLAN_CACHE_SIZE
- Atualizações de segurança do sistema operacional.
-
29 de agosto de 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue lidar corretamente com null
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-48862][Python][CONNECT] Evite chamar
_proto_to_string
quando o nível INFO não estiver ativado - [SPARK-49263][CONNECT] Spark Cliente Connect Python: Tratar de forma consistente as opções de leitura de Dataframe Booleano
- [SPARK-49146][SS] Mover erros de asserção relacionados à falta de marca d'água em consultas de transmissão no modo append para a estrutura de erros
-
14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções no gravador/leitor do Backport ML
- [SPARK-48050][SS] registrar plano lógico na consulta começar
- [SPARK-48706][Python] Python UDF em funções de ordem superior não deve gerar erro interno
- [SPARK-48740][SQL] Erro de especificação de janela ausente antecipado
- [SPARK-49065][SQL] O rebaseamento em formatadores/parsers legados deve ser compatível com fusos horários que não sejam JVM default
- [SPARK-49047][Python][CONNECT] Truncar a mensagem para registro
-
1 de agosto de 2024
- Em serverless compute para Notebook e Job, o modo ANSI SQL é ativado por default. Consulte Parâmetros de configuração do Spark compatíveis.
- No site compute configurado com o modo de acesso compartilhado, as leituras e gravações de Kafka lotes agora têm as mesmas limitações impostas que as documentadas para a transmissão estruturada. Consulte as limitações e os requisitos de transmissão para o modo de acesso padrão Unity Catalog.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma tabela materializada view ou de transmissão. Consulte SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtro sensível tabela uso de dados filtros de linha e máscaras de coluna. - [SPARK-48705][Python] Use explicitamente o trabalhador quando ele começar com PySpark
- [SPARK-48047][SQL] Reduzir a pressão de memória das tags TreeNode vazias
- [SPARK-48810][CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido encerrada pelo servidor
- [SPARK-48873][SQL] Usar UnsafeRow no analisador JSON.
- [SPARK-46957][CORE] A desativação de arquivos shuffle migrados deve poder ser limpa a partir do executor
- [SPARK-48889] [SS] TestStream para descarregar os armazenamentos de estado antes de terminar
- [SPARK-48713][SQL] Adicionar verificação de intervalo de índice para UnsafeRow.pointTo quando baseObject for uma matriz de bytes
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do escritor do Spark ML
- [SPARK-48544][SQL] Reduzir a pressão da memória dos BitSets TreeNode vazios
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [SPARK-48463] Faça com que o StringIndexer suporte colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
-
11 de julho de 2024
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
.checkpoint()
para manter o estado de uma tabela durante toda a vida útil de um DataFrame. - O driver JDBC da Snowflake foi atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que o ambiente Spark UI tab fosse exibido corretamente ao ser executado em Databricks Container Services.
- Em serverless Notebook e Job, o modo ANSI SQL será ativado por default e suportará nomes curtos
- Para ignorar partições inválidas durante a leitura de dados, as fontes de dados baseadas em arquivos, como Parquet, ORC, CSV ou JSON, podem definir a opção ignoreInvalidPartitionPaths fonte de dados como true. Por exemplo: spark.read.format("Parquet").option("ignoreInvalidPartitionPaths", “verdadeiro”) .load (...) `. O senhor também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa em default.
- [SPARK-48273][SQL] Corrigir a reescrita tardia do PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48286] Corrigir análise de coluna com existência de expressão default - Adicionar erro enfrentado pelo usuário
- [SPARK-48294][SQL] Manipular letras minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Corrigir mensagem de erro incorreta apontando para UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][Python][CONNECT] Faça com que o SparkConnectClient.tags seja corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48475][Python] Otimizar _get_jvm_function em PySpark.
- [SPARK-48566][Python] Corrigir o erro em que os índices de partição estão incorretos quando UDTF analyze() usa select e partitionColumns
- [SPARK-48481][SQL][SS] Não aplicar o OptimizeOneRowPlan ao conjunto de dados de transmissão
- [SPARK-47463][SQL] Use o V2Predicate para envolver a expressão com o tipo de retorno Boolean
- [SPARK-48383][SS] Lançar um erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48445][SQL] Não inline UDFs com filhos caros
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
-
17 de junho de 2024
applyInPandasWithState()
está disponível no clustering compartilhado.- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK lidava incorretamente com partições com structs.
- Corrigido um bug na função try_divide () em que entradas contendo decimais resultavam em exceções inesperadas.
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
- [SPARK-48276][Python][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48014][SQL] Altere o erro makeFromJava no EvaluatePython para um erro voltado para o usuário
- [SPARK-48016][SQL] Corrigir um bug na função try_divide quando com decimais
- [SPARK-47986][CONNECT][Python] Não é possível criar uma nova sessão quando a sessão default é fechada pelo servidor
- [SPARK-48173][SQL] O CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48056][CONNECT][Python] Reexecutar o plano se um erro SESSION_NOT_FOUND for gerado e nenhuma resposta parcial for recebida
- [SPARK-48172][SQL] Corrige problemas de escape no backport do JDBCDialects para a versão 15.2
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento do estado e o snapshotting
- [SPARK-48288] Adicionar tipo de dados de origem para a expressão de transmissão do conector
- [SPARK-48310][Python][CONNECT] As propriedades em cache devem retornar cópias
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT][Python] Não é possível criar uma nova sessão quando a sessão default é fechada pelo servidor
- Reverter "[SPARK-47406][SQL] Manipular TIMESTAMP e DATETIME em MYSQLDialect"
- [SPARK-47994][SQL] Corrigir bug com o filtro de coluna CASE WHEN no SQLServer
- [SPARK-47764][CORE][SQL] Limpar dependências de shuffle com base no ShuffleCleanupMode
- [SPARK-47921] [CONNECT] Corrige a criação de executeJobTag no ExecuteHolder
- [SPARK-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-48146][SQL] Corrigir função agregada na asserção filha da expressão With
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com argumento TABLE esquece os parênteses em torno de várias expressões PARTITION/ORDER BY
- Atualizações de segurança do sistema operacional.
Databricks Runtime 15.1
Consulte o Databricks Runtime 15.1 (EoS).
-
22 de outubro de 2024
- [SPARK-49863][SQL] Corrigir NormalizeFloatingNumbers para preservar a nulidade dos structs aninhados
- [SPARK-46632][SQL] Corrige a eliminação de subexpressões quando expressões ternárias equivalentes têm filhos diferentes
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
- [SPARK-49829] Revisar a otimização na adição de entrada para armazenamento do estado em transmissão-transmissão join (correção de correção)
- Atualizações de segurança do sistema operacional.
-
10 de outubro de 2024
- [SPARK-49688] [CONNECT] Corrija uma corrida de dados entre interromper e executar o plano
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos do esquema ao podar GetArrayStructFields
- [BACKPORT] [ SPARK-49474] [SS] Classificar classe de erro para erro de função de usuário FlatmapGroupsWithState
- Atualizações de segurança do sistema operacional.
-
25 de setembro de 2024
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão stateful antes de avaliar
- [SPARK-48719][SQL] Corrige o erro de cálculo do RegrSlope & RegrIntercept quando o primeiro parâmetro é nulo
- [SPARK-49492] [CONNECT] Tentativa de reconexão no ExecutionHolder inativo
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t", onde t é uma tabela vazia, expandindo RewriteDistinctAggregates
- [SPARK-49458][CONNECT][Python] Fornecer o ID da sessão do lado do servidor por meio do ReattachExecute
- Atualizações de segurança do sistema operacional.
-
17 de setembro de 2024
- [SPARK-49336] [CONNECT] Limite o nível de aninhamento ao truncar uma mensagem protobuf
- [SPARK-49526] [CONNECT] Ofereça suporte a caminhos no estilo Windows no ArtifactManager
- [SPARK-49409][CONNECT] Ajuste o valor default de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242] [CORE] Corrige o lançamento de 'Tipo inesperado de BlockId' no diagnóstico aleatório de corrupção
- [SPARK-49366] [CONNECT] Trate o nó Union como folha na resolução da coluna do dataframe
-
29 de agosto de 2024
- [SPARK-49263][CONNECT] Spark Cliente Connect Python: Tratar de forma consistente as opções de leitura de Dataframe Booleano
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue lidar corretamente com null
- [SPARK-48862][Python][CONNECT] Evite chamar
_proto_to_string
quando o nível INFO não estiver ativado - [SPARK-49146][SS] Mover erros de asserção relacionados à falta de marca d'água em consultas de transmissão no modo append para a estrutura de erros
-
14 de agosto de 2024
- [SPARK-48941][SPARK-48970] Correções no gravador/leitor do Backport ML
- [SPARK-48050][SS] registrar plano lógico na consulta começar
- [SPARK-48706][Python] Python UDF em funções de ordem superior não deve gerar erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebaseamento em formatadores/parsers legados deve ser compatível com fusos horários que não sejam JVM default
- [SPARK-49047][Python][CONNECT] Truncar a mensagem para registro
- [SPARK-48740][SQL] Erro de especificação de janela ausente antecipado
-
1 de agosto de 2024
- Em serverless compute para Notebook e Job, o modo ANSI SQL é ativado por default. Consulte Parâmetros de configuração do Spark compatíveis.
- No site compute configurado com o modo de acesso compartilhado, as leituras e gravações de Kafka lotes agora têm as mesmas limitações impostas que as documentadas para a transmissão estruturada. Consulte as limitações e os requisitos de transmissão para o modo de acesso padrão Unity Catalog.
- A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma tabela materializada view ou de transmissão. Consulte SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtro sensível tabela uso de dados filtros de linha e máscaras de coluna. - [SPARK-48544][SQL] Reduzir a pressão da memória dos BitSets TreeNode vazios
- [SPARK-46957][CORE] A desativação de arquivos shuffle migrados deve poder ser limpa a partir do executor
- [SPARK-47202][Python] Corrigir erro de digitação ao quebrar datetimes com tzinfo
- [SPARK-48713][SQL] Adicionar verificação de intervalo de índice para UnsafeRow.pointTo quando baseObject for uma matriz de bytes
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correções do escritor do Spark ML
- [SPARK-48810][CONNECT] A API Session stop() deve ser idempotente e não falhar se a sessão já tiver sido encerrada pelo servidor
- [SPARK-48873][SQL] Usar UnsafeRow no analisador JSON.
- [SPARK-48934][SS] Tipos de data e hora do Python convertidos incorretamente para definir o tempo limite em applyInPandasWithState
- [SPARK-48705][Python] Use explicitamente o trabalhador quando ele começar com PySpark
- [SPARK-48889] [SS] TestStream para descarregar os armazenamentos de estado antes de terminar
- [SPARK-48047][SQL] Reduzir a pressão de memória das tags TreeNode vazias
- [SPARK-48463] Faça com que o StringIndexer suporte colunas de entrada aninhadas
- Atualizações de segurança do sistema operacional.
-
11 de julho de 2024
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
.checkpoint()
para manter o estado de uma tabela durante toda a vida útil de um DataFrame. - O driver JDBC da Snowflake foi atualizado para a versão 3.16.1.
- Esta versão inclui uma correção para um problema que impedia que o ambiente Spark UI tab fosse exibido corretamente ao ser executado em Databricks Container Services.
- Em serverless compute para Notebook e Job, o modo ANSI SQL é ativado por default. Consulte Parâmetros de configuração do Spark compatíveis.
- Para ignorar partições inválidas durante a leitura de dados, as fontes de dados baseadas em arquivos, como Parquet, ORC, CSV ou JSON, podem definir a opção ignoreInvalidPartitionPaths fonte de dados como true. Por exemplo: spark.read.format("Parquet").option("ignoreInvalidPartitionPaths", “verdadeiro”) .load (...) `. O senhor também pode usar a configuração SQL spark.sql.files.ignoreInvalidPartitionPaths. No entanto, a opção fonte de dados tem precedência sobre a configuração SQL. Essa configuração é falsa em default.
- [SPARK-48383][SS] Lançar um erro melhor para partições incompatíveis na opção startOffset no Kafka
- [SPARK-48481][SQL][SS] Não aplicar o OptimizeOneRowPlan ao conjunto de dados de transmissão
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-47463][SQL] Use o V2Predicate para envolver a expressão com o tipo de retorno Boolean
- [SPARK-48445][SQL] Não inline UDFs com filhos caros
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48566][Python] Corrigir o erro em que os índices de partição estão incorretos quando UDTF analyze() usa select e partitionColumns
- [SPARK-48648][Python][CONNECT] Faça com que o SparkConnectClient.tags seja corretamente threadlocal
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48252][SQL] Atualizar CommonExpressionRef quando necessário
- [SPARK-48475][Python] Otimizar _get_jvm_function em PySpark.
- [SPARK-48294][SQL] Manipular letras minúsculas em nestedTypeMissingElementTypeError
- [SPARK-48286] Corrigir análise de coluna com existência de expressão default - Adicionar erro enfrentado pelo usuário
- [SPARK-47309][SQL] XML: Adicionar testes de inferência de esquema para tags de valor
- [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
- [SPARK-48273][SQL] Corrigir a reescrita tardia do PlanWithUnresolvedIdentifier
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
-
17 de junho de 2024
applyInPandasWithState()
está disponível no clustering compartilhado.- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK lidava incorretamente com partições com structs.
- [SPARK-48310][Python][CONNECT] As propriedades em cache devem retornar cópias
- [SPARK-48276][Python][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Limpar dependências de shuffle com base no ShuffleCleanupMode
- Atualizações de segurança do sistema operacional.
-
21 de maio de 2024
- Corrigido um bug na função try_divide () em que entradas contendo decimais resultavam em exceções inesperadas.
- [SPARK-48173][SQL] O CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48016][SQL] Corrigir um bug na função try_divide quando com decimais
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento do estado e o snapshotting
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
- [SPARK-48180][SQL] Melhorar o erro quando a chamada UDTF com argumento TABLE esquece os parênteses em torno de várias expressões PARTITION/ORDER BY
- [SPARK-48014][SQL] Altere o erro makeFromJava no EvaluatePython para um erro voltado para o usuário
- [SPARK-48056][CONNECT][Python] Reexecutar o plano se um erro SESSION_NOT_FOUND for gerado e nenhuma resposta parcial for recebida
- [SPARK-48146][SQL] Corrigir função agregada na asserção filha da expressão With
- [SPARK-47994][SQL] Corrigir bug com o filtro de coluna CASE WHEN no SQLServer
- Atualizações de segurança do sistema operacional.
-
9 de maio de 2024
- [SPARK-47543][CONNECT][Python] Inferindo dict como MapType de Pandas DataFrame para permitir a criação de DataFrame
- [SPARK-47739][SQL] registro lógico do tipo avro
- [SPARK-48044][Python][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47855] [CONNECT] Adicione
spark.sql.execution.arrow.pyspark.fallback.enabled
na lista não suportada - [SPARK-48010][SQL] Evite chamadas repetidas para conf.resolver em resolveExpression
- [SPARK-47941] [SS] [Conectar] Propagar erros de inicialização do ForeachBatch worker aos usuários para PySpark
- [SPARK-47819] [CONNECT][Cherry-pick-15.0] Use retorno de chamada assíncrono para limpeza de execução
- [SPARK-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-47839][SQL] Corrigir bug de agregação em RewriteWithExpression
- [SPARK-48018] [SS] Corrige o groupID nulo que causa erro de parâmetro ausente ao lançar KafkaException.couldNotReadOffsetRange
- [SPARK-47371] [SQL] XML: Ignorar tags de linha encontradas em CDATA
- [SPARK-47907][SQL] Colocar o bang em uma configuração
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-47973][CORE] local de chamada de registro em SparkContext.stop() e mais tarde em sparkContext.assertNotStopped ()
- [SPARK-47986][CONNECT][Python] Não é possível criar uma nova sessão quando a sessão default é fechada pelo servidor
- Atualizações de segurança do sistema operacional.
Databricks Runtime 15.0
Consulte Databricks Runtime 15.0 (EoS).
-
30 de maio de 2024
- (Mudança de comportamento ) O site
dbutils.widgets.getAll()
agora é compatível com a obtenção de todos os valores de widgets em um Notebook.
- (Mudança de comportamento ) O site
-
25 de abril de 2024
- [SPARK-47786] SELECT DISTINCT ( ) não deve se tornar SELECT DISTINCT struct () (reverter ao comportamento anterior)
- [SPARK-47802][SQL] Reverter ( ) do significado de struct( ) para o significado de *
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-47722] Aguarde até que o trabalho em segundo plano do RocksDB termine antes de fechar
- [SPARK-47081] [CONNECT][FOLLOW] Melhorando a usabilidade do Progress Handler
- [SPARK-47694] [CONNECT] Torne o tamanho máximo da mensagem configurável no lado do cliente
- [SPARK-47669][SQL][CONNECT][Python] Adicionar
Column.try_cast
- [SPARK-47664][Python][CONNECT][Cherry-pick-15.0] Validar o nome da coluna com o esquema em cache
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Introduzir o cache de planos no SparkConnectPlanner para melhorar o desempenho das solicitações de análise
- [SPARK-47704][SQL] JSON parsing fails with "java.lang.ClassCastException" when spark.sql.JSON.enablePartialResults is enabled
- [SPARK-47755] [CONNECT] O Pivot deve falhar quando o número de valores distintos é muito grande
- [SPARK-47713][SQL][CONNECT] Corrigir uma falha no autojoin
- [SPARK-47812][CONNECT] Suporte à serialização de SparkSession para ForEachBatch worker
- [SPARK-47828][CONNECT][Python]
DataFrameWriterV2.overwrite
falha com plano inválido - [SPARK-47862][Python][CONNECT]Corrigir a geração de arquivos proto
- [SPARK-47800][SQL] Criar novo método para conversão de identificador em tableIdentifier
- Atualizações de segurança do sistema operacional.
-
3 de abril de 2024
-
(Mudança de comportamento ) Para garantir um comportamento consistente em todos os tipos de compute, os UDFs PySpark em clustering compartilhado agora correspondem ao comportamento dos UDFs em clustering sem isolamento e atribuído. Essa atualização inclui as seguintes alterações que podem quebrar o código existente:
- UDFs com um tipo de retorno
string
não convertem mais implicitamente valores nãostring
em valoresstring
. Anteriormente, UDFs com um tipo de retornostr
agrupavam o valor de retorno com uma funçãostr()
, independentemente do tipo de dados real do valor retornado. - UDFs com tipos de retorno
timestamp
não aplicam mais implicitamente uma conversão paratimestamp
comtimezone
. - As configurações de clustering Spark
spark.databricks.sql.externalUDF.*
não se aplicam mais aos UDFs PySpark em clustering compartilhado. - A configuração de clustering
spark.databricks.safespark.externalUDF.plan.limit
do site Spark não afeta mais os UDFs do site PySpark, removendo a limitação do Public Preview de 5 UDFs por consulta para os UDFs do site PySpark. - A configuração de clustering Spark
spark.databricks.safespark.sandbox.size.default.mib
não se aplica mais aos UDFs PySpark em clustering compartilhado. Em vez disso, a memória disponível no sistema é usada. Para limitar a memória dos UDFs do PySpark, usespark.databricks.pyspark.udf.isolation.memoryLimit
com um valor mínimo de100m
.
- UDFs com um tipo de retorno
-
O tipo de dados
TimestampNTZ
agora é suportado como uma coluna de clustering com clustering líquido. Consulte Usar clustering líquido para tabelas Delta. -
[SPARK-47218][SQL] XML: Ignorar tags de linha comentadas no tokenizador XML
-
[SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por event-hubs
-
[SPARK-47033][SQL] Corrigir EXECUTE IMMEDIATE USING não reconhece nomes de variáveis de sessão
-
[SPARK-47368][SQL] Remover a verificação de configuração inferTimestampNTZ no ParquetRowConverter
-
[SPARK-47561][SQL] Corrige problemas de ordem de regras do analisador sobre Alias
-
[SPARK-47638] [PS] [CONNECT] Ignorar a validação do nome da coluna no PS
-
[SPARK-46906][BACKPORT][SS] Adicionar uma verificação de mudança de operador com estado para transmissão
-
[SPARK-47569][SQL] Não permite a comparação de variantes.
-
[SPARK-47241][SQL] Corrige problemas de ordem de regras para o ExtractGenerator
-
[SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
-
[SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador começar com dígitos -
[SPARK-47009][SQL][Collation] Habilitar suporte de criação de tabela para collation
-
[SPARK-47322][Python][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
withColumnsRenamed
consistente com owithColumnRenamed
-
[SPARK-47544][Python] SparkSession builder method is incompatible with visual studio code intellisense
-
[SPARK-47511][SQL] Canonicalize With expressions by re-assigning IDs
-
[SPARK-47385] Corrija codificadores de tupla com entradas Option.
-
[SPARK-47200][SS] Erro de classe para a função de usuário Foreach lotes sink
-
[SPARK-47135][SS] Implementar classes de erro para exceções de perda de dados do Kafka
-
[SPARK-38708][SQL] Atualize o cliente Hive metastore para a versão 3.1.3 para o Hive 3.1
-
[SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lotes e transmissão
-
[SPARK-47380][CONNECT] Certifique-se, no lado do servidor, de que a SparkSession é a mesma
-
Atualizações de segurança do sistema operacional.
-
Databricks Runtime 14.2
Consulte o Databricks Runtime 14.2 (EoS).
-
22 de outubro de 2024
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
- Atualizações de segurança do sistema operacional.
-
10 de outubro de 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos do esquema ao podar GetArrayStructFields
- [BACKPORT] [ SPARK-49474] [SS] Classificar classe de erro para erro de função de usuário FlatmapGroupsWithState
-
25 de setembro de 2024
- [SPARK-48719][SQL] Corrigir o erro de cálculo de `RegrS...
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão stateful antes de avaliar
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t", onde t é uma tabela vazia, expandindo RewriteDistinctAggregates
- [SPARK-43242] [CORE] Corrige o lançamento de 'Tipo inesperado de BlockId' no diagnóstico aleatório de corrupção
- [SPARK-46601] [CORE] Corrigir o erro log em handleStatusMessage
- Atualizações de segurança do sistema operacional.
-
17 de setembro de 2024
- [SPARK-49526] [CONNECT] Ofereça suporte a caminhos no estilo Windows no ArtifactManager
-
29 de agosto de 2024
- [SPARK-49263][CONNECT] Spark Cliente Connect Python: Tratar de forma consistente as opções de leitura de Dataframe Booleano
- [SPARK-49146][SS] Mover erros de asserção relacionados à falta de marca d'água em consultas de transmissão no modo append para a estrutura de erros
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue lidar corretamente com null
-
14 de agosto de 2024
- [SPARK-48050][SS] registrar plano lógico na consulta começar
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebaseamento em formatadores/parsers legados deve ser compatível com fusos horários que não sejam JVM default
- [SPARK-48706][Python] Python UDF em funções de ordem superior não deve gerar erro interno
-
1 de agosto de 2024
- Esta versão inclui uma correção de bug para as classes
ColumnVector
eColumnarArray
na interface Spark Java. Antes dessa correção, umArrayIndexOutOfBoundsException
poderia ser lançado ou dados incorretos retornados quando uma instância de uma dessas classes continha valoresnull
. - A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma tabela materializada view ou de transmissão. Consulte SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtro sensível tabela uso de dados filtros de linha e máscaras de coluna. - [SPARK-47202][Python] Corrigir erro de digitação ao quebrar datetimes com tzinfo
- [SPARK-48705][Python] Use explicitamente o trabalhador quando ele começar com PySpark
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as classes
-
11 de julho de 2024
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
.checkpoint()
para manter o estado de uma tabela durante toda a vida útil de um DataFrame. - O driver JDBC da Snowflake foi atualizado para a versão 3.16.1
- Esta versão inclui uma correção para um problema que impedia que o ambiente Spark UI tab fosse exibido corretamente ao ser executado em Databricks Container Services.
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48273][SQL] Corrigir a reescrita tardia do PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48481][SQL][SS] Não aplicar o OptimizeOneRowPlan ao conjunto de dados de transmissão
- [SPARK-48475][Python] Otimizar _get_jvm_function em PySpark.
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48445][SQL] Não inline UDFs com filhos caros
- [SPARK-48383][SS] Lançar um erro melhor para partições incompatíveis na opção startOffset no Kafka
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
-
17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK lidava incorretamente com partições com structs.
- [SPARK-48276][Python][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
-
21 de maio de 2024
- (Mudança de comportamento ) O site
dbutils.widgets.getAll()
agora é compatível com a obtenção de todos os valores de widgets em um Notebook. - [SPARK-48173][SQL] O CheckAnalysis deve ver todo o plano de consulta
- [SPARK-48197][SQL] Evitar erro de asserção para função lambda inválida
- [SPARK-47994][SQL] Corrigir bug com o filtro de coluna CASE WHEN no SQLServer
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento do estado e o snapshotting
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento ) O site
-
9 de maio de 2024
- [SPARK-48044][Python][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-47371] [SQL] XML: Ignorar tags de linha encontradas em CDATA
- [SPARK-47812][CONNECT] Suporte à serialização de SparkSession para ForEachBatch worker
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-47973][CORE] local de chamada de registro em SparkContext.stop() e mais tarde em sparkContext.assertNotStopped ()
- Atualizações de segurança do sistema operacional.
- [SPARK-48044][Python][CONNECT] Cache
-
25 de abril de 2024
- [SPARK-47704][SQL] JSON parsing fails with "java.lang.ClassCastException" when spark.sql.JSON.enablePartialResults is enabled
- [SPARK-47828][CONNECT][Python]
DataFrameWriterV2.overwrite
falha com plano inválido - Atualizações de segurança do sistema operacional.
-
11 de abril de 2024
- [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
- [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por event-hubs
- [SPARK-47638] [PS] [CONNECT] Ignorar a validação do nome da coluna no PS
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-38708][SQL] Atualize o cliente Hive metastore para a versão 3.1.3 para o Hive 3.1
- Atualizações de segurança do sistema operacional.
-
1 de abril de 2024
- [SPARK-47322][Python][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
withColumnsRenamed
consistente com owithColumnRenamed
- [SPARK-47385] Corrija codificadores de tupla com entradas Option.
- [SPARK-47070] Corrigir agregação inválida após a reescrita da subconsulta
- [SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lotes e transmissão
- [SPARK-47218][SQL] XML: Ignorar tags de linha comentadas no tokenizador XML
- Reverter “[SPARK-46861] [CORE] Evite o impasse no DagScheduler”
- [SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador começar com dígitos - [SPARK-47368][SQL] Remover a verificação de configuração inferTimestampNTZ no ParquetRowConverter
- Atualizações de segurança do sistema operacional.
- [SPARK-47322][Python][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
-
14 de março de 2024
- [SPARK-47035] [SS][CONNECT] Protocolo para ouvinte do lado do cliente
- [SPARK-47121] [CORE] Evite exceções de execução rejeitadas durante o desligamento do back-end do Standalone Scheduler
- [SPARK-47145][SQL] Passar identificador de tabela para a linha fonte de dados scan exec for V2 strategy.
- [SPARK-47176][SQL] Tenha uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [SPARK-47129][CONNECT][SQL] Fazer com que o
ResolveRelations
armazene corretamente o plano de conexão em cache - [SPARK-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
-
29 de fevereiro de 2024
- Foi corrigido um problema em que o uso de uma coleção local como fonte em um comando de mesclagem podia resultar em operações métricas numSourceRows que informavam o dobro do número correto de linhas.
- A criação de um esquema com um local definido agora exige que o usuário tenha os privilégios SELECT e MODIFY em QUALQUER ARQUIVO.
- Agora o senhor pode ingerir arquivos XML usando Autoloader, read_files, COPY INTO, DLT e DBSQL. O suporte a arquivos XML pode inferir e desenvolver automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD, oferecer suporte a expressões SQL como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se o senhor estava usando anteriormente o pacote externo spark-xml, consulte aqui para obter orientação sobre migração.
- [SPARK-46954][SQL] XML: Envolver InputStreamReader com BufferedReader
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na gravação
- [SPARK-46248][SQL] XML: Suporte para as opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-46954][SQL] XML: Otimizar a pesquisa do índice do esquema
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46993][SQL] Corrigir dobramento constante para variáveis de sessão
-
8 de fevereiro de 2024
- Não há suporte para consultas CDF (Change Data Feed) em Unity Catalog materialized view, e a tentativa de executar uma consulta CDF com uma Unity Catalog materialized view retorna um erro. Unity Catalog As tabelas de transmissão suportam consultas CDF em tabelas não
APPLY CHANGES
em Databricks Runtime 14.1 e posteriores. As consultas CDF não são compatíveis com as tabelas de transmissão Unity Catalog em Databricks Runtime 14.0 e anteriores. - [SPARK-46930] Adicionar suporte a um prefixo personalizado para campos do tipo Union na Avro.
- [SPARK-46822] Respeite spark.sql.legacy.charvarCharAsString ao converter o tipo JDBC em um tipo de catalisador no JDBC.
- [SPARK-46952] XML: limite o tamanho do registro corrompido.
- [SPARK-46644] Altere add e merge em SQLMetric para usar isZero.
- [SPARK-46861] Evite o impasse no DagScheduler.
- [SPARK-46794] Remova as subconsultas das restrições do LogicalRDD.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46933] Adicionar métricas de tempo de execução de consulta aos conectores que usam JDBCRDD.
- Atualizações de segurança do sistema operacional.
- Não há suporte para consultas CDF (Change Data Feed) em Unity Catalog materialized view, e a tentativa de executar uma consulta CDF com uma Unity Catalog materialized view retorna um erro. Unity Catalog As tabelas de transmissão suportam consultas CDF em tabelas não
-
31 de janeiro de 2024
- [SPARK-46382] XML: atualize o documento para
ignoreSurroundingSpaces
. - [SPARK-46382] XML: capture valores intercalados entre elementos.
- [SPARK-46763] Corrige falha de afirmação em replaceDeduplicateWithAggregate para atributos duplicados.
- Reverter [SPARK-46769] Refine a inferência do esquema relacionada ao carimbo de data/hora.
- [SPARK-46677] Corrija a resolução
dataframe["*"]
. - [SPARK-46382] XML: padrão ignoreSurroundingSpaces para true.
- [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
- [SPARK-45964] Remova o acessório sql privado no pacote XML e JSON sob o pacote catalyst.
- [SPARK-46581] Atualize o comentário sobre IsZero no AccumulatorV2.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alteração da API do HDFS para acessibilidade ao armazenamento em nuvem.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio pai-indeterminado, conforme determinado pela soma de verificação.
- [SPARK-46660] O ReattachExecute solicita atualizações da vitalidade do SessionHolder.
- [SPARK-46610] Criar tabela deve lançar uma exceção quando não houver valor para key nas opções.
- [SPARK-46383] Reduza o uso do driver heap reduzindo a vida útil de
TaskInfo.accumulables()
. - [SPARK-46769] Refine a inferência do esquema relacionada ao carimbo de data/hora.
- [SPARK-46684] Corrija cogroup.applyInPandas/arrow para passar argumentos corretamente.
- [SPARK-46676] DropDuplicatesWithinWatermark não deve falhar na canonização do plano.
- [SPARK-45962] Remova
treatEmptyValuesAsNulls
e use a opçãonullValue
em vez de XML. - [SPARK-46541] Corrigir a referência de coluna ambígua em self join.
- [SPARK-46599] XML: Use TypeCoercion.findTightestCommonType para verificação de compatibilidade.
- Atualizações de segurança do sistema operacional.
- [SPARK-46382] XML: atualize o documento para
-
17 de janeiro de 2024
- O nó
shuffle
do plano de explicação retornado por uma consulta Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um embaralhamento que faz parte de uma transmissão join. - Para evitar maior latência ao se comunicar pelo TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug do JDK JDK-8293562.
- [SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordem do dicto/mapa. - [SPARK-46538] Corrija o problema ambíguo de referência da coluna em
ALSModel.transform
. - [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou view não é encontrado.
- [SPARK-46484] Faça com que as funções auxiliares
resolveOperators
mantenham o ID do plano. - [SPARK-46394] Corrigir spark.catalog.listDatabases () problemas em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
é definido como verdadeiro. - [SPARK-46609] Evite a explosão exponencial no particionamento preservando o UnaryExecNode.
- [SPARK-46446] Desative subconsultas com OFFSET correlacionado para corrigir o erro de correção.
- [SPARK-46152] XML: adicione suporte a DecimalType na inferência do esquema XML.
- [SPARK-46602] Propagar
allowExisting
na criação de view quando o view/table não existir. - [SPARK-45814] Crie conversores de setas. Crie um lote de setas vazio chame close () para evitar vazamento de memória.
- [SPARK-46058] Adicione um sinalizador separado para PrivateKeyPassword.
- [SPARK-46132] Suporte key senha para a chave JKS para RPC SSL.
- [SPARK-46600] Mova o código compartilhado entre SQLConf e SQLapIconf para SQLAPIConfHelper.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para strings.
- [SPARK-46417] Não falhe ao chamar hive.getTable e throwException for false.
- [SPARK-46153] XML: adicione suporte ao TimestampNtzType.
- [SPARK-46056][BACKPORT] Corrigir Parquet vectorized read NPE com byteArrayDecimalType default value.
- [SPARK-46466] O leitor Parquet vetorizado nunca deve fazer rebase para ntz de registro de data e hora.
- [SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do ditado. - [SPARK-46036] Removendo a classe de erro da função raise_error.
- [SPARK-46294] Limpe a semântica do valor inicial versus zero.
- [SPARK-46173] Ignorando a chamada TrimAll durante a análise de data.
- [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46587] XML: corrija a conversão de números inteiros grandes em XSD.
- [SPARK-46396] A inferência de carimbo de data/hora não deve gerar exceção.
- [SPARK-46241] Corrija a rotina de tratamento de erros para que ela não caia na recursão infinita.
- [SPARK-46355] XML: feche o InputStreamReader ao concluir a leitura.
- [SPARK-46370] Correção de bug ao consultar a tabela após alterar o padrão da coluna.
- [SPARK-46265] As asserções no RPC AddArtifact tornam o cliente de conexão incompatível com o clustering mais antigo.
- [SPARK-46308] Proíba o tratamento recursivo de erros.
- [SPARK-46337] Faça com que
CTESubstitution
retenha oPLAN_ID_TAG
.
- O nó
-
14 de dezembro de 2023
- [SPARK-46141] Alterar default for spark.sql.legacy.ctePrecedencePolicy para CORRECTED.
- [SPARK-45730] Torne o recarregamento do X509 TrustManager Suite menos instável.
- [SPARK-45852] Lide normalmente com o erro de recursão durante o registro.
- [SPARK-45808] Melhor tratamento de erros para exceções de SQL.
- O grupo [SPARK-45920] por ordinal deve ser idempotente.
- Reverta “[SPARK-45649] Unifique a estrutura de preparação para
OffsetWindowFunctionFrame
”. - [SPARK-45733] Ofereça suporte a várias políticas de repetição.
- [SPARK-45509] Corrigir o comportamento de referência da coluna df para o Spark Connect.
- [SPARK-45655] Permita expressões não determinísticas dentro de AggregateFunctions no CollectMetrics.
- [SPARK-45905] O tipo menos comum entre os tipos decimais deve reter os dígitos integrais primeiro.
- [SPARK-45136] Melhore o ClosureCleaner com suporte de amonite.
- [SPARK-46255] Suporte a tipos complexos -> conversão de strings.
- [SPARK-45859] Tornar os objetos UDF em ml.functions preguiçosos.
- [SPARK-46028] Faça com que
Column.__getitem__
aceite a coluna de entrada. - [SPARK-45798] Afirme o ID da sessão do lado do servidor.
- [SPARK-45892] Validação do plano do otimizador de refatoração para dissociar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45844] Implemente a indiferenciação entre maiúsculas e minúsculas para XML.
- [SPARK-45770] Apresente o plano
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-44790] XML: implementação de to_xml e associações para Python, connect e SQL.
- [SPARK-45851] Suporte a várias políticas no cliente Scala.
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2023
- Instalado um novo pacote,
pyarrow-hotfix
, para corrigir uma vulnerabilidade de RCE do PyArrow. - Foi corrigido um problema em que o sublinhado escapado em
getColumns
operações originadas de clientes JDBC ou ODBC era interpretado erroneamente como curinga. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45852] O cliente Python para Spark Connect agora captura erros de recursão durante a conversão de texto.
- [SPARK-45808] Melhoria no tratamento de erros para exceções SQL.
- [SPARK-45920]
GROUP BY
ordinal is não substitui o ordinal. - Reverter [SPARK-45649].
- [SPARK-45733] Foi adicionado suporte para várias políticas de repetição.
- [SPARK-45509] Corrigido o comportamento de referência da coluna
df
para o Spark Connect. - [SPARK-45655] Permita expressões não determinísticas dentro de
AggregateFunctions
emCollectMetrics
. - [SPARK-45905] O tipo menos comum entre os tipos decimais agora retém os dígitos integrais primeiro.
- [SPARK-45136] Melhore
ClosureCleaner
com suporte de amonite. - [SPARK-45859] Tornou os objetos UDF em
ml.functions
preguiçosos. - [SPARK-46028]
Column.__getitem__
aceita colunas de entrada. - [SPARK-45798] Afirme o ID da sessão do lado do servidor.
- [SPARK-45892] Validação do plano do otimizador de refatoração para dissociar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45844] Implemente a indiferenciação entre maiúsculas e minúsculas para XML.
- [SPARK-45770] Resolução de coluna fixa com
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-44790] Adicionada a implementação
to_xml
e as ligações para Python, Spark Connect e SQL. - [SPARK-45851] Adicionado suporte a várias políticas no cliente Scala.
- Atualizações de segurança do sistema operacional.
- Instalado um novo pacote,
Databricks Runtime 14.1
Consulte o Databricks Runtime 14.1 (EoS).
-
10 de dezembro de 2024
- Atualizações de segurança do sistema operacional.
-
26 de novembro de 2024
- Atualizações de segurança do sistema operacional.
-
5 de novembro de 2024
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
-
22 de outubro de 2024
- [SPARK-49782][SQL] A regra ResolveDataFrameDropColumns resolve UnresolvedAttribute com saída filha
- [SPARK-49905] Use o ShuffleOrigin dedicado como operador com estado para evitar que o shuffle seja modificado a partir do AQE
-
10 de outubro de 2024
- [BACKPORT] [ SPARK-49474] [SS] Classificar classe de erro para erro de função de usuário FlatmapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr não deve alterar os campos do esquema ao podar GetArrayStructFields
- Atualizações de segurança do sistema operacional.
-
25 de setembro de 2024
- [SPARK-49628][SQL] ConstantFolding deve copiar a expressão stateful antes de avaliar
- [SPARK-43242] [CORE] Corrige o lançamento de 'Tipo inesperado de BlockId' no diagnóstico aleatório de corrupção
- [SPARK-48719][SQL] Corrigir o erro de cálculo de `RegrS...
- [SPARK-49000][SQL] Corrigir "select count(distinct 1) from t", onde t é uma tabela vazia, expandindo RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corrigir o erro log em handleStatusMessage
- Atualizações de segurança do sistema operacional.
-
17 de setembro de 2024
- [SPARK-49526] [CONNECT] Ofereça suporte a caminhos no estilo Windows no ArtifactManager
- Atualizações de segurança do sistema operacional.
-
29 de agosto de 2024
- [SPARK-49263][CONNECT] Spark Cliente Connect Python: Tratar de forma consistente as opções de leitura de Dataframe Booleano
- [SPARK-49056][SQL] ErrorClassesJsonReader não consegue lidar corretamente com null
-
14 de agosto de 2024
- [SPARK-48706][Python] Python UDF em funções de ordem superior não deve gerar erro interno
- [SPARK-48597][SQL] Introduzir um marcador para a propriedade isStreaming na representação de texto do plano lógico
- [SPARK-49065][SQL] O rebaseamento em formatadores/parsers legados deve ser compatível com fusos horários que não sejam JVM default
- [SPARK-48050][SS] registrar plano lógico na consulta começar
-
1 de agosto de 2024
- Esta versão inclui uma correção de bug para as classes
ColumnVector
eColumnarArray
na interface Spark Java. Antes dessa correção, umArrayIndexOutOfBoundsException
poderia ser lançado ou dados incorretos retornados quando uma instância de uma dessas classes continha valoresnull
. - A saída de uma instrução
SHOW CREATE TABLE
agora inclui todos os filtros de linha ou máscaras de coluna definidos em uma tabela materializada view ou de transmissão. Consulte SHOW CREATE TABLE. Para saber mais sobre filtros de linha e máscaras de coluna, consulte Filtro sensível tabela uso de dados filtros de linha e máscaras de coluna. - [SPARK-48705][Python] Use explicitamente o trabalhador quando ele começar com PySpark
- [SPARK-47202][Python] Corrigir erro de digitação ao quebrar datetimes com tzinfo
- Atualizações de segurança do sistema operacional.
- Esta versão inclui uma correção de bug para as classes
-
11 de julho de 2024
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
.checkpoint()
para manter o estado de uma tabela durante toda a vida útil de um DataFrame. - Esta versão inclui uma correção para um problema que impedia que o ambiente Spark UI tab fosse exibido corretamente ao ser executado em Databricks Container Services.
- [SPARK-48475][Python] Otimizar _get_jvm_function em PySpark.
- [SPARK-48445][SQL] Não inline UDFs com filhos caros
- [SPARK-48481][SQL][SS] Não aplicar o OptimizeOneRowPlan ao conjunto de dados de transmissão
- [SPARK-48292][CORE] Reverter [SPARK-39195][SQL] O Spark OutputCommitCoordinator deve abortar o estágio quando o arquivo confirmado não for consistente com o status da tarefa
- [SPARK-48503][SQL] Corrigir subconsultas escalares inválidas com group-by em colunas não equivalentes que eram incorretamente permitidas
- [SPARK-48273][SQL] Corrigir a reescrita tardia do PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Corrigir problemas ao ignorar campos de estrutura aninhada não selecionados no esquema
- [SPARK-48383][SS] Lançar um erro melhor para partições incompatíveis na opção startOffset no Kafka
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento ) Os DataFrames armazenados em cache em fontes de tabela Delta agora são invalidados se a tabela de origem for substituída. Essa alteração significa que todas as alterações de estado nas tabelas Delta agora invalidam os resultados em cache. Use o site
-
17 de junho de 2024
- Corrige um bug em que a otimização da janela de classificação usando o Photon TopK lidava incorretamente com partições com structs.
- [SPARK-48276][Python][CONNECT] Adicionar o método
__repr__
ausente paraSQLExpression
- [SPARK-48277] Melhorar a mensagem de erro para ErrorClassesJsonReader.getErrorMessage
- Atualizações de segurança do sistema operacional.
-
21 de maio de 2024
- (Mudança de comportamento ) O site
dbutils.widgets.getAll()
agora é compatível com a obtenção de todos os valores de widgets em um Notebook. - [SPARK-47994][SQL] Corrigir bug com o filtro de coluna CASE WHEN no SQLServer
- [SPARK-48105][SS] Corrigir a condição de corrida entre o descarregamento do armazenamento do estado e o snapshotting
- [SPARK-48173][SQL] O CheckAnalysis deve ver todo o plano de consulta
- Atualizações de segurança do sistema operacional.
- (Mudança de comportamento ) O site
-
9 de maio de 2024
- [SPARK-47371] [SQL] XML: Ignorar tags de linha encontradas em CDATA
- [SPARK-47895][SQL] group by all deve ser idempotente
- [SPARK-47956][SQL] Verificação de sanidade para referência de LCA não resolvida
- [SPARK-48044][Python][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47973][CORE] local de chamada de registro em SparkContext.stop() e mais tarde em sparkContext.assertNotStopped ()
- Atualizações de segurança do sistema operacional.
-
25 de abril de 2024
- [SPARK-47704][SQL] JSON parsing fails with "java.lang.ClassCastException" when spark.sql.JSON.enablePartialResults is enabled
- [SPARK-47828][CONNECT][Python]
DataFrameWriterV2.overwrite
falha com plano inválido - Atualizações de segurança do sistema operacional.
-
11 de abril de 2024
- [SPARK-47638] [PS] [CONNECT] Ignorar a validação do nome da coluna no PS
- [SPARK-38708][SQL] Atualize o cliente Hive metastore para a versão 3.1.3 para o Hive 3.1
- [SPARK-47309][SQL][XML] Adicionar testes unitários de inferência de esquema
- [SPARK-47509][SQL] Bloquear expressões de subconsulta em funções lambda e de ordem superior
- [SPARK-46990][SQL] Corrigir o carregamento de arquivos Avro vazios emitidos por event-hubs
- Atualizações de segurança do sistema operacional.
-
1 de abril de 2024
- [SPARK-47305][SQL] Corrigir o PruneFilters para marcar corretamente o sinalizador isStreaming do LocalRelation quando o plano tiver lotes e transmissão
- [SPARK-47218][SQL] XML: Ignorar tags de linha comentadas no tokenizador XML
- [SPARK-47300][SQL]
quoteIfNeeded
deve citar o identificador começar com dígitos - [SPARK-47368][SQL] Remover a verificação de configuração inferTimestampNTZ no ParquetRowConverter
- [SPARK-47070] Corrigir agregação inválida após a reescrita da subconsulta
- [SPARK-47322][Python][CONNECT] Tornar o tratamento de duplicação de nomes de colunas
withColumnsRenamed
consistente com owithColumnRenamed
- [SPARK-47300] Correção para DecomposerSuite
- [SPARK-47218] [SQL] XML: Alterado o SchemaOfXml para falhar no modo DROPMALFORMED
- [SPARK-47385] Corrija codificadores de tupla com entradas Option.
- Atualizações de segurança do sistema operacional.
-
14 de março de 2024
- [SPARK-47176][SQL] Tenha uma função auxiliar ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passar identificador de tabela para a linha fonte de dados scan exec for V2 strategy.
- [SPARK-47167][SQL] Adicionar classe concreta para relação anônima JDBC
- [SPARK-47129][CONNECT][SQL] Fazer com que o
ResolveRelations
armazene corretamente o plano de conexão em cache - Reverter “[SPARK-46861] [CORE] Evite o impasse no DagScheduler”
- [SPARK-47044][SQL] Adicionar consulta executada para fontes de dados externas JDBC para explicar a saída
- Atualizações de segurança do sistema operacional.
-
29 de fevereiro de 2024
- Foi corrigido um problema em que o uso de uma coleção local como fonte em um comando de mesclagem podia resultar em operações métricas numSourceRows que informavam o dobro do número correto de linhas.
- A criação de um esquema com um local definido agora exige que o usuário tenha os privilégios SELECT e MODIFY em QUALQUER ARQUIVO.
- Agora o senhor pode ingerir arquivos XML usando Autoloader, read_files, COPY INTO, DLT e DBSQL. O suporte a arquivos XML pode inferir e desenvolver automaticamente o esquema, resgatar dados com incompatibilidades de tipo, validar XML usando XSD, oferecer suporte a expressões SQL como from_xml, schema_of_xml e to_xml. Consulte Suporte a arquivos XML para obter mais detalhes. Se o senhor estava usando anteriormente o pacote externo spark-xml, consulte aqui para obter orientação sobre migração.
- [SPARK-46248][SQL] XML: Suporte para as opções ignoreCorruptFiles e ignoreMissingFiles
- [SPARK-47059][SQL] Anexar contexto de erro para o comando ALTER COLUMN v1
- [SPARK-46954][SQL] XML: Envolver InputStreamReader com BufferedReader
- [SPARK-46954][SQL] XML: Otimizar a pesquisa do índice do esquema
- [SPARK-46630][SQL] XML: Validar o nome do elemento XML na gravação
- Atualizações de segurança do sistema operacional.
-
8 de fevereiro de 2024
- Não há suporte para consultas CDF (Change Data Feed) em Unity Catalog materialized view, e a tentativa de executar uma consulta CDF com uma Unity Catalog materialized view retorna um erro. Unity Catalog As tabelas de transmissão suportam consultas CDF em tabelas não
APPLY CHANGES
em Databricks Runtime 14.1 e posteriores. As consultas CDF não são compatíveis com as tabelas de transmissão Unity Catalog em Databricks Runtime 14.0 e anteriores. - [SPARK-46952] XML: limite o tamanho do registro corrompido.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio pai-indeterminado, conforme determinado pela soma de verificação.
- [SPARK-46794] Remova as subconsultas das restrições do LogicalRDD.
- [SPARK-46933] Adicionar métricas de tempo de execução de consulta aos conectores que usam JDBCRDD.
- [SPARK-46861] Evite o impasse no DagScheduler.
- [SPARK-45582] Certifique-se de que a instância de armazenamento não seja usada depois de chamar commit na agregação de transmissão do modo de saída.
- [SPARK-46930] Adicionar suporte a um prefixo personalizado para campos do tipo Union na Avro.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-46396] A inferência de carimbo de data/hora não deve gerar exceção.
- [SPARK-46822] Respeite spark.sql.legacy.charvarCharAsString ao converter o tipo JDBC em um tipo de catalisador no JDBC.
- [SPARK-45957] Evite gerar um plano de execução para um comando não executável.
- Atualizações de segurança do sistema operacional.
- Não há suporte para consultas CDF (Change Data Feed) em Unity Catalog materialized view, e a tentativa de executar uma consulta CDF com uma Unity Catalog materialized view retorna um erro. Unity Catalog As tabelas de transmissão suportam consultas CDF em tabelas não
-
31 de janeiro de 2024
- [SPARK-46684] Corrija cogroup.applyInPandas/arrow para passar argumentos corretamente.
- [SPARK-46763] Corrige falha de afirmação em replaceDeduplicateWithAggregate para atributos duplicados.
- [SPARK-45498] Acompanhamento: Ignorar a conclusão da tarefa de tentativas de estágios antigos.
- [SPARK-46382] XML: atualize o documento para
ignoreSurroundingSpaces
. - [SPARK-46383] Reduza o uso do driver heap reduzindo a vida útil de
TaskInfo.accumulables()
. - [SPARK-46382] XML: padrão ignoreSurroundingSpaces para true.
- [SPARK-46677] Corrija a resolução
dataframe["*"]
. - [SPARK-46676] DropDuplicatesWithinWatermark não deve falhar na canonização do plano.
- [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
- [SPARK-45912] Aprimoramento da API XSDToSchema: Alteração da API do HDFS para acessibilidade ao armazenamento em nuvem.
- [SPARK-46599] XML: Use TypeCoercion.findTightestCommonType para verificação de compatibilidade.
- [SPARK-46382] XML: capture valores intercalados entre elementos.
- [SPARK-46769] Refine a inferência do esquema relacionada ao carimbo de data/hora.
- [SPARK-46610] Criar tabela deve lançar uma exceção quando não houver valor para key nas opções.
- [SPARK-45964] Remova o acessório sql privado no pacote XML e JSON sob o pacote catalyst.
- Reverter [SPARK-46769] Refine a inferência do esquema relacionada ao carimbo de data/hora.
- [SPARK-45962] Remova
treatEmptyValuesAsNulls
e use a opçãonullValue
em vez de XML. - [SPARK-46541] Corrigir a referência de coluna ambígua em self join.
- Atualizações de segurança do sistema operacional.
-
17 de janeiro de 2024
- O nó
shuffle
do plano de explicação retornado por uma consulta Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um embaralhamento que faz parte de uma transmissão join. - Para evitar maior latência ao se comunicar pelo TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug do JDK JDK-8293562.
- [SPARK-46538] Corrija o problema ambíguo de referência da coluna em
ALSModel.transform
. - [SPARK-46417] Não falhe ao chamar hive.getTable e throwException for false.
- [SPARK-46484] Faça com que as funções auxiliares
resolveOperators
mantenham o ID do plano. - [SPARK-46153] XML: adicione suporte ao TimestampNtzType.
- [SPARK-46152] XML: adicione suporte a DecimalType na inferência do esquema XML.
- [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou view não é encontrado.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para strings.
- [SPARK-46394] Corrigir spark.catalog.listDatabases () problemas em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
é definido como verdadeiro. - [SPARK-46337] Faça com que
CTESubstitution
retenha oPLAN_ID_TAG
. - [SPARK-46466] O leitor Parquet vetorizado nunca deve fazer rebase para ntz de registro de data e hora.
- [SPARK-46587] XML: corrija a conversão de números inteiros grandes em XSD.
- [SPARK-45814] Crie conversores de setas. Crie um lote de setas vazio chame close () para evitar vazamento de memória.
- [SPARK-46132] Suporte key senha para a chave JKS para RPC SSL.
- [SPARK-46602] Propagar
allowExisting
na criação de view quando o view/table não existir. - [SPARK-46173] Ignorando a chamada TrimAll durante a análise de data.
- [SPARK-46355] XML: feche o InputStreamReader ao concluir a leitura.
- [SPARK-46600] Mova o código compartilhado entre SQLConf e SQLapIconf para SQLAPIConfHelper.
- [SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordem do dicto/mapa. - [SPARK-46056] Corrigir Parquet vectorized read NPE com byteArrayDecimalType default value.
- [SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do ditado. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-46370] Correção de bug ao consultar a tabela após alterar o padrão da coluna.
- [SPARK-46609] Evite a explosão exponencial no particionamento preservando o UnaryExecNode.
- [SPARK-46058] Adicione um sinalizador separado para PrivateKeyPassword.
- O nó
-
14 de dezembro de 2023
- Foi corrigido um problema em que o sublinhado escapado nas operações getColumns originadas de clientes JDBC ou ODBC era tratado incorretamente e interpretado como curinga.
- [SPARK-45509] Corrigir o comportamento de referência da coluna df para o Spark Connect.
- [SPARK-45844] Implemente a indiferenciação entre maiúsculas e minúsculas para XML.
- [SPARK-46141] Alterar default for spark.sql.legacy.ctePrecedencePolicy para CORRECTED.
- [SPARK-46028] Faça com que
Column.__getitem__
aceite a coluna de entrada. - [SPARK-46255] Suporte a tipos complexos -> conversão de strings.
- [SPARK-45655] Permita expressões não determinísticas dentro de AggregateFunctions no CollectMetrics.
- [SPARK-45433] Corrige a inferência do esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
- [SPARK-45316] Adicione novos parâmetros
ignoreCorruptFiles
/ignoreMissingFiles
aHadoopRDD
eNewHadoopRDD
. - [SPARK-45852] Lide normalmente com o erro de recursão durante o registro.
- O grupo [SPARK-45920] por ordinal deve ser idempotente.
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2023
- Instalado um novo pacote,
pyarrow-hotfix
, para corrigir uma vulnerabilidade de RCE do PyArrow. - Foi corrigido um problema em que o sublinhado escapado em
getColumns
operações originadas de clientes JDBC ou ODBC era interpretado erroneamente como curinga. - Ao ingerir CSV uso de dados Auto Loader ou tabelas de transmissão, os arquivos grandes CSV agora podem ser divididos e processados em paralelo durante a inferência do esquema e o processamento de dados.
- [SPARK-45892] Validação do plano do otimizador de refatoração para dissociar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45620] As APIs relacionadas ao Python UDF agora usam camelCase.
- [SPARK-44790] Adicionada a implementação
to_xml
e as ligações para Python, Spark Connect e SQL. - [SPARK-45770] Resolução de coluna fixa com
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-45859] Tornou os objetos UDF em
ml.functions
preguiçosos. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Tornou o teste do SBT hermético.
- Atualizações de segurança do sistema operacional.
- Instalado um novo pacote,
-
10 de novembro de 2023
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
após a criação. - [SPARK-45250] Adicionado suporte ao perfil de recurso de tarefa em nível de estágio para agrupamento de fios quando a alocação dinâmica está desativada.
- [SPARK-44753] Adicionado leitor e gravador de XML DataFrame para PySpark SQL.
- [SPARK-45396] Adicionada uma entrada de documento para o módulo
PySpark.ml.connect
. - [SPARK-45584] Corrigida a falha na execução de subconsultas com
TakeOrderedAndProjectExec
. - [SPARK-45541] Adicionado SSLFactory.
- [SPARK-45577] Corrigido o
UserDefinedPythonTableFunctionAnalyzeRunner
para passar valores dobrados de argumentos nomeados. - [SPARK-45562] Tornou o 'RowTag' uma opção obrigatória.
- [SPARK-45427] Adicionadas configurações de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-43380] Corrigida a lentidão na leitura do Avro.
- [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação SSL RPC.
- [SPARK-45386] Corrigido um problema em que
StorageLevel.NONE
retornava 0 incorretamente. - [SPARK-44219] Foram adicionadas verificações de validação por regra para regravações de otimização.
- [SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava um problema se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
- [SPARK-45545]
-
27 de setembro de 2023
- [SPARK-44823] Atualizou
black
para 23.9.1 e corrigiu a verificação incorreta. - [SPARK-45339] PySpark agora logs errors it retries.
- Reverta [SPARK-42946] Dados confidenciais editados aninhados sob substituições de variáveis.
- [SPARK-44551] Comentários editados para sincronizar com o OSS.
- [SPARK-45360] O construtor de sessões do Spark suporta a inicialização a partir de
SPARK_REMOTE
. - [SPARK-45279] Anexou
plan_id
a todos os planos lógicos. - [SPARK-45425] Mapeou
TINYINT
paraShortType
paraMsSqlServerDialect
. - [SPARK-45419] Foi removida a entrada do mapa da versão do arquivo de versões maiores para evitar a reutilização dos IDs do arquivo
rocksdb
sst. - [SPARK-45488] Foi adicionado suporte para valor no elemento
rowTag
. - [SPARK-42205] Removido o registro de
Accumulables
emTask/Stage
eventos de início emJsonProtocol
eventos logs. - [SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - [SPARK-45256]
DurationWriter
falha ao gravar mais valores do que a capacidade inicial. - [SPARK-43380] Corrigidos os problemas de conversão do tipo de dados
Avro
sem causar regressão no desempenho. - [SPARK-45182] Adicionado suporte para reverter o estágio do mapa de embaralhamento para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
- [SPARK-45399] Opções de XML adicionadas usando
newOption
. - Atualizações de segurança do sistema operacional.
- [SPARK-44823] Atualizou
Databricks Runtime 14.0
Consulte Databricks Runtime 14.0 (EoS).
-
8 de fevereiro de 2024
- [SPARK-46396] A inferência de carimbo de data/hora não deve gerar exceção.
- [SPARK-46794] Remova as subconsultas das restrições do LogicalRDD.
- [SPARK-45182] Ignorar a conclusão da tarefa do estágio antigo depois de tentar novamente o estágio pai-indeterminado, conforme determinado pela soma de verificação.
- [SPARK-46933] Adicionar métricas de tempo de execução de consulta aos conectores que usam JDBCRDD.
- [SPARK-45957] Evite gerar um plano de execução para um comando não executável.
- [SPARK-46861] Evite o impasse no DagScheduler.
- [SPARK-46930] Adicionar suporte a um prefixo personalizado para campos do tipo Union na Avro.
- [SPARK-46941] Não é possível inserir o nó de limite do grupo de janelas para computação top-k se contiver SizeBasedWindowFunction.
- [SPARK-45582] Certifique-se de que a instância de armazenamento não seja usada depois de chamar commit na agregação de transmissão do modo de saída.
- Atualizações de segurança do sistema operacional.
-
31 de janeiro de 2024
- [SPARK-46541] Corrigir a referência de coluna ambígua em self join.
- [SPARK-46676] DropDuplicatesWithinWatermark não deve falhar na canonização do plano.
- [SPARK-46769] Refine a inferência do esquema relacionada ao carimbo de data/hora.
- [SPARK-45498] Acompanhamento: Ignorar a conclusão da tarefa de tentativas de estágios antigos.
- Reverter [SPARK-46769] Refine a inferência do esquema relacionada ao carimbo de data/hora.
- [SPARK-46383] Reduza o uso do driver heap reduzindo a vida útil de
TaskInfo.accumulables()
. - [SPARK-46633] Corrigir o leitor Avro para lidar com blocos de comprimento zero.
- [SPARK-46677] Corrija a resolução
dataframe["*"]
. - [SPARK-46684] Corrija cogroup.applyInPandas/arrow para passar argumentos corretamente.
- [SPARK-46763] Corrige falha de afirmação em replaceDeduplicateWithAggregate para atributos duplicados.
- [SPARK-46610] Criar tabela deve lançar uma exceção quando não houver valor para key nas opções.
- Atualizações de segurança do sistema operacional.
-
17 de janeiro de 2024
- O nó
shuffle
do plano de explicação retornado por uma consulta Photon é atualizado para adicionar o sinalizadorcausedBroadcastJoinBuildOOM=true
quando ocorre um erro de falta de memória durante um embaralhamento que faz parte de uma transmissão join. - Para evitar maior latência ao se comunicar pelo TLSv1.3, esta versão de manutenção inclui um patch para a instalação do JDK 8 para corrigir o bug do JDK JDK-8293562.
- [SPARK-46394] Corrigir spark.catalog.listDatabases () problemas em esquemas com caracteres especiais quando
spark.sql.legacy.keepCommandOutputSchema
é definido como verdadeiro. - [SPARK-46250] Deflake test_parity_listener.
- [SPARK-45814] Crie conversores de setas. Crie um lote de setas vazio chame close () para evitar vazamento de memória.
- [SPARK-46173] Ignorando a chamada TrimAll durante a análise de data.
- [SPARK-46484] Faça com que as funções auxiliares
resolveOperators
mantenham o ID do plano. - [SPARK-46466] O leitor Parquet vetorizado nunca deve fazer rebase para ntz de registro de data e hora.
- [SPARK-46056] Corrigir Parquet vectorized read NPE com byteArrayDecimalType default value.
- [SPARK-46058] Adicione um sinalizador separado para PrivateKeyPassword.
- [SPARK-46478] Reverter SPARK-43049 para usar oracle varchar(255) para strings.
- [SPARK-46132] Suporte key senha para a chave JKS para RPC SSL.
- [SPARK-46417] Não falhe ao chamar hive.getTable e throwException for false.
- [SPARK-46261]
DataFrame.withColumnsRenamed
deve manter a ordem do dicto/mapa. - [SPARK-46370] Correção de bug ao consultar a tabela após alterar o padrão da coluna.
- [SPARK-46609] Evite a explosão exponencial no particionamento preservando o UnaryExecNode.
- [SPARK-46600] Mova o código compartilhado entre SQLConf e SQLapIconf para SQLAPIConfHelper.
- [SPARK-46538] Corrija o problema ambíguo de referência da coluna em
ALSModel.transform
. - [SPARK-46337] Faça com que
CTESubstitution
retenha oPLAN_ID_TAG
. - [SPARK-46602] Propagar
allowExisting
na criação de view quando o view/table não existir. - [SPARK-46260]
DataFrame.withColumnsRenamed
deve respeitar a ordem do ditado. - [SPARK-46145] spark.catalog.listTables não lança exceção quando a tabela ou view não é encontrado.
- O nó
-
14 de dezembro de 2023
- Foi corrigido um problema em que o sublinhado escapado nas operações getColumns originadas de clientes JDBC ou ODBC era tratado incorretamente e interpretado como curinga.
- [SPARK-46255] Suporte a tipos complexos -> conversão de strings.
- [SPARK-46028] Faça com que
Column.__getitem__
aceite a coluna de entrada. - O grupo [SPARK-45920] por ordinal deve ser idempotente.
- [SPARK-45433] Corrige a inferência do esquema CSV/JSON quando os carimbos de data/hora não correspondem ao timestampFormat especificado.
- [SPARK-45509] Corrigir o comportamento de referência da coluna df para o Spark Connect.
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2023
- Instalado um novo pacote,
pyarrow-hotfix
, para corrigir uma vulnerabilidade de RCE do PyArrow. - Foi corrigido um problema em que o sublinhado escapado em
getColumns
operações originadas de clientes JDBC ou ODBC era interpretado erroneamente como curinga. - Ao ingerir CSV uso de dados Auto Loader ou tabelas de transmissão, os arquivos grandes CSV agora podem ser divididos e processados em paralelo durante a inferência do esquema e o processamento de dados.
- O conector Spark-snowflake foi atualizado para a versão 2.12.0.
- [SPARK-45859] Tornou os objetos UDF em
ml.functions
preguiçosos. - Reverter [SPARK-45592].
- [SPARK-45892] Validação do plano do otimizador de refatoração para dissociar
validateSchemaOutput
evalidateExprIdUniqueness
. - [SPARK-45592] Corrigido o problema de correção no AQE com
InMemoryTableScanExec
. - [SPARK-45620] As APIs relacionadas ao Python UDF agora usam camelCase.
- [SPARK-44784] Tornou o teste do SBT hermético.
- [SPARK-45770] Resolução de coluna fixa com
DataFrameDropColumns
paraDataframe.drop
. - [SPARK-45544] Suporte SSL integrado em
TransportContext
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
- Instalado um novo pacote,
-
10 de novembro de 2023
- Alteradas as consultas de feed de dados nas tabelas de transmissão Unity Catalog e na visualização materializada para exibir mensagens de erro.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
após a criação. - [SPARK-45584] Corrigida a falha na execução de subconsultas com
TakeOrderedAndProjectExec
. - [SPARK-45427] Adicionadas configurações de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45541] Adicionado
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação SSL RPC.
- [SPARK-44219] Foram adicionadas validações extras por regra para regravações de otimização.
- [SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
gerava um erro se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
-
23 de outubro de 2023
- [SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - [SPARK-45396] Foi adicionada uma entrada de documento para o módulo
PySpark.ml.connect
e adicionouEvaluator
a__all__
emml.connect
. - [SPARK-45256] Corrigido um problema em que
DurationWriter
falhava ao gravar mais valores do que a capacidade inicial. - [SPARK-45279] Anexou
plan_id
a todos os planos lógicos. - [SPARK-45250] Adicionado suporte ao perfil de recurso de tarefa em nível de estágio para agrupamento de fios quando a alocação dinâmica está desativada.
- [SPARK-45182] Adicionado suporte para reverter o estágio do mapa de embaralhamento para que todas as tarefas do estágio possam ser repetidas quando a saída do estágio for indeterminada.
- [SPARK-45419] Evite reutilizar arquivos
rocksdb sst
em uma instânciarocksdb
diferente removendo as entradas do mapa da versão do arquivo de versões maiores. - [SPARK-45386] Corrigido um problema em que
StorageLevel.NONE
retornava 0 incorretamente. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Adicionado suporte para
-
13 de outubro de 2023
- A dependência do Snowflake-JDBC foi atualizada da versão 3.13.29 para a 3.13.33.
- A função
array_insert
é baseada em 1 para índices positivos e negativos, enquanto antes era baseada em 0 para índices negativos. Agora, ele insere um novo elemento no final das matrizes de entrada para o índice -1. Para restaurar o comportamento anterior, definaspark.sql.legacy.negativeIndexInArrayInsert
comotrue
. - O Databricks não ignora mais os arquivos corrompidos quando uma inferência de esquema CSV com o Auto Loader tiver ativado
ignoreCorruptFiles
. - [SPARK-45227] Corrigido um problema sutil de segurança de thread com
CoarseGrainedExecutorBackend
. - [SPARK-44658]
ShuffleStatus.getMapStatus
deve retornarNone
em vez deSome(null)
. - [SPARK-44910]
Encoders.bean
não oferece suporte a superclasses com argumentos de tipo genérico. - [SPARK-45346] A inferência do esquema Parquet respeita os sinalizadores que diferenciam maiúsculas de minúsculas ao mesclar o esquema.
- Reverter [SPARK-42946].
- [SPARK-42205] Atualizou o protocolo JSON para remover o registro de acumuláveis em uma tarefa ou eventos de início de estágio.
- [SPARK-45360] O construtor de sessões do Spark suporta a inicialização a partir de
SPARK_REMOTE
. - [SPARK-45316] Adicione novos parâmetros
ignoreCorruptFiles
/ignoreMissingFiles
aHadoopRDD
eNewHadoopRDD
. - [SPARK-44909] Ignore a execução do distribuidor de tochas log transmissão server quando ele não estiver disponível.
- [SPARK-45084]
StateOperatorProgress
agora usa um número de partição aleatório preciso. - [SPARK-45371] Corrigidos problemas de sombreamento no cliente Spark Connect Scala.
- [SPARK-45178] O senhor pode executar um único lotes para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - [SPARK-44840] Faça com base em
array_insert()
1 para índices negativos. - [SPARK-44551] Comentários editados para sincronizar com o OSS.
- [SPARK-45078] A função
ArrayInsert
agora faz conversão explícita quando o tipo de elemento não é igual ao tipo de componente derivado. - [SPARK-45339] PySpark agora logs erros de repetição.
- [SPARK-45057] Evite adquirir o bloqueio de leitura quando
keepReadLock
for falso. - [SPARK-44908] Foi corrigida a funcionalidade do parâmetro
foldCol
do validador cruzado. - Atualizações de segurança do sistema operacional.
Databricks Runtime 13.1
Consulte o Databricks Runtime 13.1 (EoS).
-
29 de novembro de 2023
- Foi corrigido um problema em que o sublinhado escapado em
getColumns
operações originadas de clientes JDBC ou ODBC era interpretado erroneamente como curinga. - [SPARK-44846] Expressões de agrupamento complexas removidas após
RemoveRedundantAggregates
. - [SPARK-43802] Corrigido um problema em que o codegen para expressões unhex e unbase64 falhava.
- [SPARK-43718] Corrigida a nulidade da chave em
USING
join. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que o sublinhado escapado em
-
14 de novembro de 2023
- Os filtros de partição nas consultas de transmissão Delta Lake são reduzidos antes da limitação da taxa para obter melhor utilização.
- Alteradas as consultas de feed de dados nas tabelas de transmissão Unity Catalog e na visualização materializada para exibir mensagens de erro.
- [SPARK-45584] Corrigida a falha na execução de subconsultas com
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45543] Corrigido um problema em que
InferWindowGroupLimit
causava um problema se as outras funções de janela não tivessem a mesma moldura de janela que as funções de classificação. - Atualizações de segurança do sistema operacional.
-
24 de outubro de 2023
- [SPARK-43799] Adicionada opção binária de descritor à API do PySpark
Protobuf
. - Reverter [SPARK-42946].
- [SPARK-45346] A inferência do esquema Parquet agora respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
- [SPARK-43799] Adicionada opção binária de descritor à API do PySpark
-
13 de outubro de 2023
- A dependência do Snowflake-JDBC foi atualizada da versão 3.13.29 para a 3.13.33.
- Não é mais possível ignorar arquivos corrompidos quando
ignoreCorruptFiles
está ativado durante a inferência do esquema CSV com o Auto Loader. - [SPARK-44658]
ShuffleStatus.getMapStatus
retornaNone
em vez deSome(null)
. - [SPARK-45178] O senhor pode executar um único lotes para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - [SPARK-42205] Atualizou o protocolo JSON para remover o registro de acumuláveis em uma tarefa ou eventos de início de estágio.
- Atualizações de segurança do sistema operacional.
-
12 de setembro de 2023
- [SPARK-44718] Corresponder
ColumnVector
memory-mode config default aOffHeapMemoryMode
config value. - SPARK-44878 Desativou o limite estrito do gerenciador de gravação
RocksDB
para evitar a exceção de inserção no cache concluído. - Correções diversas.
- [SPARK-44718] Corresponder
-
30 de agosto de 2023
- [SPARK-44871] Corrigido o comportamento de `percentile_disc.
- [SPARK-44714] Facilite a restrição da resolução de LCA em relação a consultas.
- [SPARK-44245] Os testes de documentação
PySpark.sql.dataframe sample()
agora são apenas ilustrativos. - [SPARK-44818] Corrida corrigida para interrupção de tarefa pendente emitida antes da inicialização do site
taskThread
. - Atualizações de segurança do sistema operacional.
-
15 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44643] Corrigido
Row.__repr__
quando a linha estava vazia. - [SPARK-44504] A tarefa de manutenção agora limpa os provedores carregados em caso de erro de parada.
- [SPARK-44479] Corrigida a conversão
protobuf
de um tipo de estrutura vazio. - [SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
para gerar linhas que tinhamNull
como o valor da primeira coluna. - Correções diversas.
- [SPARK-44485]
-
27 de julho de 2023
- Foi corrigido um problema em que o site
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciar. - [SPARK-44199] O site
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - [SPARK-44448] Corrigido o erro de resultados de
DenseRankLimitIterator
eInferWindowGroupLimit
. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que o site
-
24 de julho de 2023
- Reverter [SPARK-42323].
- [SPARK-41848] Corrigido o problema de excesso de programação da tarefa com
TaskResourceProfile
. - [SPARK-44136] Corrigido um problema em que o site
StateManager
era materializado em um executor em vez do driver emFlatMapGroupsWithStateExec
. - [SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. - Atualizações de segurança do sistema operacional.
-
27 de junho de 2023
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - O analisador JSON no modo
failOnUnknownFields
agora descarta o registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- O campo de atributos
PubSubRecord
é armazenado como JSON em vez das cadeias de caracteres de um mapa Scala para uma serialização e desserialização mais simples. - O comando
EXPLAIN EXTENDED
agora retorna a elegibilidade do cache de resultados da consulta. - Melhore o desempenho das atualizações incrementais com
SHALLOW CLONE
Iceberg e Parquet. - [SPARK-43032] Correção de bug do Python SQM.
- [SPARK-43404]Ignore a reutilização do arquivo sst para a mesma versão do RocksDB armazenamento do estado para evitar o erro de incompatibilidade de ID.
- [SPARK-43340] Manipule o campo stack-trace ausente nos registros de eventos.
- [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43541] Propague todas as tags
Project
na resolução de expressões e colunas ausentes. - [SPARK-43300]
NonFateSharingCache
wrapper para o Guava Cache. - [SPARK-43378] Feche corretamente os objetos de transmissão em
deserializeFromChunkedBuffer
. - [SPARK-42852] Reverta as alterações relacionadas ao
NamedLambdaVariable
deEquivalentExpressions
. - [SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. - [SPARK-43413] Corrige a nulidade da subconsulta
IN
ListQuery
. - [SPARK-43889] Adicione a verificação do nome da coluna para
__dir__()
para filtrar nomes de colunas propensos a erros. - [SPARK-43043] Melhorou o desempenho do
MapOutputTracker
.updateMapOutput - [SPARK-43522] Corrigida a criação do nome da coluna de estrutura com o índice da matriz.
- [SPARK-43457] Agente de usuário de aumente com as versões do sistema operacional, Python e Spark.
- [SPARK-43286] Atualizado o modo
aes_encrypt
CBC para gerar IVs aleatórios. - [SPARK-42851] Proteja
EquivalentExpressions.addExpr()
comsupportedExpression()
. - Reverter [SPARK-43183].
- Atualizações de segurança do sistema operacional.
- Fotonizado
Databricks Runtime 12.2 LTS
Consulte Databricks Runtime 12.2 LTS.
-
29 de novembro de 2023
- Foi corrigido um problema em que o sublinhado escapado em
getColumns
operações originadas de clientes JDBC ou ODBC era interpretado erroneamente como curinga. - [SPARK-42205] Removido o registro de acumuláveis nos eventos
Stage
eTask
começar. - [SPARK-44846] Expressões de agrupamento complexas removidas após
RemoveRedundantAggregates
. - [SPARK-43718] Corrigida a nulidade da chave em
USING
join. - [SPARK-45544] Suporte SSL integrado em
TransportContext
. - [SPARK-43973] A interface de transmissão estruturada agora exibe corretamente as consultas com falha.
- [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Tornou os objetos UDF em
ml.functions
preguiçosos. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que o sublinhado escapado em
-
14 de novembro de 2023
- Os filtros de partição nas consultas de transmissão Delta Lake são reduzidos antes da limitação da taxa para obter melhor utilização.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
após a criação. - [SPARK-45427] Adicionadas configurações de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45584] Corrigida a falha na execução de subconsultas com
TakeOrderedAndProjectExec
. - [SPARK-45541] Adicionado
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação SSL RPC.
- Atualizações de segurança do sistema operacional.
-
24 de outubro de 2023
- [SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
- [SPARK-45426] Adicionado suporte para
-
13 de outubro de 2023
- A dependência do Snowflake-JDBC foi atualizada da versão 3.13.29 para a 3.13.33.
- [SPARK-42553] Garanta pelo menos uma unidade de tempo após o intervalo.
- [SPARK-45346] A inferência do esquema Parquet respeita o sinalizador de distinção entre maiúsculas e minúsculas ao mesclar o esquema.
- [SPARK-45178] O senhor pode executar um único lotes para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - [SPARK-45084]
StateOperatorProgress
para usar um número de partição aleatório preciso e adequado.
-
12 de setembro de 2023
- [SPARK-44873] Adicionado suporte para
alter view
com colunas aninhadas no cliente Hive. - [SPARK-44718] Corresponder
ColumnVector
memory-mode config default aOffHeapMemoryMode
config value. - [SPARK-43799] Adicionada opção binária de descritor à API do PySpark
Protobuf
. - Correções diversas.
- [SPARK-44873] Adicionado suporte para
-
30 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44818] Corrida corrigida para interrupção de tarefa pendente emitida antes da inicialização do site
taskThread
. - [SPARK-44871] [11,3-13,0] Comportamento
percentile_disc
corrigido. - [SPARK-44714] Facilitou a restrição da resolução de LCA em relação a consultas.
- Atualizações de segurança do sistema operacional.
- [SPARK-44485]
-
15 de agosto de 2023
- [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
para gerar linhas que tinhamNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
-
29 de julho de 2023
- Foi corrigido um problema em que o site
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciar. - [SPARK-44199] O site
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que o site
-
24 de julho de 2023
- [SPARK-44337] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. - [SPARK-44136] Corrigido um problema em que o site
StateManager
era materializado em um executor em vez do driver emFlatMapGroupsWithStateExec
. - Atualizações de segurança do sistema operacional.
- [SPARK-44337] Corrigido um problema em que qualquer campo definido como
-
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- [SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. - [SPARK-43156][SPARK-43098] Teste de erro estendido de contagem de subconsultas escalares com
decorrelateInnerQuery
desativado. - Atualizações de segurança do sistema operacional.
- Fotonizado
-
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhore o desempenho das atualizações incrementais com
SHALLOW CLONE
Iceberg e Parquet. - Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignore a reutilização do arquivo sst para a mesma versão do RocksDB armazenamento do estado para evitar o erro de incompatibilidade de ID.
- [SPARK-43413] [11,3-13,0] Foi corrigida a nulidade da subconsulta
IN
ListQuery
. - [SPARK-43522] Corrigida a criação do nome da coluna de estrutura com o índice da matriz.
- [SPARK-43541] Propague todas as tags
Project
na resolução de expressões e colunas ausentes. - [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43123] Os metadados do campo interno não vazam mais para os catálogos.
- [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente nos registros de eventos.
- [SPARK-42444]
DataFrame.drop
agora manipula colunas duplicadas corretamente. - [SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como verdadeiro. - [SPARK-43286] Atualizado o modo
aes_encrypt
CBC para gerar IVs aleatórios. - [SPARK-43378] Feche corretamente os objetos de transmissão em
deserializeFromChunkedBuffer
.
- O analisador JSON no modo
-
17 de maio de 2023
-
Parquet As varreduras agora são robustas contra OOMs ao varrer arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho dos lotes. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho dos lotes e são reduzidos novamente nas novas tentativas de tarefa como uma rede de segurança final.
-
Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. -
O Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais os tipos
Integer
,Short
eByte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugerir um dos outros dois tipos.
- Lê corretamente e não resgata mais os tipos
-
- Evita a leitura de tipos de intervalo como tipos de carimbo de data ou hora para evitar datas corrompidas.
-
- Evita a leitura de tipos
Decimal
com menor precisão.
- Evita a leitura de tipos
-
[SPARK-43172] Expõe o host e os tokens do cliente de conexão Spark.
-
[SPARK-43293]
__qualified_access_only
é ignorado nas colunas normais. -
[SPARK-43098] Corrigido o erro
COUNT
de correção quando a subconsulta escalar é agrupada por cláusula. -
[SPARK-43085] Suporte para atribuição da coluna
DEFAULT
para nomes de tabelas com várias partes. -
[SPARK-43190]
ListQuery.childOutput
agora é consistente com a saída secundária. -
[SPARK-43192] Removida a validação do conjunto de caracteres do agente do usuário.
-
Atualizações de segurança do sistema operacional.
-
-
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que tivessem tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Auto Loader agora lê corretamente e não resgata mais os tipos
Integer
,Short
eByte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados resgatada estava habilitada anteriormente, a incompatibilidade do tipo de dados fazia com que as colunas fossem salvas mesmo que fossem legíveis. - [SPARK-43009]
sql()
parametrizado com constantesAny
- [SPARK-42406] Termine os campos recursivos do Protobuf eliminando o campo
- [SPARK-43038] Suporta o modo CBC em
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] Alteração para imprimir
workdir
seappDirs
for nulo quando worker manipular o eventoWorkDirCleanup
- [SPARK-43018] Correção de bug no comando INSERT com literais de carimbo de data/hora
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
-
11 de abril de 2023
- Suporte a formatos legados de fontes de dados no comando
SYNC
. - Corrige um problema no comportamento de %autoreload no Notebook fora de um repositório.
- Foi corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop infinito de falhas quando uma nova coluna era detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928] Torna o
resolvePersistentFunction
sincronizado. - [SPARK-42936] Corrige o problema de LCAN quando a cláusula pode ser resolvida diretamente por seu agregado secundário.
- [SPARK-42967] Corrige o site
SparkListenerTaskStart.stageAttemptId
quando uma tarefa começa depois que a etapa é cancelada. - Atualizações de segurança do sistema operacional.
- Suporte a formatos legados de fontes de dados no comando
-
29 de março de 2023
-
Databricks SQL agora suporta a especificação de valores default para colunas de tabelas Delta Lake, seja no momento da criação da tabela ou posteriormente. Os comandos
INSERT
,UPDATE
,DELETE
eMERGE
subsequentes podem fazer referência ao valor default de qualquer coluna usando a palavra-chave explícitaDEFAULT
. Além disso, se qualquer atribuiçãoINSERT
tiver uma lista explícita de menos colunas do que a tabela de destino, os valores correspondentes da coluna default serão substituídos pelas colunas restantes (ou NULL se nenhum default for especificado).Por exemplo:
SQLCREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
INSERT INTO t VALUES (0, DEFAULT);
INSERT INTO t VALUES (1, DEFAULT);
SELECT first, second FROM t;
\> 0, 2023-03-28
1, 2023-03-28z -
Auto Loader agora inicia pelo menos uma limpeza síncrona RocksDB log para a transmissão
Trigger.AvailableNow
para verificar se o ponto de verificação pode ser limpo regularmente para a transmissão Auto Loader de execução rápida. Isso pode fazer com que algumas transmissões demorem mais tempo antes de serem encerradas, mas o senhor economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras. -
Agora o senhor pode modificar uma tabela Delta para adicionar suporte à tabela recurso usando
DeltaTable.addFeatureSupport(feature_name)
. -
[SPARK-42794] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o RocksDB armazenamento do estado em Structure transmission
-
[SPARK-42521] Adicione NULLs para INSERTs com listas especificadas pelo usuário com menos colunas do que a tabela de destino
-
[SPARK-42702] [SPARK-42623]Suporta consulta parametrizada em subconsulta e CTE
-
[SPARK-42668] Exceção de captura ao tentar fechar a transmissão compactada na parada do HDFSStateStoreProvider
-
[SPARK-42403] O JsonProtocol deve lidar com JSON nulo. strings
-
-
8 de março de 2023
- A mensagem de erro “Falha na inicialização da configuração” foi aprimorada para fornecer mais contexto ao cliente.
- Há uma mudança de terminologia para adicionar recurso a uma tabela Delta usando a propriedade table. A sintaxe preferida agora é
'delta.feature.featureName'='supported'
em vez de'delta.feature.featureName'='enabled'
. Para fins de compatibilidade com versões anteriores, o uso de'delta.feature.featureName'='enabled'
ainda funciona e continuará funcionando. - A partir desta versão, é possível criar/substituir uma tabela com uma propriedade de tabela adicional
delta.ignoreProtocolDefaults
para ignorar as configurações de Spark relacionadas ao protocolo, o que inclui as versões de leitor e gravador de default e o recurso de tabela suportado por default. - [SPARK-42070] Altere o valor default do argumento da função Mask de -1 para NULL
- [SPARK-41793] Resultado incorreto para molduras de janelas definidas por uma cláusula de intervalo em decimais significativos
- [SPARK-42484] Melhor mensagem de erro do UnsafeRowUtils
- [SPARK-42516] Sempre capture a configuração do fuso horário da sessão ao criar a visualização
- [SPARK-42635] Corrija a expressão TimestampAdd.
- [SPARK-42622] Desativou a substituição em valores
- [SPARK-42534] Corrigir a cláusula de limite do DB2Dialect
- [SPARK-42121] Adicionar funções integradas de valor de tabela posexplode, posexplode_outer, json_tuple e stack
- [SPARK-42045] Modo ANSI SQL: Round/Bround deve retornar um erro em caso de estouro de número inteiro minúsculo/pequeno/significativo
- Atualizações de segurança do sistema operacional.
Databricks Runtime 11.3 LTS
Consulte o Databricks Runtime 11.3 LTS.
-
29 de novembro de 2023
- Foi corrigido um problema em que o sublinhado escapado em
getColumns
operações originadas de clientes JDBC ou ODBC era interpretado erroneamente como curinga. - [SPARK-43973] A interface de transmissão estruturada agora exibe corretamente as consultas com falha.
- [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-45544] Suporte SSL integrado em
TransportContext
. - [SPARK-45859] Tornou os objetos UDF em
ml.functions
preguiçosos. - [SPARK-43718] Corrigida a nulidade da chave em
USING
join. - [SPARK-44846] Expressões de agrupamento complexas removidas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que o sublinhado escapado em
-
14 de novembro de 2023
- Os filtros de partição nas consultas de transmissão Delta Lake são reduzidos antes da limitação da taxa para obter melhor utilização.
- [SPARK-42205] Removido o registro de acumuláveis nos eventos Stage e tarefa começar.
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
após a criação. - Reverter [SPARK-33861].
- [SPARK-45541] Adicionado
SSLFactory
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação SSL RPC.
- [SPARK-45584] Corrigida a falha na execução de subconsultas com
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
não falha mais quandoIGNORE NULLS
eoffset > rowCount
. - [SPARK-45427] Adicionadas configurações de RPC SSL para
SSLOptions
eSparkTransportConf
. - Atualizações de segurança do sistema operacional.
-
24 de outubro de 2023
- [SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Correções diversas.
- [SPARK-45426] Adicionado suporte para
-
13 de outubro de 2023
- A dependência do Snowflake-JDBC foi atualizada da versão 3.13.29 para a 3.13.33.
- [SPARK-45178] O senhor pode executar um único lotes para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - [SPARK-45084]
StateOperatorProgress
para usar um número de partição aleatório preciso e adequado. - [SPARK-45346] A inferência do esquema Parquet agora respeita o sinalizador que diferencia maiúsculas de minúsculas ao mesclar um esquema.
- Atualizações de segurança do sistema operacional.
-
10 de setembro de 2023
- Correções diversas.
-
30 de agosto de 2023
- [SPARK-44818] Corrida corrigida para interrupção de tarefa pendente emitida antes da inicialização do site
taskThread
. - [SPARK-44871] [11,3-13,0] Comportamento
percentile_disc
corrigido. - Atualizações de segurança do sistema operacional.
- [SPARK-44818] Corrida corrigida para interrupção de tarefa pendente emitida antes da inicialização do site
-
15 de agosto de 2023
- [SPARK-44485]
TreeNode.generateTreeString
otimizado. - [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44464] Corrigido
applyInPandasWithStatePythonRunner
para gerar linhas que tinhamNull
como o valor da primeira coluna. - Atualizações de segurança do sistema operacional.
- [SPARK-44485]
-
27 de julho de 2023
- Foi corrigido um problema em que o site
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciar. - [SPARK-44199] O site
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que o site
-
24 de julho de 2023
- [SPARK-44136] Foi corrigido um problema em que o StateManager pode ser materializado no executor em vez de no driver em FlatMapGroupsWithStateExec.
- Atualizações de segurança do sistema operacional.
-
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- [SPARK-43779]
ParseToDate
agora carregaEvalMode
no thread principal. - [SPARK-40862] Suporta subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Teste de bug estendido de contagem de subconsultas escalares com
decorrelateInnerQuery
desativado. - [SPARK-43098] Corrige o erro COUNT correto quando a subconsulta escalar tem uma cláusula group by
- Atualizações de segurança do sistema operacional.
- Fotonizado
-
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhore o desempenho das atualizações incrementais com
SHALLOW CLONE
Iceberg e Parquet. - Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404]Ignore a reutilização do arquivo sst para a mesma versão do RocksDB armazenamento do estado para evitar o erro de incompatibilidade de ID.
- [SPARK-43527] Corrigido
catalog.listCatalogs
no PySpark. - [SPARK-43413] [11,3-13,0] Foi corrigida a nulidade da subconsulta
IN
ListQuery
. - [SPARK-43340] Corrigido o campo de rastreamento de pilha ausente nos registros de eventos.
- O analisador JSON no modo
Databricks Runtime 10.4 LTS
Consulte o Databricks Runtime 10.4 LTS.
-
29 de novembro de 2023
- [SPARK-45544] Suporte SSL integrado em
TransportContext
. - [SPARK-45859] Tornou os objetos UDF em
ml.functions
preguiçosos. - [SPARK-43718] Corrigida a nulidade da chave em
USING
join. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Removido o registro de acumuláveis nos eventos Stage e tarefa começar.
- [SPARK-44846] Expressões de agrupamento complexas removidas após
RemoveRedundantAggregates
. - Atualizações de segurança do sistema operacional.
- [SPARK-45544] Suporte SSL integrado em
-
14 de novembro de 2023
- [SPARK-45541] Adicionado
SSLFactory
. - [SPARK-45545]
SparkTransportConf
herdaSSLOptions
após a criação. - [SPARK-45427] Adicionadas configurações de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45429] Adicionadas classes auxiliares para comunicação SSL RPC.
- [SPARK-45584] Corrigida a falha na execução de subconsultas com
TakeOrderedAndProjectExec
. - Reverter [SPARK-33861].
- Atualizações de segurança do sistema operacional.
- [SPARK-45541] Adicionado
-
24 de outubro de 2023
- [SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Adicionado suporte para
-
13 de outubro de 2023
- [SPARK-45084]
StateOperatorProgress
para usar um número de partição aleatório preciso e adequado. - [SPARK-45178] O senhor pode executar um único lotes para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - Atualizações de segurança do sistema operacional.
- [SPARK-45084]
-
10 de setembro de 2023
- Correções diversas.
-
30 de agosto de 2023
- [SPARK-44818] Corrida corrigida para interrupção de tarefa pendente emitida antes da inicialização do site
taskThread
. - Atualizações de segurança do sistema operacional.
- [SPARK-44818] Corrida corrigida para interrupção de tarefa pendente emitida antes da inicialização do site
-
15 de agosto de 2023
- [SPARK-44504] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-43973] A interface de transmissão estruturada agora aparece corretamente nas consultas com falha.
- Atualizações de segurança do sistema operacional.
-
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- [SPARK-43098] Corrige o erro COUNT correto quando a subconsulta escalar tem uma cláusula group by
- [SPARK-40862] Suporta subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Teste
decorrelateInnerQuery
estendido de contagem de subconsultas escalares com desativado. - Atualizações de segurança do sistema operacional.
-
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Foi corrigido um problema na análise de dados resgatados do JSON para evitar
UnknownFieldException
. - Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404] Ignore a reutilização do arquivo sst para a mesma versão do RocksDB armazenamento do estado para evitar o erro de incompatibilidade de ID.
- [SPARK-43413] Corrigida a nulidade da subconsulta
IN
ListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
-
17 de maio de 2023
- Parquet As varreduras agora são robustas contra OOMs ao varrer arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho dos lotes. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho dos lotes e são reduzidos novamente nas novas tentativas de tarefa como uma rede de segurança final.
- [SPARK-41520] Divida o padrão de árvore
AND_OR
para separarAND
eOR
. - [SPARK-43190]
ListQuery.childOutput
agora é consistente com a saída secundária. - Atualizações de segurança do sistema operacional.
-
25 de abril de 2023
- [SPARK-42928] Torne
resolvePersistentFunction
sincronizado. - Atualizações de segurança do sistema operacional.
- [SPARK-42928] Torne
-
11 de abril de 2023
- Foi corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop infinito de falhas quando uma nova coluna era detectada no esquema de um objeto JSON aninhado.
- [SPARK-42937]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como verdadeiro. - [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que a etapa é cancelada.
-
29 de março de 2023
- [SPARK-42668] Exceção de captura ao tentar fechar a transmissão compactada na parada do HDFSStateStoreProvider
- [SPARK-42635] Corrija o...
- Atualizações de segurança do sistema operacional.
-
14 de março de 2023
- [SPARK-41162] Corrigir anti e semi-join para autojoin com agregações
- [SPARK-33206] Corrige o cálculo do peso do cache do índice aleatório para pequenos arquivos de índice
- [SPARK-42484] Melhorou a mensagem de erro
UnsafeRowUtils
- Correções diversas.
-
28 de fevereiro de 2023
- Suporte a coluna gerada para YYYY-MM-DD date_format. Essa alteração oferece suporte à remoção de partições para YYYY-MM-dd como um formato de data nas colunas geradas.
- Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ser bem-sucedido, o recurso de tabela listado no protocolo das tabelas deve ser compatível com a versão atual do site Databricks Runtime.
- Suporte a coluna gerada para YYYY-MM-DD date_format. Essa alteração oferece suporte à remoção de partições para YYYY-MM-dd como um formato de data nas colunas geradas.
- Atualizações de segurança do sistema operacional.
-
16 de fevereiro de 2023
- [SPARK-30220] Habilitar o uso de subconsultas Exists/In fora do nó Filtro
- Atualizações de segurança do sistema operacional.
-
31 de janeiro de 2023
- Os tipos de tabelas de JDBC agora são EXTERNOS por default.
-
18 de janeiro de 2023
- O conector do Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna não contém caracteres válidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Clear write lotes after RocksDB armazenamento do estado's commit
- [SPARK-41199] Corrige o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são usadas em conjunto
- [SPARK-41198] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1
- [SPARK-41339] Fechar e recriar RocksDB escrever lotes em vez de apenas limpar
- [SPARK-41732] Aplique a poda baseada em padrões de árvores para a regra SessionWindowing
- Atualizações de segurança do sistema operacional.
- O conector do Azure Synapse retorna uma mensagem de erro mais descritiva quando um nome de coluna não contém caracteres válidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
-
29 de novembro de 2022
-
Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever o uso de dados no conector Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaços em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco inicial dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove o espaço em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.
-
Foi corrigido um problema com a análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou estava definido comofalse
) e o JSON continha objetos aninhados. -
Atualizações de segurança do sistema operacional.
-
-
15 de novembro de 2022
- Atualização do Apache commons-text para a versão 1.10.0.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado pelo site default para preservar o comportamento original. - [SPARK-40292] Corrige nomes de colunas na função
arrays_zip
quando matrizes são referenciadas a partir de estruturas aninhadas - Atualizações de segurança do sistema operacional.
-
1 de novembro de 2022
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desativado nessa tabela, os dados dessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Foi corrigido um problema com o site Auto Loader em que um arquivo podia ser duplicado nos mesmos microlotes quando
allowOverwrites
estava ativado - [SPARK-40697] Adicionar preenchimento de caracteres no lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596] Preencha ExecutorDecommissionInfo com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
-
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- [SPARK-40468] Corrige a poda de colunas em CSV quando
_corrupt_record
é selecionado. - Atualizações de segurança do sistema operacional.
- [SPARK-40468] Corrige a poda de colunas em CSV quando
-
22 de setembro de 2022
- Os usuários podem definir spark.conf.set (
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) para reativar a listagem integrada do Auto Loader no ADLS Gen2. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes. - [SPARK-40315] Adicionar hashCode () para literal de ArrayBasedMapData
- [SPARK-40213] Suporta conversão de valor ASCII para caracteres latino-1
- [SPARK-40380] Corrija o dobramento constante do InvokeLike para evitar literais não serializáveis incorporados ao plano
- [SPARK-38404] Melhore a resolução de CTE quando um CTE aninhado faz referência a um CTE externo
- [SPARK-40089] Corrige a classificação para alguns tipos decimais
- [SPARK-39887] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção exclusiva
- Os usuários podem definir spark.conf.set (
-
6 de setembro de 2022
- [SPARK-40235] Usar bloqueio interruptível em vez de sincronizado em executor.updateDependencies()
- [SPARK-40218] GROUPING SETS devem preservar as colunas de agrupamento
- [SPARK-39976] ArrayIntersect deve manipular null na expressão à esquerda corretamente
- [SPARK-40053] Adicionar
assume
aos casos de cancelamento dinâmico que exigem o ambiente de tempo de execução do Python - [SPARK-35542] Correção: o Bucketizer criado para várias colunas com os parâmetros SplitsArray, InputCols e OutputCols não pode ser carregado depois de salvá-lo
- [SPARK-40079] Adicionar validação Imputer InputCols para caixa de entrada vazia
-
24 de agosto de 2022
- [SPARK-39983] Não armazene relações de transmissão não serializadas no driver
- [SPARK-39775] Desativar a validação dos valores de default ao analisar os esquemas de Avro
- [SPARK-39962] Aplicar projeção quando os atributos do grupo estão vazios
- [SPARK-37643] quando charvarCharAsString é verdadeiro, para o tipo de dados char, a consulta de predicado deve ignorar a regra de preenchimento
- Atualizações de segurança do sistema operacional.
-
9 de agosto de 2022
- [SPARK-39847] Corrige a condição de corrida em RocksDBloader.loadLibrary () se o thread do chamador for interrompido
- [SPARK-39731] Corrigir problema em CSV e JSON fonte de dados ao analisar datas no formato "yyyyMMdd" com a política de análise de tempo CORRIGIDA
- Atualizações de segurança do sistema operacional.
-
27 de julho de 2022
- [SPARK-39625] Adicionar dataset.as(StructType)
- [SPARK-39689]Suporte a 2 caracteres
lineSep
em CSV fonte de dados - [SPARK-39104] InMemoryRelation #isCachedColumnBuffersLoaded deve ser seguro para threads
- [SPARK-39570] A tabela embutida deve permitir expressões com alias
- [SPARK-39702] Reduza a sobrecarga de memória do TransportCipher$encryptedMessage usando um ByteRawChannel compartilhado
- [SPARK-39575] Adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer
- [SPARK-39476] Desative a otimização de conversão Unwrap ao transmitir de Long para Float/Double ou de Integer para Float
- [SPARK-38868] Não propaga exceções do predicado de filtro ao otimizar a junção externa
- Atualizações de segurança do sistema operacional.
-
20 de julho de 2022
- Tornar os resultados das operações de mesclagem do Delta consistentes quando a fonte não for determinística.
- [SPARK-39355] Uma única coluna usa aspas para construir UnresolvedAttribute
- [SPARK-39548] O comando CreateView com uma consulta de cláusula de janela pressiona um problema de definição de janela incorreta não encontrada
- [SPARK-39419] Corrija ArraySort para lançar uma exceção quando o comparador retornar nulo
- Desativou o uso do Auto Loaderda nuvem integrada APIs para a listagem de diretórios em Azure.
- Atualizações de segurança do sistema operacional.
-
5 de julho de 2022
- [SPARK-39376] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta da união NATURAL/USING
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2022
- [SPARK-39283] Corrige o impasse entre o TaskMemoryManager e o UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] O Spark não deve verificar os nomes dos campos ao ler arquivos
- [SPARK-34096] Melhorar o desempenho dos nth_value ignore nulls na janela de deslocamento
- [SPARK-36718] Corrija a verificação
isExtractOnly
no CollapseProject
-
2 de junho de 2022
- [SPARK-39093] Evite erros de compilação de codegen ao dividir intervalos de ano-mês ou intervalos diurnos por uma integral
- [SPARK-38990] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
-
18 de maio de 2022
- Corrige um possível vazamento de memória integrado em Auto Loader.
- [SPARK-38918] A poda de colunas aninhadas deve filtrar atributos que não pertencem à relação atual
- [SPARK-37593] Reduzir o tamanho da página default em LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados
- [SPARK-39084] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador na conclusão da tarefa
- [SPARK-32268] Adicionar poda de coluna no InjectBloomFilter
- [SPARK-38974] Filtrar funções registradas com um determinado nome de banco de dados nas funções de lista
- [SPARK-38931] Criar diretório raiz do dfs para o RocksDBFileManager com um número desconhecido de chaves no primeiro ponto de verificação
- Atualizações de segurança do sistema operacional.
-
19 de abril de 2022
- Atualização do Java AWS SDK da versão 1.11.655 para a 1.12.1899.
- Foi corrigido um problema em que a biblioteca com escopo de Notebook não funcionava no trabalho de transmissão de lotes.
- [SPARK-38616] Mantenha o controle do texto da consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
-
6 de abril de 2022
-
As seguintes funções do Spark SQL agora estão disponíveis nesta versão:
timestampadd()
edateadd()
: Adiciona uma duração de tempo em uma unidade especificada a uma expressão de carimbo de data/hora.timestampdiff()
edatediff()
: Calcule a diferença de tempo entre duas expressões de carimbo de data/hora em uma unidade especificada.
-
Parquet-MR foi atualizado para 1.12.2
-
Suporte aprimorado para esquemas abrangentes em arquivos Parquet
-
[SPARK-38631] Usa implementação baseada em Java para descompactar em utils.unpack
-
[SPARK-38509] [SPARK-38481]Escolha três mudanças de
timestmapadd/diff
. -
[SPARK-38523] Correção referente à coluna de registro corrompida do CSV
-
[SPARK-38237] Permitir que
ClusteredDistribution
exija a chave clustering completa -
[SPARK-38437] Serialização leniente de data e hora da fonte de dados
-
[SPARK-38180] Permitir expressões otimizadas seguras em predicados de igualdade correlacionados
-
[SPARK-38155] Proibir agregação distinta em subconsultas laterais com predicados não suportados
-
Atualizações de segurança do sistema operacional.
-
Databricks Runtime 9.1 LTS
Consulte Databricks Runtime 9.1 LTS.
-
29 de novembro de 2023
- [SPARK-45859] Tornou os objetos UDF em
ml.functions
preguiçosos. - [SPARK-45544] Suporte SSL integrado em
TransportContext
. - [SPARK-45730] Restrições de tempo aprimoradas para
ReloadingX509TrustManagerSuite
. - Atualizações de segurança do sistema operacional.
- [SPARK-45859] Tornou os objetos UDF em
-
14 de novembro de 2023
- [SPARK-45545]
SparkTransportConf
herdaSSLOptions
após a criação. - [SPARK-45429] Adicionadas classes auxiliares para comunicação SSL RPC.
- [SPARK-45427] Adicionadas configurações de RPC SSL para
SSLOptions
eSparkTransportConf
. - [SPARK-45584] Corrigida a falha na execução de subconsultas com
TakeOrderedAndProjectExec
. - [SPARK-45541] Adicionado
SSLFactory
. - [SPARK-42205] Removido o registro de acumuláveis nos eventos Stage e tarefa começar.
- Atualizações de segurança do sistema operacional.
- [SPARK-45545]
-
24 de outubro de 2023
- [SPARK-45426] Adicionado suporte para
ReloadingX509TrustManager
. - Atualizações de segurança do sistema operacional.
- [SPARK-45426] Adicionado suporte para
-
13 de outubro de 2023
- Atualizações de segurança do sistema operacional.
-
10 de setembro de 2023
- Correções diversas.
-
30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
-
15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
-
23 de junho de 2023
- A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- [SPARK-43098] Corrige o erro COUNT correto quando a subconsulta escalar tem uma cláusula group by
- [SPARK-43156][SPARK-43098] Estenda o teste de bug da contagem de subconsultas escalares com
decorrelateInnerQuery
desativado. - [SPARK-40862] Suporta subconsultas não agregadas em RewriteCorrelatedScalarSubquery
- Atualizações de segurança do sistema operacional.
-
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Foi corrigido um problema na análise de dados resgatados do JSON para evitar
UnknownFieldException
. - Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-37520] Adicionar as funções de cadeias de caracteres
startswith()
eendswith()
- [SPARK-43413] Corrigida a nulidade da subconsulta
IN
ListQuery
. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
-
17 de maio de 2023
- Atualizações de segurança do sistema operacional.
-
25 de abril de 2023
- Atualizações de segurança do sistema operacional.
-
11 de abril de 2023
- Foi corrigido um problema em que a evolução do esquema do Auto Loader podia entrar em um loop infinito de falhas quando uma nova coluna era detectada no esquema de um objeto JSON aninhado.
- [SPARK-42967] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que a etapa é cancelada.
-
29 de março de 2023
- Atualizações de segurança do sistema operacional.
-
14 de março de 2023
- [SPARK-42484] Mensagem de erro aprimorada para
UnsafeRowUtils
. - Correções diversas.
- [SPARK-42484] Mensagem de erro aprimorada para
-
28 de fevereiro de 2023
- Os usuários agora podem ler e gravar tabelas Delta específicas que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 LTS ou posterior. Para ser bem-sucedido, o recurso de tabela listado no protocolo das tabelas deve ser compatível com a versão atual do site Databricks Runtime.
- Atualizações de segurança do sistema operacional.
-
16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
-
31 de janeiro de 2023
- Os tipos de tabelas de JDBC agora são EXTERNOS por default.
-
18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2022
- Foi corrigido um problema com a análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou estava definido comofalse
) e o JSON continha objetos aninhados. - Atualizações de segurança do sistema operacional.
- Foi corrigido um problema com a análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
-
15 de novembro de 2022
- Atualização do Apache commons-text para a versão 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções diversas.
-
1 de novembro de 2022
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desativado nessa tabela, os dados dessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Foi corrigido um problema com o site Auto Loader em que um arquivo podia ser duplicado nos mesmos microlotes quando
allowOverwrites
estava ativado - [SPARK-40596] Preencha ExecutorDecommissionInfo com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
-
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- Correções diversas.
- Atualizações de segurança do sistema operacional.
-
22 de setembro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem integrada do Auto Loader no ADLS Gen2. A listagem integrada foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado ao aumento dos custos de armazenamento para os clientes.
- [SPARK-40315] Adicionar hashCode () para literal de ArrayBasedMapData
- [SPARK-40089] Corrige a classificação para alguns tipos decimais
- [SPARK-39887] RemoveRedundantAliases deve manter aliases que tornam a saída dos nós de projeção exclusiva
-
6 de setembro de 2022
- [SPARK-40235] Usar bloqueio interruptível em vez de sincronizado em executor.updateDependencies()
- [SPARK-35542] Correção: o Bucketizer criado para várias colunas com os parâmetros SplitsArray, InputCols e OutputCols não pode ser carregado depois de salvá-lo
- [SPARK-40079] Adicionar validação Imputer InputCols para caixa de entrada vazia
-
24 de agosto de 2022
- [SPARK-39666] Use unsafeProjection.create para respeitar
spark.sql.codegen.factoryMode
no ExpressionEncoder - [SPARK-39962] Aplicar projeção quando os atributos do grupo estão vazios
- Atualizações de segurança do sistema operacional.
- [SPARK-39666] Use unsafeProjection.create para respeitar
-
9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
-
27 de julho de 2022
- Tornar os resultados das operações de mesclagem do Delta consistentes quando a fonte não for determinística.
- [SPARK-39689] Suporte para 2 caracteres
lineSep
em CSV fonte de dados - [SPARK-39575] Adicionado
ByteBuffer#rewind
apósByteBuffer#get
emAvroDeserializer
. - [SPARK-37392] Corrigido o erro de desempenho do otimizador Catalyst.
- Atualizações de segurança do sistema operacional.
-
13 de julho de 2022
- [SPARK-39419]
ArraySort
lança uma exceção quando o comparador retorna null. - Desativou o uso do Auto Loaderda nuvem integrada APIs para a listagem de diretórios em Azure.
- Atualizações de segurança do sistema operacional.
- [SPARK-39419]
-
5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
-
15 de junho de 2022
- [SPARK-39283] Corrige o impasse entre
TaskMemoryManager
eUnsafeExternalSorter.SpillableIterator
.
- [SPARK-39283] Corrige o impasse entre
-
2 de junho de 2022
- [SPARK-34554] Implemente o método
copy()
emColumnarMap
. - Atualizações de segurança do sistema operacional.
- [SPARK-34554] Implemente o método
-
18 de maio de 2022
- Foi corrigido um possível vazamento de memória integrado em Auto Loader.
- Atualize a versão do AWS SDK de 1.11.655 para 1.11.678.
- [SPARK-38918] A poda de colunas aninhadas deve filtrar atributos que não pertencem à relação atual
- [SPARK-39084] Corrija
df.rdd.isEmpty()
usandoTaskContext
para interromper o iterador na conclusão da tarefa - Atualizações de segurança do sistema operacional.
-
19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções diversas.
-
6 de abril de 2022
- [SPARK-38631] Usa implementação baseada em Java para descompactar em utils.unpack
- Atualizações de segurança do sistema operacional.
-
22 de março de 2022
- Alterou o diretório de trabalho atual do Notebook no cluster de alta simultaneidade com o controle de acesso da tabela ou a passagem de credenciais ativada para o diretório pessoal do usuário. Anteriormente, o diretório ativo era
/databricks/driver
. - [SPARK-38437] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180] Permitir expressões otimizadas seguras em predicados de igualdade correlacionados
- [SPARK-38155] Proibir agregação distinta em subconsultas laterais com predicados não suportados
- [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um Parquet.
- Alterou o diretório de trabalho atual do Notebook no cluster de alta simultaneidade com o controle de acesso da tabela ou a passagem de credenciais ativada para o diretório pessoal do usuário. Anteriormente, o diretório ativo era
-
14 de março de 2022
- [SPARK-38236] Caminhos de arquivo absolutos especificados na tabela de criação/alteração são tratados como relativos
- [SPARK-34069] Interromper thread de tarefa se a propriedade local
SPARK_JOB_INTERRUPT_ON_CANCEL
estiver definida como verdadeira.
-
23 de fevereiro de 2022
- [SPARK-37859] As tabelas SQL criadas com JDBC no Spark 3.1 não podem ser lidas no Spark 3.2.
-
8 de fevereiro de 2022
- [SPARK-27442] Removido um campo de verificação ao ler ou gravar dados em um Parquet.
- Atualizações de segurança do sistema operacional.
-
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
26 de janeiro de 2022
- Foi corrigido um problema em que as transações concorrente nas tabelas Delta podiam commit em uma ordem não serializável em determinadas condições raras.
- Foi corrigido um problema em que o comando
OPTIMIZE
podia falhar quando o dialeto ANSI SQL estava ativado.
-
19 de janeiro de 2022
- Pequenas correções e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
-
4 de novembro de 2021
- Foi corrigido um problema que podia fazer com que a transmissão estruturada falhasse com um
ArrayIndexOutOfBoundsException
. - Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que poderia fazer com que as modificações emsparkContext.hadoopConfiguration
não entrassem em vigor nas consultas. - O conector Apache Spark para Delta Sharing foi atualizado para a versão 0.2.0.
- Foi corrigido um problema que podia fazer com que a transmissão estruturada falhasse com um
-
20 de outubro de 2021
- Atualização do conector BigQuery de 0.18.1 para 0.22.2. Isso adiciona suporte para o tipo BigNumeric.
Databricks Runtime 13,0 (EoS)
Consulte Databricks Runtime 13.0 (EoS).
-
13 de outubro de 2023
- A dependência do Snowflake-JDBC foi atualizada da versão 3.13.29 para a 3.13.33.
- [SPARK-42553][SQL] Garantir pelo menos uma unidade de tempo após o intervalo.
- [SPARK-45178] O senhor pode executar um único lote para
Trigger.AvailableNow
com fontes não suportadas em vez de usar o wrapper. - [SPARK-44658] [CORE]
ShuffleStatus.getMapStatus
retornaNone
em vez deSome(null)
. - [SPARK-42205][CORE] Remover o registro de eventos Accumulables in tarefa/Stage começar em
JsonProtocol
. - Atualizações de segurança do sistema operacional.
-
12 de setembro de 2023
- [SPARK-44485][SQL] Otimizar
TreeNode.generateTreeString
. - [SPARK-44718][SQL] Corresponder
ColumnVector
memory-mode config default aOffHeapMemoryMode
config value. - Correções de bugs diversas.
- [SPARK-44485][SQL] Otimizar
-
30 de agosto de 2023
- [SPARK-44818][Backport] Corrigida a corrida para a interrupção de tarefa pendente emitida antes da inicialização do site
taskThread
. - [SPARK-44714] Facilite a restrição da resolução de LCA em relação a consultas.
- [SPARK-44245][Python]
pyspark.sql.dataframe sample()
doctests agora é apenas ilustrativo. - [SPARK-44871][11.3-13.0][SQL] Comportamento
percentile_disc
corrigido. - Atualizações de segurança do sistema operacional.
- [SPARK-44818][Backport] Corrigida a corrida para a interrupção de tarefa pendente emitida antes da inicialização do site
-
15 de agosto de 2023
- [SPARK-44643][SQL][Python] Corrija
Row.__repr__
quando a linha estiver vazia. - [SPARK-44504][Backport] A tarefa de manutenção limpa os provedores carregados em caso de erro de parada.
- [SPARK-44479][CONNECT][Python] Corrigida a conversão
protobuf
de um tipo struct vazio. - [SPARK-44464] [SS] Corrigido
applyInPandasWithStatePythonRunner
nas linhas de saída que têmNull
como valor da primeira coluna. - Correções de bugs diversas.
- [SPARK-44643][SQL][Python] Corrija
-
29 de julho de 2023
- Foi corrigido um bug em que o site
dbutils.fs.ls()
retornavaINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
quando chamado para um caminho de local de armazenamento que entrava em conflito com outro local de armazenamento externo ou gerenciar. - [SPARK-44199] O site
CacheManager
não atualiza mais ofileIndex
desnecessariamente. - Atualizações de segurança do sistema operacional.
- Foi corrigido um bug em que o site
-
24 de julho de 2023
- [SPARK-44337] [PROTOBUF] Corrigido um problema em que qualquer campo definido como
Any.getDefaultInstance
causava erros de análise. - [SPARK-44136] [SS] Corrigido um problema em que
StateManager
era materializado em um executor em vez de um driver emFlatMapGroupsWithStateExec
. - Reverter [SPARK-42323][SQL] Atribuir nome a
_LEGACY_ERROR_TEMP_2332
. - Atualizações de segurança do sistema operacional.
- [SPARK-44337] [PROTOBUF] Corrigido um problema em que qualquer campo definido como
-
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug de contagem de subconsultas escalares com decorrelateInnerQuery desativado
- [SPARK-43779][SQL]
ParseToDate
agora carregaEvalMode
na thread principal. - [SPARK-42937][SQL]
PlanSubqueries
deve definirInSubqueryExec#shouldBroadcast
como true - Atualizações de segurança do sistema operacional.
- Fotonizado
-
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhorar o desempenho da atualização incremental com
SHALLOW CLONE
Iceberg e Parquet. - Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404][Backport] Ignorar a reutilização do arquivo sst para a mesma versão de RocksDB armazenamento do estado para evitar erros de incompatibilidade de ID.
- [SPARK-43340] [CORE] Corrigido o campo de rastreamento de pilha ausente nos registros de eventos.
- [SPARK-43300][CORE]
NonFateSharingCache
wrapper para o Guava Cache. - [SPARK-43378][CORE] Feche corretamente os objetos de transmissão em
deserializeFromChunkedBuffer
. - [SPARK-16484][SQL] Use o registro de 8 bits para representar os DataSketches.
- [SPARK-43522][SQL] Corrigida a criação de nome de coluna struct com índice de matriz.
- [SPARK-43413][11.3-13.0][SQL] Foi corrigida a nulidade da subconsulta
IN
ListQuery
. - [SPARK-43043][CORE] Aprimorado
MapOutputTracker.updateMapOutput
desempenho. - [SPARK-16484][SQL] Adicionado suporte para DataSketches HllSketch.
- [SPARK-43123][SQL] Os metadados de campo interno não vazam mais para os catálogos.
- [SPARK-42851][SQL] Guard
EquivalentExpressions.addExpr()
comsupportedExpression()
. - [SPARK-43336][SQL] A conversão entre
Timestamp
eTimestampNTZ
requer fuso horário. - [SPARK-43286][SQL] Atualizado o modo
aes_encrypt
CBC para gerar IVs aleatórios. - [SPARK-42852][SQL] Reverteu as alterações relacionadas a
NamedLambdaVariable
deEquivalentExpressions
. - [SPARK-43541][SQL] Propagar todas as tags
Project
na resolução de expressões e colunas ausentes... - [SPARK-43527][Python] Corrigido
catalog.listCatalogs
em PySpark. - Atualizações de segurança do sistema operacional.
- O analisador JSON no modo
-
31 de maio de 2023
- O suporte padrão de gravação otimizada para tabelas Delta registradas em Unity Catalog foi ampliado para incluir
CTAS
declarações eINSERT
operações para tabelas particionadas. Esse comportamento se alinha ao padrão no armazém SQL. Consulte Gravações otimizadas para Delta Lake em Databricks.
- O suporte padrão de gravação otimizada para tabelas Delta registradas em Unity Catalog foi ampliado para incluir
-
17 de maio de 2023
-
Foi corrigida uma regressão em que os sites
_metadata.file_path
e_metadata.file_name
retornavam strings formatadas incorretamente. Por exemplo, agora um caminho com espaços é representado comos3://test-bucket/some%20directory/some%20data.csv
em vez des3://test-bucket/some directory/some data.csv
. -
Parquet As varreduras agora são robustas contra OOMs ao varrer arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho dos lotes. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho dos lotes e são reduzidos novamente nas novas tentativas de tarefa como uma rede de segurança final.
-
- Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
.
- Se um arquivo Avro fosse lido apenas com a opção
-
O Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugerir um dos outros dois tipos.
- Lê corretamente e não resgata mais os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar datas corrompidas.
-
- Evita a leitura de tipos
Decimal
com menor precisão.
- Evita a leitura de tipos
-
[SPARK-43172] [CONNECT] Expõe o host e os tokens do cliente de conexão Spark.
-
[SPARK-43293][SQL]
__qualified_access_only
é ignorado em colunas normais. -
[SPARK-43098][SQL] Correção do erro
COUNT
quando a subconsulta escalar é agrupada pela cláusula. -
[SPARK-43085][SQL] Suporte à coluna
DEFAULT
atribuição para nomes de tabelas com várias partes. -
[SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. -
[SPARK-43192] [CONNECT] Removida a validação do conjunto de caracteres do agente do usuário.
-
-
25 de abril de 2023
- O senhor pode modificar uma tabela Delta para adicionar suporte a um recurso de tabela Delta usando
DeltaTable.addFeatureSupport(feature_name)
. - O comando
SYNC
agora é compatível com os formatos antigos de fonte de dados. - Foi corrigido um bug em que o uso do formatador Python antes de executar qualquer outro comando em um Notebook Python podia fazer com que o caminho do Notebook não aparecesse no
sys.path.
- Databricks agora suporta a especificação de valores default para colunas de tabelas Delta. Os comandos
INSERT
,UPDATE
,DELETE
eMERGE
podem fazer referência ao valor default de uma coluna usando a palavra-chave explícitaDEFAULT
. Para o comandoINSERT
com uma lista explícita de menos colunas do que a tabela de destino, os valores correspondentes da coluna default são substituídos pelas colunas restantes (ouNULL
se nenhum default for especificado).
- O senhor pode modificar uma tabela Delta para adicionar suporte a um recurso de tabela Delta usando
-
Corrige um bug em que o terminal web não podia ser usado para acessar arquivos em
/Workspace
para alguns usuários.- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que tivessem tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Auto Loader agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados recuperados estava habilitada anteriormente, a incompatibilidade do tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. - Foi corrigido um bug em que a evolução do esquema do Auto Loader podia entrar em um loop infinito de falhas quando uma nova coluna era detectada no esquema de um objeto JSON aninhado.
- [SPARK-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o RocksDB armazenamento do estado em Structure transmission.
- [SPARK-39221][SQL] Fazer com que as informações confidenciais sejam editadas corretamente para o servidor thrift Job/stage tab.
- [SPARK-42971][CORE] Alteração para imprimir
workdir
seappDirs
for nulo quando worker manipular o eventoWorkDirCleanup
. - [SPARK-42936][SQL] Corrige o bug de LCA quando a cláusula having pode ser resolvida diretamente por seu agregado filho.
- [SPARK-43018][SQL] Corrigir bug para
INSERT
comando com literais de timestamp. - Reverter [SPARK-42754][SQL][UI] Corrigir problema de compatibilidade com versões anteriores na execução de SQL aninhado.
- Reverta [SPARK-41498] Propague metadados por meio do Union.
- [SPARK-43038][SQL] Suporte ao modo CBC por
aes_encrypt()
/aes_decrypt()
. - [SPARK-42928][SQL] Tornar o site
resolvePersistentFunction
sincronizado. - [SPARK-42521][SQL] Adicionar valores
NULL
paraINSERT
com listas especificadas pelo usuário de menos colunas do que a tabela de destino. - [SPARK-41391][SQL] O nome da coluna de saída de
groupBy.agg(count_distinct)
estava incorreto. - [SPARK-42548][SQL] Adicionar
ReferenceAllColumns
para ignorar atributos de reescrita. - [SPARK-42423][SQL] Adicionar coluna de metadados ao início e ao comprimento do bloco de arquivos.
- [SPARK-42796][SQL] Suporte ao acesso a colunas
TimestampNTZ
emCachedBatch
. - [SPARK-42266][Python] Remover o diretório pai em shell.py execução quando o IPython é usado.
- [SPARK-43011][SQL]
array_insert
deve falhar com índice 0. - [SPARK-41874][CONNECT][Python] Suporte
SameSemantics
em Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Suporte a consultas parametrizadas em subconsultas e CTE.
- [SPARK-42967][CORE] Corrigir
SparkListenerTaskStart.stageAttemptId
quando uma tarefa é iniciada depois que a etapa é cancelada. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
Databricks Runtime 12,1 (EoS)
Consulte o Databricks Runtime 12.1 (EoS).
-
23 de junho de 2023
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- [SPARK-43779][SQL]
ParseToDate
agora carregaEvalMode
na thread principal. - [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug de contagem de subconsultas escalares com decorrelateInnerQuery desativado
- Atualizações de segurança do sistema operacional.
- Fotonizado
-
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhorar o desempenho da atualização incremental com
SHALLOW CLONE
Iceberg e Parquet. - Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-43404][Backport] Ignorar a reutilização do arquivo sst para a mesma versão de RocksDB armazenamento do estado para evitar erros de incompatibilidade de ID.
- [SPARK-43413][11.3-13.0][SQL] Foi corrigida a nulidade da subconsulta
IN
ListQuery
. - [SPARK-43522][SQL] Corrigida a criação de nome de coluna struct com índice de matriz.
- [SPARK-42444][Python]
DataFrame.drop
agora lida corretamente com colunas duplicadas. - [SPARK-43541][SQL] Propagar todas as tags
Project
na resolução de expressões e colunas ausentes... - [SPARK-43340] [CORE] Corrigido o campo de rastreamento de pilha ausente nos registros de eventos.
- [SPARK-42937][SQL]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como verdadeiro. - [SPARK-43527][Python] Corrigido
catalog.listCatalogs
em PySpark. - [SPARK-43378][CORE] Feche corretamente os objetos de transmissão em
deserializeFromChunkedBuffer
.
- O analisador JSON no modo
-
17 de maio de 2023
-
Parquet As varreduras agora são robustas contra OOMs ao varrer arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho dos lotes. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho dos lotes e são reduzidos novamente nas novas tentativas de tarefa como uma rede de segurança final.
-
Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. -
O Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugerir um dos outros dois tipos.
- Lê corretamente e não resgata mais os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar datas corrompidas.
-
- Evita a leitura de tipos
Decimal
com menor precisão.
- Evita a leitura de tipos
-
[SPARK-43098][SQL] Correção do erro
COUNT
quando a subconsulta escalar é agrupada pela cláusula. -
[SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. -
Atualizações de segurança do sistema operacional.
-
-
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que tivessem tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Auto Loader agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados recuperados estava habilitada anteriormente, a incompatibilidade do tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. - [SPARK-43009][SQL] Parametrizado
sql()
comAny
constantes. - [SPARK-42971][CORE] Alteração para imprimir
workdir
seappDirs
for nulo quando worker manipular o eventoWorkDirCleanup
. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
-
11 de abril de 2023
- Suporte a formatos legados de fontes de dados em SYNC comando.
- Corrige um bug no comportamento de %autoreload no Notebook que está fora de um repositório.
- Foi corrigido um bug em que a evolução do esquema do Auto Loader podia entrar em um loop infinito de falhas quando uma nova coluna era detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Torna o site
resolvePersistentFunction
sincronizado. - [SPARK-42967][CORE] Corrige o site
SparkListenerTaskStart.stageAttemptId
quando uma tarefa começa depois que a etapa é cancelada. - Atualizações de segurança do sistema operacional.
-
29 de março de 2023
- Auto Loader agora aciona pelo menos uma limpeza síncrona RocksDB log para a transmissão
Trigger.AvailableNow
para garantir que o ponto de verificação possa ser limpo regularmente para a transmissão Auto Loader de execução rápida. Isso pode fazer com que algumas transmissões demorem mais para serem encerradas, mas economizará custos de armazenamento e melhorará a experiência do Auto Loader em execuções futuras. - Agora o senhor pode modificar uma tabela Delta para adicionar suporte à tabela recurso usando
DeltaTable.addFeatureSupport(feature_name)
. - [SPARK-42702][SPARK-42623][SQL] Suporte a consultas parametrizadas em subconsultas e CTE
- [SPARK-41162][SQL] Corrigir anti e semi-join para autojoin com agregações
- [SPARK-42403][CORE] JsonProtocol deve lidar com JSON nulo strings
- [SPARK-42668][SS] Exceção de captura ao tentar fechar a transmissão compactada no HDFSStateStoreProvider abortado
- [SPARK-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o RocksDB armazenamento do estado na transmissão da estrutura
- Auto Loader agora aciona pelo menos uma limpeza síncrona RocksDB log para a transmissão
-
14 de março de 2023
- Há uma mudança de terminologia para adicionar recurso a uma tabela Delta usando a propriedade table. A sintaxe preferida agora é
'delta.feature.featureName'='supported'
em vez de'delta.feature.featureName'='enabled'
. Para compatibilidade com versões anteriores, usar'delta.feature.featureName'='enabled'
ainda funciona e continuará funcionando. - [SPARK-42622] [CORE] Desativar a substituição em valores
- [SPARK-42534][SQL] Corrigir a cláusula DB2Dialect Limit
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-42516][SQL] Sempre capture a configuração do fuso horário da sessão ao criar a visualização
- [SPARK-42484] [SQL] Mensagem de erro melhor do UnsafeRowUtils
- [SPARK-41793][SQL] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais grandes
- Atualizações de segurança do sistema operacional.
- Há uma mudança de terminologia para adicionar recurso a uma tabela Delta usando a propriedade table. A sintaxe preferida agora é
-
24 de fevereiro de 2023
- Agora o senhor pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar à fonte de dados compatível com o Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queport
é opcional e usa o número da porta default para cada fonte de dados se não for fornecido.
Exemplo de configuração de conexão do PostgreSQL
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
database '<database-name>',
user '<user>',
password secret('scope', 'key')
);Exemplo de configuração de conexão do Snowflake
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
port '<port-number>',
database '<database-name>',
user secret('snowflake_creds', 'my_username'),
password secret('snowflake_creds', 'my_password'),
schema '<schema-name>',
sfWarehouse '<warehouse-name>'
);- [SPARK-41989][Python] Evite quebrar a configuração de registro de PySpark.pandas
- [SPARK-42346][SQL] Reescrever agregados distintos após a subconsulta merge
- [SPARK-41990][SQL] Use
FieldReference.column
em vez deapply
na conversão de filtros V1 para V2 - Reverter [SPARK-41848][CORE] Correção de tarefa com excesso de agendamento com TaskResourceProfile
- [SPARK-42162] Apresente a expressão MultiCommutativeOp como uma otimização de memória para canonicalizar grandes árvores de expressões comutativas
- Atualizações de segurança do sistema operacional.
- Agora o senhor pode usar um conjunto unificado de opções (
-
16 de fevereiro de 2023
- SYNC O comando suporta a sincronização de tabelas Hive metastore recriadas. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- [SPARK-36173] [CORE] Suporte para obter o número da CPU no TaskContext
- [SPARK-41848][CORE] Corrigindo tarefa com excesso de agendamento com TaskResourceProfile
- [SPARK-42286][SQL] fallback to previous codegen code path for complex expr with CAST
-
31 de janeiro de 2023
- A criação de um esquema com um local definido agora exige que o usuário tenha os privilégios SELECT e MODIFY em QUALQUER ARQUIVO.
- [SPARK-41581][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Corrigir o teste Kafka para verificar partições perdidas em account para operações lentas em Kafka
- [SPARK-41580][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][Python] Suporte parametrizado SQL por
sql()
- [SPARK-41579][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2009
- [SPARK-41049] [Acompanhamento] Corrige uma regressão de sincronização de código para ConvertToLocalRelation
- [SPARK-41576][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Atribuir nome a _LEGACY_ERROR_TEMP_2054
- Atualizações de segurança do sistema operacional.
Databricks Runtime 12,0 (EoS)
Consulte Databricks Runtime 12.0 (EoS).
-
15 de junho de 2023
- Fotonizado
approx_count_distinct
. - A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- [SPARK-43156][SPARK-43098][SQL] Estender o teste de bug de contagem de subconsultas escalares com decorrelateInnerQuery desativado
- [SPARK-43779][SQL]
ParseToDate
agora carregaEvalMode
na thread principal. - Atualizações de segurança do sistema operacional.
- Fotonizado
-
2 de junho de 2023
- O analisador JSON no modo
failOnUnknownFields
descarta um registro no modoDROPMALFORMED
e falha diretamente no modoFAILFAST
. - Melhorar o desempenho da atualização incremental com
SHALLOW CLONE
Iceberg e Parquet. - Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
- [SPARK-42444][Python]
DataFrame.drop
agora lida corretamente com colunas duplicadas. - [SPARK-43404][Backport] Ignorar a reutilização do arquivo sst para a mesma versão de RocksDB armazenamento do estado para evitar erros de incompatibilidade de ID.
- [SPARK-43413][11.3-13.0][SQL] Foi corrigida a nulidade da subconsulta
IN
ListQuery
. - [SPARK-43527][Python] Corrigido
catalog.listCatalogs
em PySpark. - [SPARK-43522][SQL] Corrigida a criação de nome de coluna struct com índice de matriz.
- [SPARK-43541][SQL] Propagar todas as tags
Project
na resolução de expressões e colunas ausentes... - [SPARK-43340] [CORE] Corrigido o campo de rastreamento de pilha ausente nos registros de eventos.
- [SPARK-42937][SQL]
PlanSubqueries
setInSubqueryExec#shouldBroadcast
to true.
- O analisador JSON no modo
-
17 de maio de 2023
-
Parquet As varreduras agora são robustas contra OOMs ao varrer arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho dos lotes. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho dos lotes e são reduzidos novamente nas novas tentativas de tarefa como uma rede de segurança final.
-
Se um arquivo Avro fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que têm tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. -
O Auto Loader agora faz o seguinte.
-
- Lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido, mas o arquivo Avro sugerir um dos outros dois tipos.
- Lê corretamente e não resgata mais os tipos
-
- Impede a leitura de tipos de intervalo como tipos de data ou carimbo de data/hora para evitar datas corrompidas.
-
- Evita a leitura de tipos
Decimal
com menor precisão.
- Evita a leitura de tipos
-
[SPARK-43172] [CONNECT] Expõe o host e os tokens do cliente de conexão Spark.
-
[SPARK-41520][SQL] Dividir o padrão de árvore
AND_OR
para separarAND
eOR
. -
[SPARK-43098][SQL] Correção do erro
COUNT
quando a subconsulta escalar é agrupada pela cláusula. -
[SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. -
Atualizações de segurança do sistema operacional.
-
-
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que tivessem tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Auto Loader agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados recuperados estava habilitada anteriormente, a incompatibilidade do tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. - [SPARK-42971][CORE] Mudança para imprimir
workdir
seappDirs
for nulo quando worker manipular o eventoWorkDirCleanup
- Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
-
11 de abril de 2023
- Suporte a formatos legados de fontes de dados em
SYNC
comando. - Corrige um bug no comportamento de %autoreload no Notebook que está fora de um repositório.
- Foi corrigido um bug em que a evolução do esquema do Auto Loader podia entrar em um loop infinito de falhas quando uma nova coluna era detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Torna o site
resolvePersistentFunction
sincronizado. - [SPARK-42967][CORE] Corrige o site
SparkListenerTaskStart.stageAttemptId
quando uma tarefa começa depois que a etapa é cancelada. - Atualizações de segurança do sistema operacional.
- Suporte a formatos legados de fontes de dados em
-
29 de março de 2023
- [SPARK-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o RocksDB armazenamento do estado na transmissão da estrutura
- [SPARK-41162][SQL] Corrigir anti e semi-join para autojoin com agregações
- [SPARK-42403][CORE] JsonProtocol deve lidar com JSON nulo strings
- [SPARK-42668][SS] Exceção de captura ao tentar fechar a transmissão compactada no HDFSStateStoreProvider abortado
- Correções de bugs diversas.
-
14 de março de 2023
- [SPARK-42534][SQL] Corrigir a cláusula DB2Dialect Limit
- [SPARK-42622] [CORE] Desativar a substituição em valores
- [SPARK-41793][SQL] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais grandes
- [SPARK-42484] [SQL] Mensagem de erro melhor do UnsafeRowUtils
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-42516][SQL] Sempre capture a configuração do fuso horário da sessão ao criar a visualização
- Atualizações de segurança do sistema operacional.
-
24 de fevereiro de 2023
-
Opções de conexão padronizadas para federação de consultas
Agora o senhor pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar à fonte de dados compatível com o Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queport
é opcional e usará o número da porta default para cada fonte de dados se não for fornecido.Exemplo de configuração de conexão do PostgreSQL
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
database '<database-name>',
user '<user>',
password secret('scope', 'key')
);Exemplo de configuração de conexão do Snowflake
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
port '<port-number>',
database '<database-name>',
user secret('snowflake_creds', 'my_username'),
password secret('snowflake_creds', 'my_password'),
schema '<schema-name>',
sfWarehouse '<warehouse-name>'
); -
Reverter [SPARK-41848][CORE] Correção de tarefa com excesso de agendamento com TaskResourceProfile
-
[SPARK-42162] Apresente a expressão MultiCommutativeOp como uma otimização de memória para canonicalizar grandes árvores de expressões comutativas
-
[SPARK-41990][SQL] Use
FieldReference.column
em vez deapply
na conversão de filtros V1 para V2 -
[SPARK-42346][SQL] Reescrever agregados distintos após a subconsulta merge
-
Atualizações de segurança do sistema operacional.
-
-
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para ser bem-sucedido, o recurso de tabela listado no protocolo das tabelas deve ser compatível com a versão atual do site Databricks Runtime.
- SYNC O comando suporta a sincronização de tabelas Hive metastore recriadas. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-36173] [CORE] Suporte para obter o número da CPU no TaskContext
- [SPARK-42286][SQL] fallback to previous codegen code path for complex expr with CAST
- [SPARK-41848][CORE] Corrigindo tarefa com excesso de agendamento com TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
-
25 de janeiro de 2023
- [SPARK-41660][SQL] Somente propagar colunas de metadados se elas forem usadas
- [SPARK-41379][SS][Python] Fornecer sessão clonada do Spark em DataFrame na função de usuário para o sumidouro foreachBatch em PySpark
- [SPARK-41669][SQL] Poda antecipada em canCollapseExpressions
- Atualizações de segurança do sistema operacional.
-
18 de janeiro de 2023
REFRESH FUNCTION
O comando SQL agora suporta funções SQL e funções de tabela SQL. Por exemplo, o comando pode ser usado para refresh uma função SQL persistente que foi atualizada em outra sessão SQL.- Java O Database Connectivity (JDBC) fonte de dados v1 agora suporta a cláusula LIMIT pushdown para melhorar o desempenho das consultas. Esse recurso é ativado por default e pode ser desativado com
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
definido comofalse
. - No agrupamento de ACLs de tabela legada, a criação de funções que fazem referência a classes JVM agora exige o privilégio
MODIFY_CLASSPATH
. - Java O Database Connectivity (JDBC) fonte de dados v1 agora suporta a cláusula LIMIT pushdown para melhorar o desempenho das consultas. Esse recurso é ativado pelo site default e pode ser desativado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- O conector do Azure Synapse agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - Spark A transmissão estruturada agora funciona com format("deltasharing") em uma tabela de delta compartilhamento como fonte.
- [SPARK-38277][SS] Clear write lotes after RocksDB armazenamento do estado's commit
- [SPARK-41733][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra ResolveWindowTime
- [SPARK-39591][SS] Acompanhamento do progresso assíncrono
- [SPARK-41339][SQL] Fechar e recriar RocksDB escrever lotes em vez de apenas limpar
- [SPARK-41198][SS] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1
- [SPARK-41539][SQL] Remapear estatísticas e restrições em relação à saída no plano lógico para LogicalRDD
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-41862][SQL] Corrigir bug de correção relacionado a valores padrão no leitor Orc
- [SPARK-41199][SS] Corrige o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são usadas em conjunto
- [SPARK-41261][Python][SS] Corrigir o problema de applyInPandasWithState quando as colunas da chave de agrupamento não são colocadas em ordem desde a mais antiga
- Atualizações de segurança do sistema operacional.
-
17 de maio de 2023
- Parquet As varreduras agora são robustas contra OOMs ao varrer arquivos excepcionalmente estruturados, ajustando dinamicamente o tamanho dos lotes. Os metadados do arquivo são analisados para reduzir preventivamente o tamanho dos lotes e são reduzidos novamente nas novas tentativas de tarefa como uma rede de segurança final.
- Foi corrigida uma regressão que fazia com que o Databricks Job persistisse após a falha na conexão com o metastore durante a inicialização do clustering.
- [SPARK-41520][SQL] Dividir o padrão de árvore
AND_OR
para separarAND
eOR
. - [SPARK-43190][SQL]
ListQuery.childOutput
agora é consistente com a saída secundária. - Atualizações de segurança do sistema operacional.
-
25 de abril de 2023
- Se um arquivo Parquet fosse lido apenas com a opção
failOnUnknownFields
ou com o Auto Loader no modo de evolução do esquemafailOnNewColumns
, as colunas que tivessem tipos de dados diferentes seriam lidas comonull
em vez de gerar um erro informando que o arquivo não pode ser lido. Essas leituras agora falham e recomendam que os usuários usem a opçãorescuedDataColumn
. - O Auto Loader agora lê corretamente e não resgata mais os tipos
Integer
,Short
,Byte
se um desses tipos de dados for fornecido. O arquivo Parquet sugere um dos outros dois tipos. Quando a coluna de dados recuperados estava habilitada anteriormente, a incompatibilidade do tipo de dados fazia com que as colunas fossem resgatadas mesmo que fossem legíveis. - [SPARK-42937][SQL]
PlanSubqueries
agora defineInSubqueryExec#shouldBroadcast
como verdadeiro. - Atualizações de segurança do sistema operacional.
- Se um arquivo Parquet fosse lido apenas com a opção
-
11 de abril de 2023
- Suporte a formatos legados de fontes de dados em SYNC comando.
- Corrige um bug no comportamento de %autoreload no Notebook que está fora de um repositório.
- Foi corrigido um bug em que a evolução do esquema do Auto Loader podia entrar em um loop infinito de falhas quando uma nova coluna era detectada no esquema de um objeto JSON aninhado.
- [SPARK-42928][SQL] Tornar resolvePersistentFunction sincronizado.
- [SPARK-42967][CORE] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que a etapa é cancelada.
-
29 de março de 2023
- [SPARK-42794][SS] Aumente o lockAcquireTimeoutMs para 2 minutos para adquirir o RocksDB armazenamento do estado na transmissão da estrutura
- [SPARK-42403][CORE] JsonProtocol deve lidar com JSON nulo strings
- [SPARK-42668][SS] Exceção de captura ao tentar fechar a transmissão compactada no HDFSStateStoreProvider abortado
- Atualizações de segurança do sistema operacional.
-
14 de março de 2023
- [SPARK-42635][SQL] Corrigir a expressão TimestampAdd.
- [SPARK-41793][SQL] Resultado incorreto para quadros de janela definidos por uma cláusula de intervalo em decimais grandes
- [SPARK-42484] [SQL] Mensagem de erro melhor do UnsafeRowUtils
- [SPARK-42534][SQL] Corrigir a cláusula DB2Dialect Limit
- [SPARK-41162][SQL] Corrigir anti e semi-join para autojoin com agregações
- [SPARK-42516][SQL] Sempre capture a configuração do fuso horário da sessão ao criar a visualização
- Correções de bugs diversas.
-
28 de fevereiro de 2023
-
Opções de conexão padronizadas para federação de consultas
Agora o senhor pode usar um conjunto unificado de opções (
host
,port
,database
,user
,password
) para se conectar à fonte de dados compatível com o Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Observe queport
é opcional e usa o número da porta default para cada fonte de dados se não for fornecido.Exemplo de configuração de conexão do PostgreSQL
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
database '<database-name>',
user '<user>',
password secret('scope', 'key')
);Exemplo de configuração de conexão do Snowflake
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
port '<port-number>',
database '<database-name>',
user secret('snowflake_creds', 'my_username'),
password secret('snowflake_creds', 'my_password'),
schema '<schema-name>',
sfWarehouse '<warehouse-name>'
); -
[SPARK-42286][SQL] fallback to previous codegen code path for complex expr with CAST
-
[SPARK-41989][Python] Evite quebrar a configuração de registro de PySpark.pandas
-
[SPARK-42346][SQL] Reescrever agregados distintos após a subconsulta merge
-
[SPARK-41360][CORE] Evite o novo registro do BlockManager se o executor tiver sido perdido
-
[SPARK-42162] Apresente a expressão MultiCommutativeOp como uma otimização de memória para canonicalizar grandes árvores de expressões comutativas
-
[SPARK-41990][SQL] Use
FieldReference.column
em vez deapply
na conversão de filtros V1 para V2 -
Atualizações de segurança do sistema operacional.
-
-
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para ser bem-sucedido, o recurso de tabela listado no protocolo das tabelas deve ser compatível com a versão atual do site Databricks Runtime.
- SYNC O comando suporta a sincronização de tabelas Hive metastore recriadas. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- [SPARK-40382][SQL] Agrupar expressões agregadas distintas por filhos semanticamente equivalentes em
RewriteDistinctAggregates
- Atualizações de segurança do sistema operacional.
-
25 de janeiro de 2023
- [SPARK-41379][SS][Python] Fornecer sessão clonada do Spark em DataFrame na função de usuário para o sumidouro foreachBatch em PySpark
- [SPARK-41660][SQL] Somente propagar colunas de metadados se elas forem usadas
- [SPARK-41669][SQL] Poda antecipada em canCollapseExpressions
- Correções de bugs diversas.
-
18 de janeiro de 2023
REFRESH FUNCTION
O comando SQL agora suporta funções SQL e funções de tabela SQL. Por exemplo, o comando pode ser usado para refresh uma função SQL persistente que foi atualizada em outra sessão SQL.- Java O Database Connectivity (JDBC) fonte de dados v1 agora suporta a cláusula LIMIT pushdown para melhorar o desempenho das consultas. Esse recurso é ativado por default e pode ser desativado com
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
definido comofalse
. - Java O Database Connectivity (JDBC) fonte de dados v1 agora suporta a cláusula LIMIT pushdown para melhorar o desempenho das consultas. Esse recurso é ativado pelo site default e pode ser desativado com spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled definido como false.
- O conector do Azure Synapse agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1
- [SPARK-41862][SQL] Corrigir bug de correção relacionado a valores padrão no leitor Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições em relação à saída no plano lógico para LogicalRDD
- [SPARK-39591][SS] Acompanhamento do progresso assíncrono
- [SPARK-41199][SS] Corrige o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são usadas em conjunto
- [SPARK-41261][Python][SS] Corrigir o problema de applyInPandasWithState quando as colunas da chave de agrupamento não são colocadas em ordem desde a mais antiga
- [SPARK-41339][SQL] Fechar e recriar RocksDB escrever lotes em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Clear write lotes after RocksDB armazenamento do estado's commit
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2022
-
Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever o uso de dados no conector Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaços em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco inicial dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove os espaços em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.
-
Foi corrigido um erro na análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou estava definido comofalse
) e o JSON continha objetos aninhados. -
Atualize a dependência
snowflake-jdbc
para a versão 3.13.22. -
Os tipos de tabelas de JDBC agora são EXTERNOS por default.
-
[SPARK-40906][SQL]
Mode
should copy key before inserting into Map -
Atualizações de segurança do sistema operacional.
-
-
15 de novembro de 2022
- As ACLs de tabela e o clustering compartilhado do UC agora permitem o método dataset.toJSON em Python.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
spark.sql.json.enablePartialResults
paratrue
. O sinalizador é desativado pelo site default para preservar o comportamento original - [SPARK-40903][SQL] Evite reordenar a adição decimal para canonização se o tipo de dados for alterado
- [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas usando acompanhamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- Atualizações de segurança do sistema operacional.
-
1 de novembro de 2022
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Foi corrigido um problema em que executar
MERGE
e usar exatamente 99 colunas da fonte na condição poderia resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Foi corrigido um problema com o site Auto Loader em que um arquivo podia ser duplicado nos mesmos microlotes quando
allowOverwrites
estava ativado. - Atualização do Apache commons-text para a versão 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PySpark] Suporte adicionado para a configuração do CloudWatch MetricsLevel
- [SPARK-40596] [CORE] Preencha ExecutorDecommissionInfo com mensagens em ExecutorDecommissionInfo
- [SPARK-40670][SS][Python] Corrigir NPE em applyInPandasWithState quando o esquema de entrada tem colunas "não nulas".
- Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
Databricks Runtime 11,2 (EoS)
Consulte o Databricks Runtime 11.2 (EoS).
-
28 de fevereiro de 2023
- [SPARK-42286][SQL] fallback to previous codegen code path for complex expr with CAST
- [SPARK-42346][SQL] Reescrever agregados distintos após a subconsulta merge
- Atualizações de segurança do sistema operacional.
-
16 de fevereiro de 2023
- Os usuários agora podem ler e gravar determinadas tabelas Delta que exigem o Reader versão 3 e o Writer versão 7, usando o Databricks Runtime 9.1 ou posterior. Para ser bem-sucedido, o recurso de tabela listado no protocolo das tabelas deve ser compatível com a versão atual do site Databricks Runtime.
- SYNC O comando suporta a sincronização de tabelas Hive metastore recriadas. Se uma tabela HMS tiver sido sincronizada anteriormente com o Unity Catalog, mas depois descartada e recriada, uma nova sincronização subsequente funcionará em vez de gerar o código de status TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide usa decimal(1, 0) para representar 0
- Atualizações de segurança do sistema operacional.
-
31 de janeiro de 2023
- Os tipos de tabelas de JDBC agora são EXTERNOS por default.
- [SPARK-41379][SS][Python] Fornecer sessão clonada do Spark em DataFrame na função de usuário para o sumidouro foreachBatch em PySpark
-
18 de janeiro de 2023
- O conector do Azure Synapse agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1
- [SPARK-41862][SQL] Corrigir bug de correção relacionado a valores padrão no leitor Orc
- [SPARK-41539][SQL] Remapear estatísticas e restrições em relação à saída no plano lógico para LogicalRDD
- [SPARK-41199][SS] Corrige o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são usadas em conjunto
- [SPARK-41339][SQL] Fechar e recriar RocksDB escrever lotes em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Clear write lotes after RocksDB armazenamento do estado's commit
- Atualizações de segurança do sistema operacional.
- O conector do Azure Synapse agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
-
29 de novembro de 2022
-
Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever o uso de dados no conector Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaços em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco inicial dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove os espaços em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.
-
Foi corrigido um erro na análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou estava definido comofalse
) e o JSON continha objetos aninhados. -
[SPARK-40906][SQL]
Mode
should copy key before inserting into Map -
Atualizações de segurança do sistema operacional.
-
-
15 de novembro de 2022
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado pelo site default para preservar o comportamento original - [SPARK-40618][SQL] Corrigir bug na regra MergeScalarSubqueries com subconsultas aninhadas usando acompanhamento de referência
- [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- Atualizações de segurança do sistema operacional.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
-
1 de novembro de 2022
- Atualização do Apache commons-text para a versão 1.10.0.
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Foi corrigido um problema em que executar
MERGE
e usar exatamente 99 colunas da fonte na condição poderia resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Foi corrigido um problema com o site Auto Loader em que um arquivo podia ser duplicado nos mesmos microlotes quando
allowOverwrites
estava ativado - [SPARK-40596] [CORE] Preencha ExecutorDecommissionInfo com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
-
19 de outubro de 2022
- Foi corrigido um problema com o uso do COPY INTO com credenciais temporárias em clusters/armazéns habilitados para Unity Catalog.
- [SPARK-40213][SQL] Suporte à conversão de valores ASCII para caracteres Latin-1
- Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40315][SQL]Suporte a codificação/decodificação de url como função integrada e organização das funções relacionadas a url
- [SPARK-40156][SQL]
url_decode()
deve retornar uma classe de erro - [SPARK-40169] Não empurre filtros Parquet sem referência ao esquema de dados
- [SPARK-40460][SS] Corrigir transmissão métricas ao selecionar
_metadata
- [SPARK-40468][SQL] Corrige a poda de colunas em CSV quando _corrupt_record é selecionado
- [SPARK-40055][SQL] listCatalogs também deve retornar spark_catalog mesmo quando a implementação de spark_catalog for defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
-
22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal of ArrayBasedMapData
- [SPARK-40389][SQL] Os decimais não podem ser convertidos em tipos integrais se a conversão puder transbordar
- [SPARK-40380][SQL] Corrigir o constant-folding do InvokeLike para evitar literal não serializável embutido no plano
- [SPARK-40066][SQL][FOLLOW-UP] Verificar se o ElementAt foi resolvido antes de obter seu dataType
- [SPARK-40109][SQL] Nova função SQL: get()
- [SPARK-40066][SQL] Modo ANSI: sempre retornar nulo no acesso inválido à coluna do mapa
- [SPARK-40089][SQL] Corrigir a classificação de alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam exclusiva a saída dos nós de projeção.
- [SPARK-40152][SQL] Corrige o problema de compilação do split_part codegen
- [SPARK-40235][CORE] Usar bloqueio interruptível em vez de sincronizado em executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS deve preservar as colunas de agrupamento
- [SPARK-35542][ML] Correção: Bucketizer criado para várias colunas com parâmetros
- [SPARK-40079] Adicionar validação Imputer InputCols para caixa de entrada vazia
- [SPARK-39912]SPARK-39828[SQL] Refine CatalogImpl
Databricks Runtime 11,1 (EoS)
Consulte o Databricks Runtime 11.1 (EoS).
-
31 de janeiro de 2023
- [SPARK-41379][SS][Python] Fornecer sessão clonada do Spark em DataFrame na função de usuário para o sumidouro foreachBatch em PySpark
- Correções de bugs diversas.
-
18 de janeiro de 2023
- O conector do Azure Synapse agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] Corrigir métricas na consulta de transmissão com fonte de transmissão CTE e DSv1
- [SPARK-41862][SQL] Corrigir bug de correção relacionado a valores padrão no leitor Orc
- [SPARK-41199][SS] Corrige o problema de métricas quando a fonte de transmissão DSv1 e a fonte de transmissão DSv2 são usadas em conjunto
- [SPARK-41339][SQL] Fechar e recriar RocksDB escrever lotes em vez de apenas limpar
- [SPARK-41732][SQL][SS] Aplicar poda baseada em padrão de árvore para a regra SessionWindowing
- [SPARK-38277][SS] Clear write lotes after RocksDB armazenamento do estado's commit
- Atualizações de segurança do sistema operacional.
- O conector do Azure Synapse agora retorna uma mensagem de erro mais descritiva quando um nome de coluna contém caracteres inválidos, como espaços em branco ou ponto e vírgula. Nesses casos, a seguinte mensagem será retornada:
-
29 de novembro de 2022
-
Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever o uso de dados no conector Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaços em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco inicial dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove os espaços em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.
-
Foi corrigido um erro na análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou estava definido comofalse
) e o JSON continha objetos aninhados. -
[SPARK-39650][SS] Corrigir esquema de valor incorreto na deduplicação de transmissão com compatibilidade com versões anteriores
-
Atualizações de segurança do sistema operacional.
-
-
15 de novembro de 2022
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado pelo site default para preservar o comportamento original - Atualizações de segurança do sistema operacional.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
-
1 de novembro de 2022
- Atualização do Apache commons-text para a versão 1.10.0.
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Foi corrigido um problema em que executar
MERGE
e usar exatamente 99 colunas da fonte na condição poderia resultar emjava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
. - Foi corrigido um problema com o site Auto Loader em que um arquivo podia ser duplicado nos mesmos microlotes quando
allowOverwrites
estava ativado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596] [CORE] Preencha ExecutorDecommissionInfo com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
-
18 de outubro de 2022
- Foi corrigido um problema com o uso do COPY INTO com credenciais temporárias em clusters/armazéns habilitados para Unity Catalog.
- [SPARK-40213][SQL] Suporte à conversão de valores ASCII para caracteres Latin-1
- Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não empurre filtros Parquet sem referência ao esquema de dados
- [SPARK-40460][SS] Corrigir transmissão métricas ao selecionar
_metadata
- [SPARK-40468][SQL] Corrige a poda de colunas em CSV quando _corrupt_record é selecionado
- [SPARK-40055][SQL] listCatalogs também deve retornar spark_catalog mesmo quando a implementação de spark_catalog for defaultSessionCatalog
- Atualizações de segurança do sistema operacional.
-
22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal of ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir o constant-folding do InvokeLike para evitar literal não serializável embutido no plano
- [SPARK-40089][SQL] Corrigir a classificação de alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam exclusiva a saída dos nós de projeção.
- [SPARK-40152][SQL] Corrige o problema de compilação do split_part codegen
-
6 de setembro de 2022
- Atualizamos o modelo de permissão no controle de acesso da tabela (Table ACLs) para que apenas as permissões MODIFY sejam necessárias para alterar o esquema de uma tabela ou as propriedades da tabela com ALTER TABLE. Anteriormente, essas operações exigiam que um usuário fosse o proprietário da tabela. A propriedade ainda é necessária para conceder permissões em uma tabela, alterar seu proprietário, alterar sua localização ou renomeá-la. Essa alteração torna o modelo de permissão para ACLs de tabela mais consistente com o Unity Catalog.
- [SPARK-40235][CORE] Usar bloqueio interruptível em vez de sincronizado em executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS deve preservar as colunas de agrupamento
- [SPARK-39976][SQL] ArrayIntersect deve tratar corretamente o nulo na expressão à esquerda
- [SPARK-40053][CORE][SQL][TESTS] Adicionar
assume
aos casos de cancelamento dinâmico que exigem o ambiente de tempo de execução do Python - [SPARK-35542][CORE][ML] Correção: o Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de ser salvo
- [SPARK-40079] [CORE] Adicionar validação Imputer InputCols para caixa de entrada vazia
-
24 de agosto de 2022
- Os compartilhamentos, provedores e destinatários agora suportam o comando SQL para alterar proprietários, comentar, renomear
- [SPARK-39983][CORE][SQL] Não armazenar em cache as relações de transmissão não serializadas no driver
- [SPARK-39912][SPARK-39828][SQL] Refine CatalogImpl
- [SPARK-39775][CORE][AVRO] Desativar a validação dos valores de default ao analisar os esquemas de Avro
- [SPARK-39806] Corrigido o problema nas consultas que acessavam a estrutura METADATA (falha) em tabelas particionadas
- [SPARK-39867][SQL] O limite global não deve herdar o OrderPreservingUnaryNode
- [SPARK-39962][Python][SQL] Aplicar projeção quando os atributos do grupo estiverem vazios
- [SPARK-39839][SQL] Trata o caso especial de Decimal de comprimento variável nulo com offsetAndSize diferente de zero na verificação de integridade estrutural UnsafeRow
- [SPARK-39713][SQL] Modo ANSI: adicionar sugestão de uso de try_element_at para o erro INVALID_ARRAY_INDEX
- [SPARK-39847] [SS] Corrige a condição de corrida em RockSDBLoader.loadLibrary () se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir o problema em CSV e JSON fonte de dados ao analisar datas no formato "yyyyMMdd" com a política de análise de tempo CORRIGIDA
- Atualizações de segurança do sistema operacional.
-
10 de agosto de 2022
-
Para as tabelas Delta com controle de acesso da tabela, a evolução automática do esquema por meio de instruções DML como
INSERT
eMERGE
agora está disponível para todos os usuários que têm permissõesMODIFY
nessas tabelas. Além disso, as permissões necessárias para realizar a evolução do esquema comCOPY INTO
agora são reduzidas deOWNER
paraMODIFY
para manter a consistência com outros comandos. Essas alterações tornam o modelo de segurança da tabela ACL mais consistente com outras operações, como a substituição de uma tabela. -
[SPARK-39889] Melhore a mensagem de erro da divisão em 0
-
[SPARK-39795] [SQL] Nova função SQL: try_to_timestamp
-
[SPARK-39749] Sempre use a representação de strings simples ao converter decimais como strings no modo ANSI
-
[SPARK-39625] Renomear df.as para df.to
-
[SPARK-39787] [SQL] Usar classe de erro no erro de análise da função to_timestamp
-
[SPARK-39625] [SQL] Adicionar dataset.as(StructType)
-
[SPARK-39689] Suporte a 2 caracteres
lineSep
na fonte de dados CSV -
[SPARK-39579] [SQL][Python][R] Tornar ListFunctions/getFunction/functionExists compatível com o namespace de 3 camadas
-
[SPARK-39702] [CORE] Reduza a sobrecarga de memória da TransportCipher$encryptedMessage usando um ByteRawChannel compartilhado
-
[SPARK-39575] [AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get em AvroDeserializer
-
[SPARK-39265] [SQL] Corrigir falha no teste quando SPARK_ANSI_SQL_MODE estiver ativado
-
[SPARK-39441] [SQL] Acelerar DeduplicateRelations
-
[SPARK-39497] [SQL] Melhorar a análise da exceção do mapa ausente da coluna key
-
[SPARK-39476] [SQL] Desativar otimização de Unwrap cast ao fazer casting de Long para Float/Double ou de Integer para Float
-
[SPARK-39434] [SQL] Fornecer contexto de consulta de erro em tempo de execução quando o índice da matriz estiver fora dos limites
-
Databricks Runtime 11,0 (EoS)
Consulte Databricks Runtime 11.0 (EoS).
-
29 de novembro de 2022
-
Os usuários podem configurar o comportamento dos espaços em branco à esquerda e à direita ao escrever o uso de dados no conector Redshift. As seguintes opções foram adicionadas para controlar o tratamento de espaços em branco:
csvignoreleadingwhitespace
, quando definido comotrue
, remove o espaço em branco inicial dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.csvignoretrailingwhitespace
, quando definido comotrue
, remove os espaços em branco à direita dos valores durante as gravações quandotempformat
está definido comoCSV
ouCSV GZIP
. Os espaços em branco são mantidos quando a configuração é definida comofalse
. Em default, o valor étrue
.
-
Foi corrigido um erro na análise de JSON no Auto Loader quando todas as colunas eram deixadas como strings (
cloudFiles.inferColumnTypes
não estava definido ou estava definido comofalse
) e o JSON continha objetos aninhados. -
[SPARK-39650][SS] Corrigir esquema de valor incorreto na deduplicação de transmissão com compatibilidade com versões anteriores
-
Atualizações de segurança do sistema operacional.
-
-
15 de novembro de 2022
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
spark.sql.json.enablePartialResults
comotrue
. O sinalizador é desativado pelo site default para preservar o comportamento original.
- [SPARK-40646] A análise de JSON para structs, mapas e matrizes foi corrigida para que, quando uma parte de um registro não corresponder ao esquema, o restante do registro ainda possa ser analisado corretamente em vez de retornar nulos. Para optar pelo comportamento aprimorado, defina
-
1 de novembro de 2022
- Atualização do Apache commons-text para a versão 1.10.0.
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - Foi corrigido um problema com o site Auto Loader em que um arquivo podia ser duplicado nos mesmos microlotes quando
allowOverwrites
estava ativado - [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596] [CORE] Preencha ExecutorDecommissionInfo com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
-
18 de outubro de 2022
- [SPARK-40213][SQL] Suporte à conversão de valores ASCII para caracteres Latin-1
- Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- [SPARK-40169] Não empurre filtros Parquet sem referência ao esquema de dados
- [SPARK-40460][SS] Corrigir transmissão métricas ao selecionar
_metadata
- [SPARK-40468][SQL] Corrige a poda de colunas em CSV quando _corrupt_record é selecionado
- Atualizações de segurança do sistema operacional.
-
22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal of ArrayBasedMapData
- [SPARK-40380][SQL] Corrigir o constant-folding do InvokeLike para evitar literal não serializável embutido no plano
- [SPARK-40089][SQL] Corrigir a classificação de alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam exclusiva a saída dos nós de projeção.
- [SPARK-40152][SQL] Corrige o problema de compilação do split_part codegen
-
6 de setembro de 2022
- [SPARK-40235][CORE] Usar bloqueio interruptível em vez de sincronizado em executor.updateDependencies()
- [SPARK-40212][SQL] O SparkSQL castPartValue não manipula corretamente byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS deve preservar as colunas de agrupamento
- [SPARK-39976][SQL] ArrayIntersect deve tratar corretamente o nulo na expressão à esquerda
- [SPARK-40053][CORE][SQL][TESTS] Adicionar
assume
aos casos de cancelamento dinâmico que exigem o ambiente de tempo de execução do Python - [SPARK-35542][CORE][ML] Correção: o Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de ser salvo
- [SPARK-40079] [CORE] Adicionar validação Imputer InputCols para caixa de entrada vazia
-
24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não armazenar em cache as relações de transmissão não serializadas no driver
- [SPARK-39775][CORE][AVRO] Desativar a validação dos valores de default ao analisar os esquemas de Avro
- [SPARK-39806] Corrigido o problema nas consultas que acessavam a estrutura METADATA (falha) em tabelas particionadas
- [SPARK-39867][SQL] O limite global não deve herdar o OrderPreservingUnaryNode
- [SPARK-39962][Python][SQL] Aplicar projeção quando os atributos do grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
-
9 de agosto de 2022
- [SPARK-39713][SQL] Modo ANSI: adicionar sugestão de uso de try_element_at para o erro INVALID_ARRAY_INDEX
- [SPARK-39847] Corrige a condição de corrida em RocksDBloader.loadLibrary () se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir o problema em CSV e JSON fonte de dados ao analisar datas no formato "yyyyMMdd" com a política de análise de tempo CORRIGIDA
- [SPARK-39889] Melhore a mensagem de erro da divisão em 0
- [SPARK-39795][SQL] Nova função SQL: try_to_timestamp
- [SPARK-39749] Sempre use a representação de strings simples ao converter decimais como strings no modo ANSI
- [SPARK-39625][SQL] Adicionar dataset.to(StructType)
- [SPARK-39787][SQL] Use error class in the parsing error of function to_timestamp
- Atualizações de segurança do sistema operacional.
-
27 de julho de 2022
- [SPARK-39689]Suporte a 2 caracteres
lineSep
na fonte de dados CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39702] [CORE] Reduza a sobrecarga de memória da TransportCipher$encryptedMessage usando um ByteRawChannel compartilhado
- [SPARK-39575][AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer
- [SPARK-39497][SQL] Melhorar a análise da exceção do mapa ausente da coluna key
- [SPARK-39441][SQL] Acelerar DeduplicateRelations
- [SPARK-39476][SQL] Desabilitar a otimização de Unwrap cast ao fazer casting de Long para Float/Double ou de Integer para Float
- [SPARK-39434][SQL] Fornecer contexto de consulta de erro de tempo de execução quando o índice da matriz estiver fora dos limites
- [SPARK-39570][SQL] A tabela inline deve permitir expressões com alias
- Atualizações de segurança do sistema operacional.
- [SPARK-39689]Suporte a 2 caracteres
-
13 de julho de 2022
- Tornar os resultados das operações de mesclagem do Delta consistentes quando a fonte não for determinística.
- Foi corrigido um problema no tvF cloud_files_state ao ser executado em caminhos não DBFS.
- Desativou o uso do Auto Loader de APIs nativas da nuvem para listagem de diretórios no Azure.
- [SPARK-38796][SQL] Atualizar as funções to_number e try_to_number para permitir PR com números positivos
- [SPARK-39272][SQL] Aumentar a posição inicial do contexto da consulta em 1
- [SPARK-39419][SQL] Corrigir o ArraySort para lançar uma exceção quando o comparador retornar nulo
- Atualizações de segurança do sistema operacional.
-
5 de julho de 2022
- Melhoria nas mensagens de erro para uma variedade de classes de erro.
- [SPARK-39451][SQL] Suporte a intervalos de conversão para integrais no modo ANSI
- [SPARK-39361] Não use o padrão de conversão descartável estendido do Log4J2 nas configurações de registro default
- [SPARK-39354][SQL] Garantir a exibição de
Table or view not found
mesmo que hajadataTypeMismatchError
relacionado aFilter
ao mesmo tempo - [SPARK-38675] [CORE] Corrija a corrida durante o desbloqueio no BlockInfoManager
- [SPARK-39392][SQL] Refinar mensagens de erro ANSI para dicas de função try_*
- [SPARK-39214][SQL][3.3] Melhorar os erros relacionados ao CAST
- [SPARK-37939][SQL] Use classes de erro nos erros de análise de propriedades
- [SPARK-39085][SQL] Mova a mensagem de erro de
INCONSISTENT_BEHAVIOR_CROSS_VERSION
para as classes de erro.JSON - [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta da união NATURAL/USING
- [SPARK-39283] [CORE] Corrige o impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar os nomes dos campos ao ler arquivos
- Atualizações de segurança do sistema operacional.
Databricks Runtime 10,5 (EoS)
Consulte o Databricks Runtime 10.5 (EoS).
-
1 de novembro de 2022
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
_change_type
, mas o feed de dados de alteração estivesse desativado nessa tabela, os dados nessa coluna seriam preenchidos incorretamente com valores NULL ao executarMERGE
. - [SPARK-40697][SQL] Adicionar preenchimento de caracteres do lado da leitura para cobrir arquivos de dados externos
- [SPARK-40596] [CORE] Preencha ExecutorDecommissionInfo com mensagens em ExecutorDecommissionInfo
- Atualizações de segurança do sistema operacional.
- Foi corrigido um problema em que, se uma tabela Delta tivesse uma coluna definida pelo usuário chamada
-
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- Os usuários podem definir spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") para reativar a listagem nativa do Auto Loader no ADLS Gen2. A listagem nativa foi desativada anteriormente devido a problemas de desempenho, mas pode ter levado a um aumento nos custos de armazenamento para os clientes. Essa alteração foi implementada no DBR 10.4 e 9.1 na atualização de manutenção anterior.
- O reload4j foi atualizado para 1.2.19 para corrigir vulnerabilidades.
- [SPARK-40460][SS] Corrigir transmissão métricas ao selecionar
_metadata
- [SPARK-40468][SQL] Corrige a poda de colunas em CSV quando _corrupt_record é selecionado
- Atualizações de segurança do sistema operacional.
-
22 de setembro de 2022
- [SPARK-40315][SQL] Adicionar hashCode() para Literal of ArrayBasedMapData
- [SPARK-40213][SQL] Suporte à conversão de valores ASCII para caracteres Latin-1
- [SPARK-40380][SQL] Corrigir o constant-folding do InvokeLike para evitar literal não serializável embutido no plano
- [SPARK-38404][SQL] Melhorar a resolução de CTE quando um CTE aninhado fizer referência a um CTE externo
- [SPARK-40089][SQL] Corrigir a classificação de alguns tipos decimais
- [SPARK-39887][SQL] RemoveRedundantAliases deve manter os aliases que tornam exclusiva a saída dos nós de projeção.
- Atualizações de segurança do sistema operacional.
-
6 de setembro de 2022
- [SPARK-40235][CORE] Usar bloqueio interruptível em vez de sincronizado em executor.updateDependencies()
- [SPARK-39976][SQL] ArrayIntersect deve tratar corretamente o nulo na expressão à esquerda
- [SPARK-40053][CORE][SQL][TESTS] Adicionar
assume
aos casos de cancelamento dinâmico que exigem o ambiente de tempo de execução do Python - [SPARK-35542][CORE][ML] Correção: o Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de ser salvo
- [SPARK-40079] [CORE] Adicionar validação Imputer InputCols para caixa de entrada vazia
-
24 de agosto de 2022
- [SPARK-39983][CORE][SQL] Não armazenar em cache as relações de transmissão não serializadas no driver
- [SPARK-39775][CORE][AVRO] Desativar a validação dos valores de default ao analisar os esquemas de Avro
- [SPARK-39806] Corrigido o problema nas consultas que acessavam a estrutura METADATA (falha) em tabelas particionadas
- [SPARK-39962][Python][SQL] Aplicar projeção quando os atributos do grupo estiverem vazios
- [SPARK-37643][SQL] Quando charVarcharAsString for true, a consulta de predicado de tipo de dados char deve ignorar a regra de rpadding
- Atualizações de segurança do sistema operacional.
-
9 de agosto de 2022
- [SPARK-39847] Corrige a condição de corrida em RocksDBloader.loadLibrary () se o thread do chamador for interrompido
- [SPARK-39731][SQL] Corrigir o problema em CSV e JSON fonte de dados ao analisar datas no formato "yyyyMMdd" com a política de análise de tempo CORRIGIDA
- Atualizações de segurança do sistema operacional.
-
27 de julho de 2022
- [SPARK-39625][SQL] Adicionar dataset.as(StructType)
- [SPARK-39689]Suporte a 2 caracteres
lineSep
na fonte de dados CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39570][SQL] A tabela inline deve permitir expressões com alias
- [SPARK-39702] [CORE] Reduza a sobrecarga de memória da TransportCipher$encryptedMessage usando um ByteRawChannel compartilhado
- [SPARK-39575][AVRO] adicionar ByteBuffer#rewind após ByteBuffer#get no AvroDeserializer
- [SPARK-39476][SQL] Desabilitar a otimização de Unwrap cast ao fazer casting de Long para Float/Double ou de Integer para Float
- Atualizações de segurança do sistema operacional.
-
13 de julho de 2022
- Tornar os resultados das operações de mesclagem do Delta consistentes quando a fonte não for determinística.
- [SPARK-39355][SQL] Coluna única usa aspas para construir UnresolvedAttribute
- [SPARK-39548][SQL] O comando CreateView com uma consulta de cláusula de janela atingiu um problema de definição de janela incorreta não encontrada
- [SPARK-39419][SQL] Corrigir o ArraySort para lançar uma exceção quando o comparador retornar nulo
- Desativou o uso do Auto Loader de APIs nativas da nuvem para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
-
5 de julho de 2022
- [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta da união NATURAL/USING
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2022
- [SPARK-39283] [CORE] Corrige o impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar os nomes dos campos ao ler arquivos
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value ignorar nulos na janela de deslocamento
- [SPARK-36718][SQL][FOLLOWUP] Corrigir a verificação
isExtractOnly
em CollapseProject
-
2 de junho de 2022
- [SPARK-39166][SQL] Fornecer contexto de consulta de erro de tempo de execução para aritmética binária quando o WSCG estiver desativado
- [SPARK-39093][SQL] Evite o erro de compilação do codegen ao dividir intervalos de ano-mês ou intervalos de dia por uma integral
- [SPARK-38990][SQL] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
-
18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Auto Loader.
- [SPARK-38868][SQL]Não propagar exceções do predicado de filtro ao otimizar a união externa
- [SPARK-38796][SQL] Implemente as funções SQL to_number e try_to_number de acordo com uma nova especificação
- [SPARK-38918][SQL] A poda de colunas aninhadas deve filtrar os atributos que não pertencem à relação atual
- [SPARK-38929][SQL] Aprimorar as mensagens de erro para falhas de conversão em ANSI
- [SPARK-38926][SQL] Tipos de saída em mensagens de erro no estilo SQL
- [SPARK-39084][PySpark] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador na conclusão da tarefa
- [SPARK-32268][SQL] Adicionar ColumnPruning em injectBloomFilter
- [SPARK-38908][SQL] Fornecer contexto de consulta no erro de tempo de execução de Casting from strings to Number/Date/Timestamp/Boolean
- [SPARK-39046][SQL] Retorna uma cadeia de contexto vazia se TreeNode.origin estiver definido incorretamente
- [SPARK-38974][SQL] Filtrar funções registradas com um determinado nome de banco de dados em funções de lista
- [SPARK-38762][SQL] Fornecer contexto de consulta em erros de estouro decimal
- [SPARK-38931][SS] Criar diretório raiz do dfs para o RocksDBFileManager com número desconhecido de chaves no primeiro ponto de verificação
- [SPARK-38992] [CORE] Evite usar bash -c em ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] Provide query context in map key not exists error
- [SPARK-38889][SQL] Compilar filtros de coluna booleanos para usar o tipo de bit para MSSQL fonte de dados
- [SPARK-38698][SQL] Fornecer contexto de consulta no erro de tempo de execução de Divide/Div/Reminder/Pmod
- [SPARK-38823][SQL] Tornar
NewInstance
não dobrável para corrigir o problema de corrupção do buffer de agregação - [SPARK-38809][SS] Implementar opção para ignorar valores nulos na implementação de hash simétrico da união transmissão-transmissão
- [SPARK-38676][SQL] Fornecer contexto de consulta SQL na mensagem de erro de tempo de execução de Add/Subtract/Multiply
- [SPARK-38677][PySpark] Python MonitorThread deve detectar deadlock devido ao bloqueio de E/S
- Atualizações de segurança do sistema operacional.
Databricks Runtime 10,3 (EoS)
Consulte o Databricks Runtime 10.3 (EoS).
-
27 de julho de 2022
- [SPARK-39689]Suporte a 2 caracteres
lineSep
na fonte de dados CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded deve ser thread-safe
- [SPARK-39702] [CORE] Reduza a sobrecarga de memória da TransportCipher$encryptedMessage usando um ByteRawChannel compartilhado
- Atualizações de segurança do sistema operacional.
- [SPARK-39689]Suporte a 2 caracteres
-
20 de julho de 2022
- Tornar os resultados das operações de mesclagem do Delta consistentes quando a fonte não for determinística.
- [SPARK-39476][SQL] Desabilitar a otimização de Unwrap cast ao fazer casting de Long para Float/Double ou de Integer para Float
- [SPARK-39548][SQL] O comando CreateView com uma consulta de cláusula de janela atingiu um problema de definição de janela incorreta não encontrada
- [SPARK-39419][SQL] Corrigir o ArraySort para lançar uma exceção quando o comparador retornar nulo
- Atualizações de segurança do sistema operacional.
-
5 de julho de 2022
- [SPARK-39376][SQL] Ocultar colunas duplicadas na expansão em estrela do alias de subconsulta da união NATURAL/USING
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2022
- [SPARK-39283] [CORE] Corrige o impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar os nomes dos campos ao ler arquivos
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value ignorar nulos na janela de deslocamento
- [SPARK-36718][SQL][FOLLOWUP] Corrigir a verificação
isExtractOnly
em CollapseProject
-
2 de junho de 2022
- [SPARK-38990][SQL] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
-
18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Auto Loader.
- [SPARK-38918][SQL] A poda de colunas aninhadas deve filtrar os atributos que não pertencem à relação atual
- [SPARK-37593][CORE] Reduzir o tamanho da página default em LONG_ARRAY_OFFSET se G1GC e ON_HEAP forem usados
- [SPARK-39084][PySpark] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador na conclusão da tarefa
- [SPARK-32268][SQL] Adicionar ColumnPruning em injectBloomFilter
- [SPARK-38974][SQL] Filtrar funções registradas com um determinado nome de banco de dados em funções de lista
- [SPARK-38889][SQL] Compilar filtros de coluna booleanos para usar o tipo de bit para MSSQL fonte de dados
- Atualizações de segurança do sistema operacional.
-
4 de maio de 2022
- Atualização do Java AWS SDK da versão 1.11.655 para a 1.12.1899.
-
19 de abril de 2022
- [SPARK-38616][SQL] Mantenha o controle do texto da consulta SQL no Catalyst TreeNode
- Atualizações de segurança do sistema operacional.
-
6 de abril de 2022
- [SPARK-38631] [CORE] Usa implementação baseada em Java para descompactar em utils.unpack
- Atualizações de segurança do sistema operacional.
-
22 de março de 2022
- Alterou o diretório de trabalho atual do Notebook no cluster de alta simultaneidade com o controle de acesso da tabela ou a passagem de credenciais ativada para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
/databricks/driver
. - [SPARK-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados não suportados
- [SPARK-38325][SQL] Modo ANSI: evitar possível erro de tempo de execução em HashJoin.extractKeyExprAt()
- Alterou o diretório de trabalho atual do Notebook no cluster de alta simultaneidade com o controle de acesso da tabela ou a passagem de credenciais ativada para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
-
14 de março de 2022
- Melhoria na detecção de conflitos de transações para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] regressão ao substituir um dataset view
- [SPARK-38236][SQL] Os caminhos de arquivo absolutos especificados na create/alter table são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do registro de data e hora deve funcionar no modo ANSI
- [SPARK-34069][SQL] Eliminar barreira que a tarefa deve respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir a atribuição de armazenamento entre TimestampNTZ e Date/Timestamp
-
23 de fevereiro de 2022
- [SPARK-27442][SQL] Remover o nome do campo de verificação ao ler/gravar dados no Parquet
Databricks Runtime 10,2 (EoS)
Consulte o Databricks Runtime 10.2 (EoS).
-
15 de junho de 2022
- [SPARK-39283] [CORE] Corrige o impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar os nomes dos campos ao ler arquivos
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value ignorar nulos na janela de deslocamento
-
2 de junho de 2022
- [SPARK-38918][SQL] A poda de colunas aninhadas deve filtrar os atributos que não pertencem à relação atual
- [SPARK-38990][SQL] Evite NullPointerException ao avaliar o formato date_trunc/trunc como uma referência vinculada
- Atualizações de segurança do sistema operacional.
-
18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Auto Loader.
- [SPARK-39084][PySpark] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador na conclusão da tarefa
- [SPARK-38889][SQL] Compilar filtros de coluna booleanos para usar o tipo de bit para MSSQL fonte de dados
- [SPARK-38931][SS] Criar diretório raiz do dfs para o RocksDBFileManager com número desconhecido de chaves no primeiro ponto de verificação
- Atualizações de segurança do sistema operacional.
-
4 de maio de 2022
- Atualização do Java AWS SDK da versão 1.11.655 para a 1.12.1899.
-
19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
6 de abril de 2022
- [SPARK-38631] [CORE] Usa implementação baseada em Java para descompactar em utils.unpack
- Atualizações de segurança do sistema operacional.
-
22 de março de 2022
- Alterou o diretório de trabalho atual do Notebook no cluster de alta simultaneidade com o controle de acesso da tabela ou a passagem de credenciais ativada para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
/databricks/driver
. - [SPARK-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados não suportados
- [SPARK-38325][SQL] Modo ANSI: evitar possível erro de tempo de execução em HashJoin.extractKeyExprAt()
- Alterou o diretório de trabalho atual do Notebook no cluster de alta simultaneidade com o controle de acesso da tabela ou a passagem de credenciais ativada para o diretório pessoal do usuário. Anteriormente, o diretório de trabalho era
-
14 de março de 2022
- Melhoria na detecção de conflitos de transações para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] regressão ao substituir um dataset view
- [SPARK-38236][SQL] Os caminhos de arquivo absolutos especificados na create/alter table são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do registro de data e hora deve funcionar no modo ANSI
- [SPARK-34069][SQL] Eliminar barreira que a tarefa deve respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir a atribuição de armazenamento entre TimestampNTZ e Date/Timestamp
-
23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrigir ClassCastException: ArrayType não pode ser convertido em StructType para Generate Pruning
-
8 de fevereiro de 2022
- [SPARK-27442][SQL] Remover o nome do campo de verificação ao ler/gravar dados em Parquet.
- Atualizações de segurança do sistema operacional.
-
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
26 de janeiro de 2022
- Foi corrigido um bug em que as transações concorrente nas tabelas Delta podiam commit em uma ordem não serializável em determinadas condições raras.
- Foi corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava ativado.
-
19 de janeiro de 2022
- Foi introduzido o suporte para credenciais temporárias embutidas no COPY INTO para carregar os dados de origem sem exigir permissões SQL ANY_FILE.
- Correções de bugs e aprimoramentos de segurança.
-
20 de dezembro de 2021
- Correção de um bug raro com a filtragem baseada em índice de coluna Parquet.
Databricks Runtime 10.1 (EoS)
Consulte o Databricks Runtime 10.1 (EoS).
-
15 de junho de 2022
- [SPARK-39283] [CORE] Corrige o impasse entre TaskMemoryManager e UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] O Spark não deve verificar os nomes dos campos ao ler arquivos
- [SPARK-34096][SQL] Melhorar o desempenho para nth_value ignorar nulos na janela de deslocamento
-
2 de junho de 2022
- Atualizações de segurança do sistema operacional.
-
18 de maio de 2022
- Corrige um possível vazamento de memória nativa no Auto Loader.
- [SPARK-39084][PySpark] Corrigir df.rdd.isEmpty() usando TaskContext para parar o iterador na conclusão da tarefa
- [SPARK-38889][SQL] Compilar filtros de coluna booleanos para usar o tipo de bit para MSSQL fonte de dados
- Atualizações de segurança do sistema operacional.
-
19 de abril de 2022
- [SPARK-37270][SQL] Correção do push foldable nas ramificações CaseWhen se elseValue estiver vazio
- Atualizações de segurança do sistema operacional.
-
6 de abril de 2022
- [SPARK-38631] [CORE] Usa implementação baseada em Java para descompactar em utils.unpack
- Atualizações de segurança do sistema operacional.
-
22 de março de 2022
- [SPARK-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados não suportados
- [SPARK-38325][SQL] Modo ANSI: evitar possível erro de tempo de execução em HashJoin.extractKeyExprAt()
-
14 de março de 2022
- Melhoria na detecção de conflitos de transações para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] regressão ao substituir um dataset view
- [SPARK-38236][SQL] Os caminhos de arquivo absolutos especificados na create/alter table são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do registro de data e hora deve funcionar no modo ANSI
- [SPARK-34069][SQL] Eliminar barreira que a tarefa deve respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir a atribuição de armazenamento entre TimestampNTZ e Date/Timestamp
-
23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrigir ClassCastException: ArrayType não pode ser convertido em StructType para Generate Pruning
-
8 de fevereiro de 2022
- [SPARK-27442][SQL] Remover o nome do campo de verificação ao ler/gravar dados em Parquet.
- Atualizações de segurança do sistema operacional.
-
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
26 de janeiro de 2022
- Foi corrigido um bug em que as transações concorrente nas tabelas Delta podiam commit em uma ordem não serializável em determinadas condições raras.
- Foi corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava ativado.
-
19 de janeiro de 2022
- Foi introduzido o suporte para credenciais temporárias embutidas no COPY INTO para carregar os dados de origem sem exigir permissões SQL ANY_FILE.
- Corrigido um problema de falta de memória com o cache de resultados de consultas sob certas condições.
- Foi corrigido um problema com
USE DATABASE
quando um usuário alternava o catálogo atual para um catálogo que não era odefault. - Correções de bugs e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
-
20 de dezembro de 2021
- Correção de um bug raro com a filtragem baseada em índice de coluna Parquet.
Databricks Runtime 10,0 (EoS)
Consulte Databricks Runtime 10.0 (EoS).
-
19 de abril de 2022
- [SPARK-37270][SQL] Correção do push foldable nas ramificações CaseWhen se elseValue estiver vazio
- Atualizações de segurança do sistema operacional.
-
6 de abril de 2022
- [SPARK-38631] [CORE] Usa implementação baseada em Java para descompactar em utils.unpack
- Atualizações de segurança do sistema operacional.
-
22 de março de 2022
- [SPARK-38437][SQL] Serialização leniente de data e hora da fonte de dados
- [SPARK-38180][SQL] Permitir expressões up-cast seguras em predicados de igualdade correlacionados
- [SPARK-38155][SQL] Não permitir agregação distinta em subconsultas laterais com predicados não suportados
- [SPARK-38325][SQL] Modo ANSI: evitar possível erro de tempo de execução em HashJoin.extractKeyExprAt()
-
14 de março de 2022
- Melhoria na detecção de conflitos de transações para transações vazias no Delta Lake.
- [SPARK-38185][SQL] Corrigir dados incorretos se a função de agregação estiver vazia
- [SPARK-38318][SQL] regressão ao substituir um dataset view
- [SPARK-38236][SQL] Os caminhos de arquivo absolutos especificados na create/alter table são tratados como relativos
- [SPARK-35937][SQL] A extração do campo de data do registro de data e hora deve funcionar no modo ANSI
- [SPARK-34069][SQL] Eliminar barreira que a tarefa deve respeitar
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Permitir a atribuição de armazenamento entre TimestampNTZ e Date/Timestamp
-
23 de fevereiro de 2022
- [SPARK-37577][SQL] Corrigir ClassCastException: ArrayType não pode ser convertido em StructType para Generate Pruning
-
8 de fevereiro de 2022
- [SPARK-27442][SQL] Remover o nome do campo de verificação ao ler/gravar dados em Parquet.
- [SPARK-36905][SQL] Corrigir a leitura da visualização da colmeia sem nomes de coluna explícitos
- [SPARK-37859][SQL] Corrige o problema de que as tabelas SQL criadas com JDBC no Spark 3.1 não são legíveis no 3.2
- Atualizações de segurança do sistema operacional.
-
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
26 de janeiro de 2022
- Foi corrigido um bug em que as transações concorrente nas tabelas Delta podiam commit em uma ordem não serializável em determinadas condições raras.
- Foi corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava ativado.
-
19 de janeiro de 2022
- Correções de bugs e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
-
20 de dezembro de 2021
- Correção de um bug raro com a filtragem baseada em índice de coluna Parquet.
-
9 de novembro de 2021
- Introduziu sinalizadores de configuração adicionais para permitir o controle refinado dos comportamentos ANSI.
-
4 de novembro de 2021
- Foi corrigido um bug que podia fazer com que a transmissão estruturada falhasse com uma ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que poderia fazer com que as modificações emsparkContext.hadoopConfiguration
não entrassem em vigor nas consultas. - O conector Apache Spark para Delta Sharing foi atualizado para a versão 0.2.0.
-
30 de novembro de 2021
- Foi corrigido um problema com a análise de carimbo de data/hora em que uma cadeia de caracteres de fuso horário sem dois pontos era considerada inválida.
- Corrigido um problema de falta de memória com o cache de resultados de consultas sob certas condições.
- Foi corrigido um problema com
USE DATABASE
quando um usuário alternava o catálogo atual para um catálogo que não era odefault.
Databricks Runtime 9,0 (EoS)
Consulte Databricks Runtime 9.0 (EoS).
-
8 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
26 de janeiro de 2022
- Foi corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava ativado.
-
19 de janeiro de 2022
- Correções de bugs e aprimoramentos de segurança.
- Atualizações de segurança do sistema operacional.
-
4 de novembro de 2021
- Foi corrigido um bug que podia fazer com que a transmissão estruturada falhasse com uma ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que poderia fazer com que as modificações emsparkContext.hadoopConfiguration
não entrassem em vigor nas consultas. - O conector Apache Spark para Delta Sharing foi atualizado para a versão 0.2.0.
-
22 de setembro de 2021
- Foi corrigido um bug na conversão de Spark array com null para strings
-
15 de setembro de 2021
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
-
8 de setembro de 2021
- Foi adicionado suporte ao nome do esquema (formato
databaseName.schemaName.tableName
) como o nome da tabela de destino para o Conector do Azure Synapse. - Foi adicionado suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- [SPARK-33527][SQL] Estendeu a função de decodificação para ser consistente com os principais bancos de dados.
- [SPARK-36532] [NÚCLEO][3,1] Corrigido o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir o desligamento do executor.
- Foi adicionado suporte ao nome do esquema (formato
-
25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1.jre8.
- O conector Snowflake foi atualizado para a versão 2.9.0.
- Corrigido o link quebrado para o melhor Notebook de teste na página de experimentos do AutoML.
Databricks Runtime 8,4 (EoS)
Consulte Databricks Runtime 8.4 (EoS).
-
19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
-
4 de novembro de 2021
- Foi corrigido um bug que podia fazer com que a transmissão estruturada falhasse com uma ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que poderia fazer com que as modificações emsparkContext.hadoopConfiguration
não entrassem em vigor nas consultas. - O conector Apache Spark para Delta Sharing foi atualizado para a versão 0.2.0.
-
22 de setembro de 2021
- O driver Spark JDBC foi atualizado para a versão 2.6.19.1030
- [SPARK-36734][SQL] Atualize o ORC para a versão 1.5.1
-
15 de setembro de 2021
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
-
8 de setembro de 2021
- [SPARK-36532] [NÚCLEO][3,1] Corrigido o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir o desligamento do executor.
- [SPARK-36532] [NÚCLEO][3,1] Corrigido o deadlock em
-
25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1.jre8.
- O conector Snowflake foi atualizado para a versão 2.9.0.
- Corrige um bug na passagem de credenciais causado pela nova otimização de pré-busca do Parquet, em que a credencial de passagem do usuário pode não ser encontrada durante o acesso ao arquivo.
-
11 de agosto de 2021
- Corrige um problema de incompatibilidade do RocksDB que impede o Databricks Runtime 8.4 mais antigo. Isso corrige a compatibilidade futura com os aplicativos Auto Loader,
COPY INTO
e stateful transmission. - Corrige um erro no Auto Loader com caminhos S3 ao usar o Auto Loader sem a opção
path
. - Corrige um bug que configurava incorretamente o endpoint AWS STS como Amazon Kinesis endpoint para a fonte Kinesis.
- Corrige um erro ao usar o Auto Loader para ler arquivos CSV com arquivos de cabeçalho incompatíveis. Se os nomes das colunas não corresponderem, a coluna será preenchida com nulos. Agora, se um esquema for fornecido, ele presume que o esquema é o mesmo e só salvará as incompatibilidades de coluna se as colunas de dados resgatadas estiverem habilitadas.
- Adiciona uma nova opção chamada
externalDataSource
ao conector do Azure Synapse para remover o requisito de permissãoCONTROL
no banco de dados para leitura do PolyBase.
- Corrige um problema de incompatibilidade do RocksDB que impede o Databricks Runtime 8.4 mais antigo. Isso corrige a compatibilidade futura com os aplicativos Auto Loader,
-
29 de julho de 2021
- [SPARK-36034][BUILD] Rebase datetime in pushed down filters to Parquet
- [SPARK-36163][BUILD] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar a opção
connectionProvider
Databricks Runtime 8,3 (EoS)
Consulte o Databricks Runtime 8.3 (EoS).
-
19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
-
4 de novembro de 2021
- Foi corrigido um bug que podia fazer com que a transmissão estruturada falhasse com uma ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que poderia fazer com que as modificações emsparkContext.hadoopConfiguration
não entrassem em vigor nas consultas.
-
22 de setembro de 2021
- O driver Spark JDBC foi atualizado para a versão 2.6.19.1030
-
15 de setembro de 2021
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
-
8 de setembro de 2021
- [SPARK-35700][SQL][WARMFIX] Ler tabela orc char/varchar quando criada e gravada por sistemas externos.
- [SPARK-36532] [NÚCLEO][3,1] Corrigido o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir o desligamento do executor.
-
25 de agosto de 2021
- A biblioteca de drivers do SQL Server foi atualizada para 9.2.1.jre8.
- O conector Snowflake foi atualizado para a versão 2.9.0.
- Corrige um bug na passagem de credenciais causado pela nova otimização de pré-busca do Parquet, em que a credencial de passagem do usuário pode não ser encontrada durante o acesso ao arquivo.
-
11 de agosto de 2021
- Corrige um bug que configurava incorretamente o endpoint AWS STS como Amazon Kinesis endpoint para a fonte Kinesis.
- Corrige um erro ao usar o Auto Loader para ler arquivos CSV com arquivos de cabeçalho incompatíveis. Se os nomes das colunas não corresponderem, a coluna será preenchida com nulos. Agora, se um esquema for fornecido, ele presume que o esquema é o mesmo e só salvará as incompatibilidades de coluna se as colunas de dados resgatadas estiverem habilitadas.
-
29 de julho de 2021
- Atualize o conector do Databricks Snowflake Spark para 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Rebase datetime in pushed down filters to Parquet
- [SPARK-36163][BUILD] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar a opção
connectionProvider
-
14 de julho de 2021
- Foi corrigido um problema ao usar nomes de colunas com pontos no conector do Azure Synapse.
- Introduziu o formato
database.schema.table
para o Synapse Connector. - Foi adicionado suporte para fornecer o formato
databaseName.schemaName.tableName
como tabela de destino em vez de apenasschemaName.tableName
outableName
.
-
15 de junho de 2021
- Corrigido um bug do
NoSuchElementException
nas gravações otimizadas do Delta Lake que podia ocorrer ao gravar grandes quantidades de dados e encontrar perdas no executor - Adiciona SQL
CREATE GROUP
,DROP GROUP
,ALTER GROUP
,SHOW GROUPS
eSHOW USERS
comando. Para obter detalhes, consulte Declarações de segurança e Mostrar declarações.
- Corrigido um bug do
Databricks Runtime 8,2 (EoS)
Consulte Databricks Runtime 8.2 (EoS).
-
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
-
15 de setembro de 2021
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
-
8 de setembro de 2021
- [SPARK-35700][SQL][WARMFIX] Ler tabela orc char/varchar quando criada e gravada por sistemas externos.
- [SPARK-36532] [NÚCLEO][3,1] Corrigido o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir o desligamento do executor.
-
25 de agosto de 2021
- O conector Snowflake foi atualizado para a versão 2.9.0.
-
11 de agosto de 2021
- Corrige um bug que configurava incorretamente o endpoint AWS STS como Amazon Kinesis endpoint para a fonte Kinesis.
- [SPARK-36034][SQL] Rebase datetime in pushed down filters to Parquet.
-
29 de julho de 2021
- Atualize o conector do Databricks Snowflake Spark para 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar a opção
connectionProvider
-
14 de julho de 2021
- Foi corrigido um problema ao usar nomes de colunas com pontos no conector do Azure Synapse.
- Introduziu o formato
database.schema.table
para o Synapse Connector. - Foi adicionado suporte para fornecer o formato
databaseName.schemaName.tableName
como tabela de destino em vez de apenasschemaName.tableName
outableName
. - Foi corrigido um bug que impedia que os usuários viajassem no tempo para versões anteriores disponíveis com tabelas Delta.
-
15 de junho de 2021
- Corrige um bug do
NoSuchElementException
nas gravações otimizadas do Delta Lake que pode ocorrer ao gravar grandes quantidades de dados e encontrar perdas no executor
- Corrige um bug do
-
26 de maio de 2021
- Atualização do Python com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
- O cache de disco é ativado por default em todas as instâncias de GCP, exceto as da família -highcpu- . Para instâncias de -highcpu- , o cache é pré-configurado, mas desativado por default. Ele pode ser ativado usando o spark confing
spark.databricks.io.cache.enabled true
.
-
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualizar o resolvedor do spark-pacote no SparkSubmit
- [SPARK-34245][CORE] Garantir que o mestre remova o executor que não conseguiu enviar o estado finalizado
- Foi corrigido um problema de OOM quando o site Auto Loader informava a transmissão estruturada de métricas de progresso.
Databricks Runtime 8.1 (EoS)
Consulte Databricks Runtime 8.1 (EoS).
-
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
-
15 de setembro de 2021
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
-
8 de setembro de 2021
- [SPARK-35700][SQL][WARMFIX] Ler tabela orc char/varchar quando criada e gravada por sistemas externos.
- [SPARK-36532] [NÚCLEO][3,1] Corrigido o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir o desligamento do executor.
-
25 de agosto de 2021
- O conector Snowflake foi atualizado para a versão 2.9.0.
-
11 de agosto de 2021
- Corrige um bug que configurava incorretamente o endpoint AWS STS como Amazon Kinesis endpoint para a fonte Kinesis.
- [SPARK-36034][SQL] Rebase datetime in pushed down filters to Parquet.
-
29 de julho de 2021
- Atualize o conector do Databricks Snowflake Spark para 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar a opção
connectionProvider
-
14 de julho de 2021
- Foi corrigido um problema ao usar nomes de colunas com pontos no conector do Azure Synapse.
- Foi corrigido um bug que impedia que os usuários viajassem no tempo para versões anteriores disponíveis com tabelas Delta.
-
15 de junho de 2021
- Corrige um bug do
NoSuchElementException
nas gravações otimizadas do Delta Lake que pode ocorrer ao gravar grandes quantidades de dados e encontrar perdas no executor
- Corrige um bug do
-
26 de maio de 2021
- Atualização do Python com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
- O cache de disco é ativado por default em todas as instâncias de GCP, exceto as da família -highcpu- . Para instâncias de -highcpu- , o cache é pré-configurado, mas desativado por default. Ele pode ser ativado usando o spark confing
spark.databricks.io.cache.enabled true
.
-
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualizar o resolvedor do spark-pacote no SparkSubmit
- Foi corrigido um problema de OOM quando o site Auto Loader informava a transmissão estruturada de métricas de progresso.
-
27 de abril de 2021
- [SPARK-34245][CORE] Garantir que o mestre remova o executor que não conseguiu enviar o estado finalizado
- [SPARK-34856][SQL] Modo ANSI: Permitir a conversão de tipos complexos como tipos de cadeias de caracteres
- [SPARK-35014] Corrija o padrão PhysicalAggregation para não reescrever expressões dobráveis
- [SPARK-34769][SQL] AnsiTypeCoercion: retorna o tipo conversível mais estreito entre TypeCollection
- [SPARK-34614][SQL] Modo ANSI: A conversão de strings para Boolean lançará uma exceção em caso de erro de análise
- [SPARK-33794][SQL] Modo ANSI: Correção da expressão NextDay para lançar IllegalArgumentException em tempo de execução ao receber entrada inválida em
Databricks Runtime 8,0 (EoS)
Consulte Databricks Runtime 8.0 (EoS).
-
15 de setembro de 2021
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
.
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
-
25 de agosto de 2021
- O conector Snowflake foi atualizado para a versão 2.9.0.
-
11 de agosto de 2021
- Corrige um bug que configurava incorretamente o endpoint AWS STS como Amazon Kinesis endpoint para a fonte Kinesis.
- [SPARK-36034][SQL] Rebase datetime in pushed down filters to Parquet.
-
29 de julho de 2021
- [SPARK-36163][BUILD] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar a opção
connectionProvider
- [SPARK-36163][BUILD] Propagar propriedades JDBC corretas no provedor de conector JDBC e adicionar a opção
-
14 de julho de 2021
- Foi corrigido um problema ao usar nomes de colunas com pontos no conector do Azure Synapse.
- Foi corrigido um bug que impedia que os usuários viajassem no tempo para versões anteriores disponíveis com tabelas Delta.
-
26 de maio de 2021
- Atualização do Python com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
- O cache de disco é ativado por default em todas as instâncias de GCP, exceto as da família -highcpu- . Para instâncias de -highcpu- , o cache é pré-configurado, mas desativado por default. Ele pode ser ativado usando o spark confing
spark.databricks.io.cache.enabled true
. - Habilite a instalação da biblioteca Maven.
-
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualizar o resolvedor do spark-pacote no SparkSubmit
- [SPARK-34245][CORE] Garantir que o mestre remova o executor que não conseguiu enviar o estado finalizado
-
24 de março de 2021
- [SPARK-34681][SQL] Corrigir bug do hash embaralhado externo completo join ao construir o lado esquerdo com condição não igual
- [SPARK-34534] Corrige a ordem BlockIds ao usar fetchShuffleBlocks para buscar blocos
- [SPARK-34613][SQL] Corrigir view não captura a configuração da dica de desativação
-
9 de março de 2021
- [SPARK-34543][SQL] Respeite a configuração
spark.sql.caseSensitive
ao resolver a especificação de partição na v1SET LOCATION
- [SPARK-34392][SQL] Suporte a ZoneOffset +h em DateTimeUtils. Obter ID de zona
- [UI] Corrigir o link href da visualização Spark DAG
- [SPARK-34436][SQL] Suporte DPP à expressão LIKE ANY/ALL
- [SPARK-34543][SQL] Respeite a configuração
Databricks Runtime 7,6 (EoS)
Consulte o Databricks Runtime 7.6 (EoS).
-
11 de agosto de 2021
- Corrige um bug que configurava incorretamente o endpoint AWS STS como Amazon Kinesis endpoint para a fonte Kinesis.
- [SPARK-36034][SQL] Rebase datetime in pushed down filters to Parquet.
-
29 de julho de 2021
- [SPARK-32998][BUILD] Adicionar capacidade de substituir default repos remotos apenas com repos internos
-
14 de julho de 2021
- Foi corrigido um bug que impedia que os usuários viajassem no tempo para versões anteriores disponíveis com tabelas Delta.
-
26 de maio de 2021
- Atualização do Python com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
- O cache de disco é ativado por default em todas as instâncias de GCP, exceto as da família -highcpu- . Para instâncias de -highcpu- , o cache é pré-configurado, mas desativado por default. Ele pode ser ativado usando o spark confing
spark.databricks.io.cache.enabled true
. - Habilite a instalação da biblioteca Maven.
-
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualizar o resolvedor do spark-pacote no SparkSubmit
- [SPARK-34245][CORE] Garantir que o mestre remova o executor que não conseguiu enviar o estado finalizado
-
24 de março de 2021
- [SPARK-34768][SQL] Respeitar o tamanho do buffer de entrada default em Univocity
- [SPARK-34534] Corrige a ordem BlockIds ao usar fetchShuffleBlocks para buscar blocos
-
9 de março de 2021
- (Azure only) Corrigido um bug no Auto Loader que podia causar NullPointerException ao usar o Databricks Runtime 7.6 para executar uma transmissão Auto Loader antiga criada no Databricks Runtime 7.2.
- [UI] Corrigir o link href da visualização Spark DAG
- O SparkPlan de nó de folha desconhecido não é tratado corretamente em SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure o esquema de saída do
SHOW DATABASES
- [Delta][8.0, 7.6] Corrigido o erro de cálculo na lógica de ajuste automático do tamanho do arquivo
- Desativar a verificação de obsoletismo para arquivos de tabela Delta no cache de disco
- [SQL] Use a construção de poda dinâmica correta key quando a dica do intervalo join estiver presente
- Desabilitar o suporte ao tipo char em um caminho de código não SQL
- Evite o NPE em DataframeReader.schema
- Corrija o NPE quando a resposta do EventGridClient não tem entidade
- Corrigir um bug de transmissão fechada de leitura em Azure Auto Loader
- [SQL] Não gerar aviso de número de partição embaralhada quando o AOS estiver ativado
-
24 de fevereiro de 2021
- Atualizamos o conector Spark BigQuery para a versão 0.18, que apresenta várias correções de bugs e suporte para iteradores Arrow e Avro.
- Foi corrigido um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigido o problema de falha de leitura em tabelas do Microsoft SQL Server que continham tipos de dados espaciais, adicionando suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- Introduziu uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento do default em Hive metastore. Quando definido como false, o Databricks desativa esse processo para otimização. - [SPARK-34212] Corrigidos problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-34260][SQL] Corrigir UnresolvedException ao criar o site temporário view duas vezes.
Databricks Runtime 7,5 (EoS)
Consulte Databricks Runtime 7.5 (EoS).
-
26 de maio de 2021
- Atualização do Python com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
- O cache de disco é ativado por default em todas as instâncias de GCP, exceto as da família -highcpu- . Para instâncias de -highcpu- , o cache é pré-configurado, mas desativado por default. Ele pode ser ativado usando o spark confing
spark.databricks.io.cache.enabled true
. - Habilite a instalação da biblioteca Maven.
-
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualizar o resolvedor do spark-pacote no SparkSubmit
- [SPARK-34245][CORE] Garantir que o mestre remova o executor que não conseguiu enviar o estado finalizado
-
24 de março de 2021
- [SPARK-34768][SQL] Respeitar o tamanho do buffer de entrada default em Univocity
- [SPARK-34534] Corrige a ordem BlockIds ao usar fetchShuffleBlocks para buscar blocos
-
9 de março de 2021
- (Azure only) Corrigido um bug Auto Loader que podia causar NullPointerException ao usar Databricks Runtime 7.5 para executar uma transmissão Auto Loader antiga criada em Databricks Runtime 7.2.
- [UI] Corrigir o link href da visualização Spark DAG
- O SparkPlan de nó de folha desconhecido não é tratado corretamente em SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure o esquema de saída do
SHOW DATABASES
- Desativar a verificação de obsoletismo para arquivos de tabela Delta no cache de disco
- [SQL] Use a construção de poda dinâmica correta key quando a dica do intervalo join estiver presente
- Desabilitar o suporte ao tipo char em um caminho de código não SQL
- Evite o NPE em DataframeReader.schema
- Corrija o NPE quando a resposta do EventGridClient não tem entidade
- Corrigir um bug de transmissão fechada de leitura em Azure Auto Loader
-
24 de fevereiro de 2021
- Atualizamos o conector Spark BigQuery para a versão 0.18, que apresenta várias correções de bugs e suporte para iteradores Arrow e Avro.
- Foi corrigido um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigido o problema de falha de leitura em tabelas do Microsoft SQL Server que continham tipos de dados espaciais, adicionando suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- Introduziu uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento do default em Hive metastore. Quando definido como false, o Databricks desativa esse processo para otimização. - [SPARK-34212] Corrigidos problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-34260][SQL] Corrigir UnresolvedException ao criar o site temporário view duas vezes.
-
4 de fevereiro de 2021
- Foi corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão foi experimentada por usuários que executavam consultas via ODBC/JDBC com a serialização Arrow ativada. - Introduziu verificações de tempo de gravação no cliente Hive para evitar a corrupção de metadados nas tabelas Hive metastore e Delta.
- Foi corrigida uma regressão que fazia com que o DBFS FUSE não começasse a funcionar quando as configurações de clustering variável de ambiente continham sintaxe bash inválida.
- Foi corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
-
20 de janeiro de 2021
- Foi corrigida uma regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorreta e dizer que a coluna é ambígua em um auto join. Essa regressão acontece quando um usuário se junta a um DataFrame com seu DataFrame derivado (o chamado autojoin) com as seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída do self join não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição join ou as seguintes transformações após o Dataframe unido referem-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída do self join não tem colunas em comum. Por exemplo,
- Foi corrigida uma regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorreta e dizer que a coluna é ambígua em um auto join. Essa regressão acontece quando um usuário se junta a um DataFrame com seu DataFrame derivado (o chamado autojoin) com as seguintes condições:
-
12 de janeiro de 2021
- Atualize o SDK de armazenamento do Azure de 2.3.8 para 2.3.9.
- [SPARK-33593][SQL] O leitor de vetores obteve dados incorretos com valor de partição binária
- [SPARK-33480][SQL] atualiza a mensagem de erro da verificação do comprimento de inserção da tabela char/varchar
Databricks Runtime 7.3 (EoS) LTS
Consulte o Databricks Runtime 7.3 LTS (EoS).
-
10 de setembro de 2023
- Correções de bugs diversas.
-
30 de agosto de 2023
- Atualizações de segurança do sistema operacional.
-
15 de agosto de 2023
- Atualizações de segurança do sistema operacional.
-
23 de junho de 2023
- A biblioteca Snowflake-JDBC foi atualizada para a versão 3.13.29 para resolver um problema de segurança.
- Atualizações de segurança do sistema operacional.
-
15 de junho de 2023
- [SPARK-43413][SQL] Corrigir
IN
subqueryListQuery
nullability. - Atualizações de segurança do sistema operacional.
- [SPARK-43413][SQL] Corrigir
-
2 de junho de 2023
- Foi corrigido um problema no Auto Loader em que diferentes formatos de arquivos de origem eram inconsistentes quando o esquema fornecido não incluía partições inferidas. Esse problema pode causar falhas inesperadas ao ler arquivos com colunas ausentes no esquema de partição inferido.
-
17 de maio de 2023
- Atualizações de segurança do sistema operacional.
-
25 de abril de 2023
- Atualizações de segurança do sistema operacional.
-
11 de abril de 2023
- [SPARK-42967][CORE] Corrigir SparkListenerTaskStart.stageAttemptId quando uma tarefa é iniciada depois que a etapa é cancelada.
- Correções de bugs diversas.
-
29 de março de 2023
- Atualizações de segurança do sistema operacional.
-
14 de março de 2023
- Correções de bugs diversas.
-
28 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
-
16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
-
31 de janeiro de 2023
- Os tipos de tabelas de JDBC agora são EXTERNOS por default.
-
18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2022
- Correções de bugs diversas.
-
15 de novembro de 2022
- Atualização do Apache commons-text para a versão 1.10.0.
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
1 de novembro de 2022
- [SPARK-38542][SQL] UnsafeHashedRelation deve serializar numKeys out
-
18 de outubro de 2022
- Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- Correções de bugs diversas.
- Atualizações de segurança do sistema operacional.
-
22 de setembro de 2022
- [SPARK-40089][SQL] Corrigir a classificação de alguns tipos decimais
-
6 de setembro de 2022
- [SPARK-35542][CORE][ML] Correção: o Bucketizer criado para várias colunas com parâmetros splitsArray, inputCols e outputCols não pode ser carregado depois de ser salvo
- [SPARK-40079] [CORE] Adicionar validação Imputer InputCols para caixa de entrada vazia
-
24 de agosto de 2022
- [SPARK-39962][Python][SQL] Aplicar projeção quando os atributos do grupo estiverem vazios
- Atualizações de segurança do sistema operacional.
-
9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
-
27 de julho de 2022
- Tornar os resultados das operações de mesclagem do Delta consistentes quando a fonte não for determinística.
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
13 de julho de 2022
- [SPARK-32680][SQL] Não pré-processar CTAS V2 com consulta não resolvida
- Desativou o uso do Auto Loader de APIs nativas da nuvem para listagem de diretórios no Azure.
- Atualizações de segurança do sistema operacional.
-
5 de julho de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
2 de junho de 2022
- [SPARK-38918][SQL] A poda de colunas aninhadas deve filtrar os atributos que não pertencem à relação atual
- Atualizações de segurança do sistema operacional.
-
18 de maio de 2022
- Atualize a versão do AWS SDK de 1.11.655 para 1.11.678.
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
14 de março de 2022
- Remova as classes vulneráveis do jar log4j 1.2.17
- Correções de bugs diversas.
-
23 de fevereiro de 2022
- [SPARK-37859][SQL] Não verificar os metadados durante a comparação de esquemas
-
8 de fevereiro de 2022
- Atualize o Ubuntu JDK para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
-
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
26 de janeiro de 2022
- Foi corrigido um bug em que o comando OPTIMIZE podia falhar quando o dialeto ANSI SQL estava ativado.
-
19 de janeiro de 2022
- Conda O canal padrão foi removido da versão 7.3 ML LTS
- Atualizações de segurança do sistema operacional.
-
7 de dezembro de 2021
- Atualizações de segurança do sistema operacional.
-
4 de novembro de 2021
- Foi corrigido um bug que podia fazer com que a transmissão estruturada falhasse com uma ArrayIndexOutOfBoundsException
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: No FileSystem for scheme
ou que poderia fazer com que as modificações emsparkContext.hadoopConfiguration
não entrassem em vigor nas consultas.
-
15 de setembro de 2021
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
. - Atualizações de segurança do sistema operacional.
- Foi corrigida uma condição de corrida que poderia causar uma falha na consulta com uma IOException como
-
8 de setembro de 2021
- [SPARK-35700][SQL][WARMFIX] Ler tabela orc char/varchar quando criada e gravada por sistemas externos.
- [SPARK-36532] [NÚCLEO][3,1] Corrigido o deadlock em
CoarseGrainedExecutorBackend.onDisconnected
para evitarexecutorsconnected
e impedir o desligamento do executor.
-
25 de agosto de 2021
- O conector Snowflake foi atualizado para a versão 2.9.0.
-
29 de julho de 2021
- [SPARK-36034][BUILD] Rebase datetime in pushed down filters to Parquet
- [SPARK-34508] [BUILD] Ignore
HiveExternalCatalogVersionsSuite
se a rede estiver inativa
-
14 de julho de 2021
- Introduzido o formato
database.schema.table
para o conector do Azure Synapse. - Foi adicionado suporte para fornecer o formato
databaseName.schemaName.tableName
como tabela de destino em vez de apenasschemaName.tableName
outableName
. - Foi corrigido um bug que impedia que os usuários viajassem no tempo para versões anteriores disponíveis com tabelas Delta.
- Introduzido o formato
-
15 de junho de 2021
-
Corrige um bug do
NoSuchElementException
nas gravações otimizadas do Delta Lake que pode ocorrer ao gravar grandes quantidades de dados e encontrar perdas no executor -
Atualização do Python com patch de segurança para corrigir a vulnerabilidade de segurança do Python (CVE-2021-3177).
-
O cache de disco é ativado por default em todas as instâncias de GCP, exceto as da família -highcpu- . Para instâncias de -highcpu- , o cache é pré-configurado, mas desativado por default. Ele pode ser ativado usando o spark confing
spark.databricks.io.cache.enabled true
.
-
-
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualizar o resolvedor do spark-pacote no SparkSubmit
- [SPARK-34245][CORE] Garantir que o mestre remova o executor que não conseguiu enviar o estado finalizado
- [SPARK-35045][SQL] Adicionar uma opção interna para controlar o buffer de entrada em univocidade
-
24 de março de 2021
- [SPARK-34768][SQL] Respeitar o tamanho do buffer de entrada default em Univocity
- [SPARK-34534] Corrige a ordem BlockIds ao usar fetchShuffleBlocks para buscar blocos
- [SPARK-33118][SQL]CREATE TEMPORARY TABLE falha com a localização
-
9 de março de 2021
- O driver atualizado do sistema de arquivos Azure Blob para Azure Data Lake Storage Gen2 agora está habilitado em default. Ele traz várias melhorias de estabilidade.
- Corrigir o separador de caminhos no Windows para
databricks-connect get-jar-dir
- [UI] Corrigir o link href da visualização Spark DAG
- [DBCONNECT] Adicionar suporte para FlatMapCoGroupsInPandas no Databricks Connect 7.3
- Restaure o esquema de saída do
SHOW DATABASES
- [SQL] Use a construção de poda dinâmica correta key quando a dica do intervalo join estiver presente
- Desativar a verificação de obsoletismo para arquivos de tabela Delta no cache de disco
- [SQL] Não gerar aviso de número de partição embaralhada quando o AOS estiver ativado
-
24 de fevereiro de 2021
- Atualizamos o conector Spark BigQuery para a versão 0.18, que apresenta várias correções de bugs e suporte para iteradores Arrow e Avro.
- Foi corrigido um problema de correção que fazia com que o Spark retornasse resultados incorretos quando a precisão decimal e a escala do arquivo Parquet eram diferentes do esquema do Spark.
- Corrigido o problema de falha de leitura em tabelas do Microsoft SQL Server que continham tipos de dados espaciais, adicionando suporte a tipos JDBC de geometria e geografia para o Spark SQL.
- Introduziu uma nova configuração
spark.databricks.hive.metastore.init.reloadFunctions.enabled
. Essa configuração controla a inicialização integrada do Hive. Quando definido como true, o Databricks recarrega todas as funções de todos os bancos de dados que os usuários têm emFunctionRegistry
. Esse é o comportamento do default em Hive metastore. Quando definido como false, o Databricks desativa esse processo para otimização. - [SPARK-34212] Corrigidos problemas relacionados à leitura de dados decimais de arquivos Parquet.
- [SPARK-33579][UI] Corrigir página em branco do executor por trás do proxy.
- [SPARK-20044][UI] Suporte a Spark UI por trás do proxy reverso front-end usando um prefixo de caminho.
- [SPARK-33277][PySpark][SQL] Use o ContextAwareIterator para interromper o consumo após o término da tarefa.
-
4 de fevereiro de 2021
- Foi corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
SELECT * FROM table LIMIT nrows
. A regressão foi experimentada por usuários que executavam consultas via ODBC/JDBC com a serialização Arrow ativada. - Foi corrigida uma regressão que fazia com que o DBFS FUSE não começasse a funcionar quando as configurações de clustering variável de ambiente continham sintaxe bash inválida.
- Foi corrigida uma regressão que impede a execução incremental de uma consulta que define um limite global, como
-
20 de janeiro de 2021
- Foi corrigida uma regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorreta e dizer que a coluna é ambígua em um auto join. Essa regressão acontece quando um usuário se junta a um DataFrame com seu DataFrame derivado (o chamado autojoin) com as seguintes condições:
- Esses dois DataFrames têm colunas em comum, mas a saída do self join não tem colunas em comum. Por exemplo,
df.join(df.select($"col" as "new_col"), cond)
- O DataFrame derivado exclui algumas colunas por meio de select, groupBy ou window.
- A condição join ou as seguintes transformações após o Dataframe unido referem-se às colunas não comuns. Por exemplo,
df.join(df.drop("a"), df("a") === 1)
- Esses dois DataFrames têm colunas em comum, mas a saída do self join não tem colunas em comum. Por exemplo,
- Foi corrigida uma regressão na versão de manutenção de 12 de janeiro de 2021 que pode causar uma AnalysisException incorreta e dizer que a coluna é ambígua em um auto join. Essa regressão acontece quando um usuário se junta a um DataFrame com seu DataFrame derivado (o chamado autojoin) com as seguintes condições:
-
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-33593][SQL] O leitor de vetores obteve dados incorretos com valor de partição binária
- [SPARK-33677][SQL] Ignorar a regra LikeSimplification se o padrão contiver qualquer escapeChar
- [SPARK-33592][ML][Python] PySpark ML Os parâmetros do validador em estimatorParamMaps podem ser perdidos após salvar e recarregar
- [SPARK-33071][SPARK-33536][SQL] Evite alterar o conjunto de dados do LogicalPlan em join() para não quebrar o DetectAmbiguousSelfJoin
-
8 de dezembro de 2020
- [SPARK-33587][CORE] Eliminar o executor em erros fatais aninhados
- [SPARK-27421][SQL] Corrigir o filtro para a coluna int e a classe de valor java.lang.strings ao podar a coluna de partição
- [SPARK-33316][SQL] Suporte a esquema Avro nulável fornecido pelo usuário para esquema catalisador não nulável na escrita Avro
- Os trabalhos do Spark iniciados usando o Databricks Connect podem ficar suspensos indefinidamente com
Executor$TaskRunner.$anonfun$copySessionState
no rastreamento de pilha do executor - Atualizações de segurança do sistema operacional.
-
20 de novembro de 2020
- [SPARK-33404][SQL][3.0] Corrigir resultados incorretos na expressão
date_trunc
- [SPARK-33339][Python] O aplicativo PySpark será suspenso devido a um erro de não exceção
- [SPARK-33183][SQL][HOTFIX] Corrigir a regra do Optimizer EliminateSorts e adicionar uma regra física para remover classificações redundantes
- [SPARK-33371][Python][3.0] Atualizar setup.py e testes para Python 3.9
- [SPARK-33391][SQL] element_at com CreateArray não respeita um índice baseado.
- [SPARK-33306][SQL]O fuso horário é necessário ao converter data em cadeias de caracteres
- [SPARK-33260][SQL] Corrigir resultados incorretos do SortExec quando o sortOrder é transmitido
- [SPARK-33404][SQL][3.0] Corrigir resultados incorretos na expressão
-
5 de novembro de 2020
- Corrija o bloqueio ABFS e WASB em relação ao
UserGroupInformation.getCurrentUser()
. - Correção de um bug de loop infinito quando o leitor Avro lê os bytes MAGIC.
- Adicione suporte para o privilégio
USAGE
. - melhorias de desempenho para verificação de privilégios no controle de acesso da tabela.
- Corrija o bloqueio ABFS e WASB em relação ao
-
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
- O senhor pode ler e gravar em DBFS usando a montagem FUSE em /dbfs/ quando estiver em um clustering habilitado para passagem de credenciais de alta simultaneidade. As montagens regulares são suportadas, mas as montagens que precisam de credenciais de passagem ainda não são suportadas.
- [SPARK-32999][SQL] Use Utils.getSimpleName para evitar o acerto de um nome de classe malformado em TreeNode
- [SPARK-32585][SQL] Suporte à enumeração Scala em ScalaReflection
- Diretórios de listagem corrigidos no FUSE mount que contêm nomes de arquivos com caracteres XML inválidos
- O FUSE mount não usa mais ListMultipartUploads
-
29 de setembro de 2020
- [SPARK-32718][SQL] Remover palavras-chave desnecessárias para unidades de intervalo
- [SPARK-32635][SQL] Corrigir a propagação dobrável
- Adicione uma nova configuração
spark.shuffle.io.decoder.consolidateThreshold
. Defina o valor da configuração comoLong.MAX_VALUE
para pular a consolidação do netty FrameBuffers, o que evitajava.lang.IndexOutOfBoundsException
em casos extremos.
-
25 de abril de 2023
- Atualizações de segurança do sistema operacional.
-
11 de abril de 2023
- Correções de bugs diversas.
-
29 de março de 2023
- Correções de bugs diversas.
-
14 de março de 2023
- Atualizações de segurança do sistema operacional.
-
28 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
-
16 de fevereiro de 2023
- Atualizações de segurança do sistema operacional.
-
31 de janeiro de 2023
- Correções de bugs diversas.
-
18 de janeiro de 2023
- Atualizações de segurança do sistema operacional.
-
29 de novembro de 2022
- Atualizações de segurança do sistema operacional.
-
15 de novembro de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
1 de novembro de 2022
- Atualizações de segurança do sistema operacional.
-
18 de outubro de 2022
-
Atualizações de segurança do sistema operacional.
-
5 de outubro de 2022
- Atualizações de segurança do sistema operacional.
-
24 de agosto de 2022
- Atualizações de segurança do sistema operacional.
-
9 de agosto de 2022
- Atualizações de segurança do sistema operacional.
-
27 de julho de 2022
- Atualizações de segurança do sistema operacional.
-
5 de julho de 2022
- Atualizações de segurança do sistema operacional.
-
2 de junho de 2022
- Atualizações de segurança do sistema operacional.
-
18 de maio de 2022
- Atualizações de segurança do sistema operacional.
-
19 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
6 de abril de 2022
- Atualizações de segurança do sistema operacional.
- Correções de bugs diversas.
-
14 de março de 2022
- Correções de bugs diversas.
-
23 de fevereiro de 2022
- Correções de bugs diversas.
-
8 de fevereiro de 2022
- Atualize o Ubuntu JDK para 1.8.0.312.
- Atualizações de segurança do sistema operacional.
-
1 de fevereiro de 2022
- Atualizações de segurança do sistema operacional.
-
19 de janeiro de 2022
- Atualizações de segurança do sistema operacional.
-
22 de setembro de 2021
- Atualizações de segurança do sistema operacional.
-
30 de abril de 2021
- Atualizações de segurança do sistema operacional.
- [SPARK-35227][BUILD] Atualizar o resolvedor do spark-pacote no SparkSubmit
-
12 de janeiro de 2021
- Atualizações de segurança do sistema operacional.
-
8 de dezembro de 2020
-
[SPARK-27421][SQL] Corrigir o filtro para a coluna int e a classe de valor java.lang.strings ao podar a coluna de partição
-
Atualizações de segurança do sistema operacional.
-
-
3 de novembro de 2020
- Atualização da versão Java de 1.8.0_252 para 1.8.0_265.
- Corrija o bloqueio de ABFS e WASB em relação a UserGroupInformation.getCurrentUser ()
-
13 de outubro de 2020
- Atualizações de segurança do sistema operacional.
-