Databricks Runtime 7,0 (EoS)

nota

O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.

A Databricks lançou essa versão em junho de 2020.

As notas a seguir sobre a versão fornecem informações sobre o site Databricks Runtime 7.0, alimentado por Apache Spark 3.0.

Novo recurso

Databricks Runtime A versão 7.0 inclui os seguintes novos recursos:

Scala 2.12

O Databricks Runtime 7.0 atualiza o Scala de 2.11.12 para 2.12.10. A lista de alterações entre Scala 2.12 e 2.11 está em Scala 2.12.0 notas sobre a versão.
O Auto Loader (Public Preview) , lançado no Databricks Runtime 6.4, foi aprimorado no Databricks Runtime 7.0

O Auto Loader oferece ao senhor uma maneira mais eficiente de processar novos arquivos de dados de forma incremental à medida que eles chegam a um armazenamento de blob na nuvem durante a ETL. Isso é uma melhoria em relação à transmissão estruturada baseada em arquivos, que identifica novos arquivos listando repetidamente o diretório da nuvem e acompanhando os arquivos que foram vistos, o que pode ser muito ineficiente à medida que o diretório cresce. Auto Loader também é mais conveniente e eficaz do que a transmissão estruturada baseada em notificação de arquivos, que exige a configuração manual do serviço de notificação de arquivos na nuvem e não permite que o usuário faça backfill de arquivos existentes. Para obter detalhes, consulte O que é o Auto Loader?
COPY INTO (Public Preview) , que permite que o senhor carregue dados no Delta Lake com tentativas idempotentes, foi aprimorado no Databricks Runtime 7.0

Lançado como uma visualização pública no Databricks Runtime 6.4, o comando COPY INTO SQL permite que o senhor carregue dados no Delta Lake com tentativas idempotentes. Atualmente, para carregar dados no Delta Lake, o senhor precisa usar as APIs do Apache Spark DataFrame. Se houver falhas durante as cargas, você precisará lidar com elas de forma eficaz. O novo comando COPY INTO oferece uma interface declarativa familiar para carregar dados em SQL. O comando mantém o controle dos arquivos carregados anteriormente e o senhor pode reexecutá-lo com segurança em caso de falhas. Para obter detalhes, consulte COPY INTO.

Melhorias

Mais Amazon Kinesis concorrente transmissão:

A fonte Amazon Kinesis transmissão estructurada usa ListShards por default para obter a lista de fragmentos em uma transmissão Kinesis. Isso requer permissões adicionais no site IAM para que a transmissão seja executada com sucesso. Nas versões anteriores de Databricks Runtime, DescribeStream era usado por default. ListShards tem um limite API significativamente maior do que DescribeStream (100 solicitações por segundo por transmissão para ListShards versus 10 solicitações por segundo em todo o site AWS account para DescribeStream). Essa alteração permitirá que os usuários executem mais de 10 concorrente Kinesis transmissão com transmissão estruturada em Databricks.
Azure Synapse (anteriormente SQL data warehouse) suporta a instrução COPY.

O principal benefício do COPY é que os usuários com menos privilégios podem gravar dados no Azure Synapse sem precisar de permissões estritas do CONTROL no Azure Synapse.
O %matplotlib inline comando mágico não é mais necessário para exibir objetos Matplolib em linha nas células do Notebook. Eles são sempre exibidos em linha pelo site default.
As figuras do Matplolib agora são renderizadas com transparent=False, para que os planos de fundo especificados pelo usuário não sejam perdidos. Esse comportamento pode ser substituído pela definição da configuração do Spark spark.databricks.workspace.matplotlib.transparent true.
Ao executar um trabalho de produção de transmissão estruturada em um cluster de modo de alta simultaneidade, as reinicializações de um trabalho ocasionalmente falhavam, porque o trabalho em execução anterior não era encerrado corretamente. Databricks Runtime A versão 6.3 introduziu a capacidade de definir a configuração SQL spark.sql.streaming.stopActiveRunOnRestart true em seu clustering para garantir que a execução anterior seja interrompida. Essa configuração é definida por default em Databricks Runtime 7.0.

Principais mudanças na biblioteca

Python pacote

O principal pacote Python foi atualizado:

boto3 1.9.162 - > 1.12.0
matplotlib 3.0.3 - > 3,13
numpy 1.16.2 - > 1.18.1
Pandas 0.24.2 -> 1.0.1
pip 19.0.3 - > 20.0.2
pyarrow 0.13.0 - > 0.15.1
psycopg2 2.7.6 - > 2.8.4
scikit-learn 0.20.3 - > 0,22,1
scipy 1.2.1 - > 1.4.1
seaborn 0.9.0 - > 0.10.0

Python pacote removido:

Boto (use boto3)
pycurl

nota

O ambiente Python no Databricks Runtime 7.0 usa o Python 3.7, que é diferente do Python do sistema Ubuntu instalado: /usr/bin/python e /usr/bin/python2 estão vinculados ao Python 2.7 e /usr/bin/python3 está vinculado ao Python 3.6.

R pacote

R pacote adicionado:

vassoura
mais alto
isóbanda
tricotar
Markdown
modelar
reprex
rmarkdown
colete
seletor
tidyverso
tinytex
diversão

R pacote removido:

abandam
bitops
carro
Dados do carro
Dom C
gbm
h2o
mais pequeno
lme4
mapproj
mapeia
ferramentas de mapa
Modelos matriciais
mina
norma mvt
nloptr
openxlsx
teste pbkr
Gatinho PKG
quantreg
R. métodos S3
R.oo
R. utils
RCP Pegen
Curl
rio
espião
SPARSEM
statmod
compactar

Java e biblioteca Scala

O AWS SDK (aws-java-sdk) foi atualizado para a versão 1.11.655.
Cliente Amazon Kinesis atualizado para 1.12.0
A versão do Apache Hive usada para lidar com as funções definidas pelo usuário do Hive e com o Hive SerDes foi atualizada para a versão 2.3.
Anteriormente, os jarros do Azure Storage e do Key Vault eram empacotados como parte do Databricks Runtime, o que impedia que o senhor usasse versões diferentes dessas bibliotecas anexadas ao clustering. As classes em com.microsoft.azure.storage e com.microsoft.azure.keyvault não estão mais no caminho da classe no Databricks Runtime. Se o senhor depender de um desses caminhos de classe, deverá anexar Azure Storage SDK ou Azure Key Vault SDK ao seu clustering.

Mudanças de comportamento

Esta seção lista as alterações de comportamento do Databricks Runtime 6.6 para o Databricks Runtime 7.0. O senhor deve estar ciente disso ao migrar cargas de trabalho de versões inferiores do Databricks Runtime para o Databricks Runtime 7.0 e acima.

Spark mudanças de comportamento

Como o Databricks Runtime 7.0 é o primeiro Databricks Runtime criado no Spark 3.0, há muitas alterações que o senhor deve conhecer ao migrar cargas de trabalho do Databricks Runtime 5.5 LTS ou 6.x, que são criados no Spark 2.4. Essas alterações estão listadas na seção "Alterações de comportamento" de cada área funcional na seção Apache Spark seção de notas sobre a versão artigos:

Mudanças de comportamento para Spark core, Spark SQL, e transmissão estructurada
Mudanças de comportamento para MLlib
Mudanças de comportamento para o SparkR

Outras mudanças de comportamento

A atualização para o Scala 2.12 envolve as seguintes alterações:
- A serialização de células de pacote é tratada de forma diferente. O exemplo a seguir ilustra a mudança de comportamento e como lidar com ela.
  
  A execução do site foo.bar.MyObjectInPackageCell.run(), conforme definido na célula do pacote a seguir, acionará o erro java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
  Scala
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Para contornar esse erro, você pode colocar MyObjectInPackageCell dentro de uma classe serializável.
- Alguns casos usando DataStreamWriter.foreachBatch exigirão uma atualização do código-fonte. Essa alteração se deve ao fato de o Scala 2.12 ter conversão automática de expressões lambda para tipos SAM, o que pode causar ambiguidade.
  
  Por exemplo, o código Scala a seguir não pode ser compilado:
  Scala
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Para corrigir o erro de compilação, altere foreachBatch { (df, id) => myFunc(df, id) } para foreachBatch(myFunc _) ou use a API Java explicitamente: foreachBatch(new VoidFunction2 ...).
Com a atualização do AWS SDK para a versão 1.11.655, o uso do site org.apache.hadoop.fs.s3native.NativeS3FileSystem exige a configuração do AWS Signature v4 e do bucket endpoint. Um erro 403 Forbidden poderá ser lançado se um usuário tiver configurado o AWS Signature v2 para assinar solicitações para o S3 com o sistema de arquivos S3N ou se um usuário acessar um caminho do S3 que contenha caracteres "+" e use o sistema de arquivos S3N legado (por exemplo, s3n://bucket/path/+file).
Como a versão do Apache Hive usada para lidar com as funções definidas pelo usuário do Hive e com o Hive SerDes foi atualizada para a versão 2.3, são necessárias duas alterações:
- A interface SerDe do Hive é substituída por uma classe abstrata AbstractSerDe. Para qualquer implementação personalizada do Hive SerDe, é necessário migrar para AbstractSerDe.
- Definir spark.sql.hive.metastore.jars como builtin significa que o cliente de metastore Hive 2.3 será usado para acessar metastores para o Databricks Runtime 7.0. Se precisar acessar os metastores externos baseados no Hive 1.2, defina spark.sql.hive.metastore.jars como a pasta que contém os jars do Hive 1.2.

Depreciações e remoções

O índice de salto de dados foi preterido no Databricks Runtime 4.3 e removido no Databricks Runtime 7.0. Em vez disso, recomendamos que o senhor use as tabelas Delta, que oferecem recursos aprimorados de omissão de dados.
No Databricks Runtime 7.0, a versão subjacente do Apache Spark usa o Scala 2.12. Como a biblioteca compilada em Scala 2.11 pode desativar o agrupamento Databricks Runtime 7.0 de maneiras inesperadas, os agrupamentos que executam Databricks Runtime 7.0 e acima não instalam a biblioteca configurada para ser instalada em todos os agrupamentos. A biblioteca tab de agrupamento mostra um status Skipped e uma mensagem de depreciação que explica as alterações no manuseio da biblioteca. No entanto, se o senhor tiver um cluster criado em uma versão anterior do Databricks Runtime antes da versão 3.20 da plataforma Databricks ter sido lançada para o seu workspace e agora editar esse cluster para usar o Databricks Runtime 7.0, qualquer biblioteca que tenha sido configurada para ser instalada em todos os clusters será instalada nesse cluster. Nesse caso, quaisquer JARs incompatíveis na biblioteca instalada podem fazer com que o clustering seja desativado. A solução alternativa é clonar o clustering ou criar um novo clustering.
org.apache.hadoop.fs.s3native.NativeS3FileSystem e org.apache.hadoop.fs.s3.S3FileSystem não são mais compatíveis com o acesso ao S3.

Recomendamos enfaticamente que o senhor use com.databricks.s3a.S3AFileSystem, que é o default para os esquemas de sistema de arquivos s3a://, s3:// e s3n:// em Databricks Runtime. Se precisar de ajuda com a migração para com.databricks.s3a.S3AFileSystem, entre em contato com o suporte Databricks ou com a equipe Databricks account .
A capacidade de usar o What is DBFS? foi removida no Databricks Runtime 7.0 na Community Edition. Em vez disso, recomendamos que você use %fs cp para copiar seus dados de e para um diretório local.

Apache Spark

O Databricks Runtime 7.0 inclui o Apache Spark 3.0.

Nesta secção:

Core, Spark SQL, transmissão estructurada
MLlib
SparkR
Depreciações
Problemas conhecidos

Core, Spark SQL, transmissão estructurada

Destaques

(Projeto Hidrogênio) Programador com reconhecimento de acelerador(SPARK-24615)
Execução adaptativa de consultas (SPARK-31412)
Remoção dinâmica de partições (SPARK-11150)
Redesenhado Pandas UDF API com dicas de tipo(SPARK-28264)
transmissão estructurada UI(SPARK-29543)
API do plug-in do catálogo(SPARK-31121)
Melhor compatibilidade com ANSI SQL

Aprimoramentos de desempenho

Execução adaptativa de consultas (SPARK-31412)
- Estrutura básica (SPARK-23128)
- Ajuste do número de partição pós-aleatório (SPARK-28177)
- Reutilização dinâmica de subconsultas (SPARK-28753)
- Leitor aleatório local (SPARK-28560)
- Skew join optimization(SPARK-29544)
- Otimize a leitura de blocos aleatórios contíguos (SPARK-9853)
Remoção dinâmica de partições (SPARK-11150)
Outras regras do otimizador
- Subconsulta de reutilização de regras (SPARK-27279)
- Regra Pushdown LeftSemi AntiJoin (SPARK-19712)
- Regra PushLeftSemi Leftanti ThroughJoin (SPARK-19712)
- Regra Substituir Null por False (SPARK-25860)
- Regra Eliminar classificações sem limite na subconsulta de união/agregação(SPARK-29343)
- Regra Prunehive TablePartitions (SPARK-15616)
- Removendo campos aninhados desnecessários do Generate (SPARK-27707)
- A regra Rewrite Não Correlacionada existe (SPARK-29800)
Minimize os custos de sincronização do cache de tabelas (SPARK-26917), (SPARK-26617),(SPARK-26548)
Divida o código de agregação em pequenas funções (SPARK-21870)
Adicionar lotes no comando INSERT e ALTER TABLE ADD PARTITION(SPARK-29938)

Aprimoramentos de extensibilidade

API do plug-in do catálogo(SPARK-31121)
fonte de dados V2 API refactoring(SPARK-25390)
Suporte ao metastore Hive 3.0 e 3.1(SPARK-27970),(SPARK-24360)
Estender a interface do plug-in do Spark para o driver(SPARK-29396)
Ampliar o sistema de métricas do Spark com métricas definidas pelo usuário usando plug-ins de executor(SPARK-28091)
APIs de desenvolvedor para suporte estendido ao processamento colunar(SPARK-27396)
migração de fonte integrada usando DSV2: Parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Permitir injeção de função em extensões Spark (SPARK-25560)
Permite que o Aggregator seja registrado como UDAF (SPARK-27296)

Aprimoramentos do conector

Suporte a committers S3A de alto desempenho(SPARK-23977)
Remoção de colunas por meio de expressões não determinísticas (SPARK-29768)
Suporte a spark.sql.statistics.fallBackToHdfs em tabelas de fontes de dados(SPARK-25474)
Permitir a remoção de partições com filtros de subconsulta na fonte do arquivo (SPARK-26893)
Evitar o pushdown de subconsultas em filtros de fonte de dados(SPARK-25482)
Carregamento recursivo de dados de fontes de arquivo (SPARK-27990)
Parquet/ORC
- Redução de predicados disjuntivos (SPARK-27699)
- Generalize Nested Column Pruning(SPARK-25603) e ativado por default (SPARK-29805)
- Parquet somente
  - Parquet pushdown de predicado para campos aninhados(SPARK-17636)
- Somente ORC
  - Suporte ao esquema merge para ORC (SPARK-11412)
  - Poda de esquema aninhado para ORC(SPARK-27034)
  - Redução da complexidade da conversão de predicados para ORC(SPARK-27105, SPARK-28108)
  - Atualize o Apache ORC para a versão 1.5.9(SPARK-30695)
CSV
- Suporte ao pushdown de filtros na fonte de dados CSV(SPARK-30323)
Hive SerDe
- Nenhuma inferência de esquema ao ler a tabela Hive serde com fonte de dados nativa(SPARK-27119)
- Hive O comando CTAS deve usar a fonte de dados se for conversível(SPARK-25271)
- Use a fonte de dados nativa para otimizar a inserção da tabela Hive particionada(SPARK-28573).
Apache Kafka
- Adicionar suporte aos cabeçalhos do Kafka(SPARK-23539)
- Adicionar suporte a tokens de delegação Kafka (SPARK-25501)
- Introduzir uma nova opção na fonte do Kafka: deslocamento por carimbo de data/hora (início/fim)(SPARK-26848)
- Suporte à opção minPartitions em Kafka lotes source e transmissão source v1(SPARK-30656)
- Atualização do Kafka para a versão 2.4.1(SPARK-31126)
Nova fonte integrada de dados
- Nova fonte de dados de arquivo binário integrada(SPARK-25348)
- Novos no-op lotes fonte de dados(SPARK-26550) e no-op transmissão sink(SPARK-26649)

aprimoramentos de recursos

[Hydrogen] Programador com reconhecimento de acelerador(SPARK-24615)
Introduzir um conjunto completo de dicas de união(SPARK-27225)
Adicionar a dica PARTITION BY para consultas SQL(SPARK-28746)
Manipulação de metadados no Thrift Server (SPARK-28426)
Adicionar funções de ordem superior a Scala API (SPARK-27297)
Suporte simples a todas as reuniões no contexto da tarefa de barreira(SPARK-30667)
Os UDFs do Hive são compatíveis com o tipo UDT(SPARK-28158)
Suporte aos operadores DELETE/UPDATE/merge em Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Implemente DataFrame.tail (SPARK-30185)
Novas funções integradas
- cante, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- qualquer, cada um, alguns (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- contagem de bits (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- parte_data (SPARK-28690)
- extrato (SPARK-23903)
- para todos (SPARK-27905)
- de_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- filtro_mapa (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- esquema de csv (SPARK-25672)
- para_csv (SPARK-25638)
- chaves de transformação (SPARK-23939)
- valores_de_transformação (SPARK-23940)
- tipo de (SPARK-29961)
- versão (SPARK-29554)
- xxhash64 (SPARK-27099)
Aprimoramentos nas funções integradas existentes
- melhoria das funções/operações de data e hora integradas(SPARK-31415)
- Suporta o modo FAILFAST para from_json (SPARK-25243)
- array_sort adiciona um novo parâmetro comparador (SPARK-29020)
- O filtro agora pode usar o índice como entrada, bem como o elemento (SPARK-28962)

Aprimoramentos de compatibilidade com SQL

Mudar para o calendário gregoriano proléptico (SPARK-26651)
Criar a própria definição de padrão de data e hora do Spark(SPARK-31408)
Apresente a política de atribuição de armazenamento ANSI para inserção de tabelas (SPARK-28495)
Seguir a regra ANSI de atribuição de lojas na inserção de tabelas pelo site default (SPARK-28885)
Adicionar um SQLConf spark.sql.ansi.enabled (SPARK-28989)
Suporte à cláusula de filtro ANSI SQL para expressão de agregação(SPARK-27986)
Suporte à função ANSI SQL OVERLAY (SPARK-28077)
Suporta comentários aninhados entre colchetes ANSI (SPARK-28880)
Lance exceção em caso de estouro para números inteiros (SPARK-26218)
Verificação de estouro para operações aritméticas de intervalo(SPARK-30341)
Lança uma exceção quando uma string inválida é convertida em um tipo numérico(SPARK-30292)
Tornar o comportamento de estouro do intervalo de multiplicação e divisão consistente com outras operações(SPARK-30919)
Adicione aliases do tipo ANSI para char e decimal (SPARK-29941)
O SQL Parser define palavras-chave reservadas em conformidade com ANSI(SPARK-26215)
Proíba palavras-chave reservadas como identificadores quando o modo ANSI está ativado (SPARK-26976)
Suporte à sintaxe ANSI SQL LIKE ... ESCAPE (SPARK-28083)
Suporte à sintaxe ANSI SQL Boolean-Predicate(SPARK-27924)
Melhor suporte para processamento de subconsultas correlacionadas (SPARK-18455)

Aprimoramentos no monitoramento e na depuração

Nova transmissão estruturada UI(SPARK-29543)
SHS: Permitir que o evento logs para aplicativos de transmissão em execução seja transferido(SPARK-28594).
Adicione um API que permita ao usuário definir e observar métricas arbitrárias em lotes e consultas de transmissão(SPARK-29345)
Instrumentação para acompanhamento do tempo de planejamento por consulta(SPARK-26129)
Colocar as métricas básicas de embaralhamento no operador de troca de SQL(SPARK-26139)
SQL A declaração é exibida na guia SQL em vez de no local da chamada(SPARK-27045)
Adicionar dica de ferramenta ao SparkUI (SPARK-29449)
Melhorar o desempenho concorrente do history Server(SPARK-29043)
EXPLAIN FORMATTED comando(SPARK-27395)
Suporte ao despejo de planos truncados e código gerado em um arquivo (SPARK-26023)
Melhore a estrutura de descrição para descrever a saída de uma consulta (SPARK-26982)
Adicionar o comando SHOW VIEWS (SPARK-31113)
Aprimorar as mensagens de erro do analisador de SQL(SPARK-27901)
Suporte ao monitoramento nativo do Prometheus(SPARK-29429)

Aprimoramentos do PySpark

Redesenhado Pandas UDFs com dicas de tipo(SPARK-28264)
Pandas UDF pipeline (SPARK-26412)
Suporte a StructType como argumentos e tipos de retorno para Scalar Pandas UDF(SPARK-27240 )
Suporte ao Dataframe Cogroup por meio de UDFs do Pandas(SPARK-27463)
Adicionar mapInPandas para permitir um iterador de DataFrames(SPARK-28198)
Certas funções SQL também devem receber nomes de colunas(SPARK-26979)
Tornar as exceções SQL do PySpark mais pitônicas(SPARK-31849)

Aprimoramentos na documentação e na cobertura de testes

Criar uma referência SQL(SPARK-28588)
Criar um guia do usuário para a WebUI(SPARK-28372)
Criar uma página para a documentação de configuração do SQL(SPARK-30510)
Adicionar informações de versão para a configuração do site Spark (SPARK-30839)
Testes de regressão de porta do PostgreSQL(SPARK-27763)
Cobertura de teste do Thrift-Server (SPARK-28608)
Cobertura de teste de UDFs (Python UDF, Pandas UDF, Scala UDF)(SPARK-27921)

Outras mudanças notáveis

integrada Hive atualização da execução de 1.2.1 para 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Use a dependência de Apache Hive 2.3 por default (SPARK-30034)
GA Scala 2.12 e remover 2.11(SPARK-26132)
Aprimorar a lógica do executor de tempo limite na alocação dinâmica(SPARK-20286)
Blocos RDD persistentes em disco atendidos pelo serviço de embaralhamento e ignorados na alocação dinâmica(SPARK-27677)
Adquirir um novo executor para evitar o travamento devido à lista de bloqueios(SPARK-22148)
Permitir o compartilhamento dos alocadores de pool de memória do Netty(SPARK-24920)
Corrija o impasse entre TaskMemoryManager e UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Introduzir AdmissionControl APIs para StructuredStreaming(SPARK-30669)
Spark história Main page desempenho improvement(SPARK-25973)
Acelerar e reduzir a agregação de métricas no ouvinte do SQL(SPARK-29562)
Evite a rede quando os blocos embaralhados forem obtidos do mesmo host(SPARK-27651)
Melhore a listagem de arquivos para DistributedFileSystem (SPARK-27801)

Mudanças de comportamento para Spark core, Spark SQL, e transmissão estructurada

Os seguintes guias de migração listam as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações do Job que o senhor tem executado em versões inferiores do Databricks Runtime:

As seguintes alterações de comportamento não são abordadas neste guia de migração:

No Spark 3.0, a classe obsoleta org.apache.spark.sql.streaming.ProcessingTime foi removida. Em vez disso, use org.apache.spark.sql.streaming.Trigger.ProcessingTime. Da mesma forma, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger foi removido em favor de Trigger.Continuous e org.apache.spark.sql.execution.streaming.OneTimeTrigger foi ocultado em favor de Trigger.Once. (SPARK-28199)
Em Databricks Runtime 7.0, ao ler uma tabela Hive SerDe, por default Spark não permite a leitura de arquivos em um subdiretório que não seja uma partição de tabela. Para habilitá-la, defina a configuração spark.databricks.io.hive.scanNonpartitionedDirectory.enabled como true. Isso não afeta os leitores de tabelas e de arquivos nativos do Spark.

MLlib

Destaques

O suporte a várias colunas foi adicionado ao Binarizer(SPARK-23578), StringIndexer(SPARK-11215), StopWordsRemover(SPARK-29808) e PySpark QuantileDiscretizer(SPARK-22796)
Suporte a transformações de recursos baseadas em árvores(SPARK-13677)
Dois novos avaliadores MultiLabelClassificationEvaluator(SPARK-16692) e RankingEvaluator (SPARK-28045) foram adicionados
O suporte de pesos amostrais foi adicionado em DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor(SPARK-9478), GBTClassifier/Regressor(SPARK-9612), RegressionEvaluator(SPARK-24102), BinaryClassificationEvaluator(SPARK-24103), BisectingKMeans(SPARK-30351), KMeans Meios(SPARK-29967) e mistura gaussiana(SPARK-30102)
A API R para PowerIterationClustering foi adicionada(SPARK-19827)
Adicionado Spark ML listener para acompanhamento ML pipeline status(SPARK-23674)
O ajuste com o conjunto de validação foi adicionado ao Gradient Boosted Trees in Python(SPARK-24333)
O transformador RobustScaler foi adicionado (SPARK-28399)
Classificador e regressor de máquinas de fatoração foram adicionados (SPARK-29224)
Foram adicionados Gaussian Naive Bayes (SPARK-16872) e Complement Naive Bayes(SPARK-29942)
Paridade da função ML entre Scala e Python(SPARK-28958)
O PredicTraw é divulgado em todos os modelos de classificação. O PredictProbability é divulgado em todos os modelos de classificação, exceto LinearSvcModel (SPARK-30358)

Mudanças de comportamento para MLlib

O guia de migração a seguir lista as alterações de comportamento entre o Apache Spark 2.4 e o 3.0. Essas alterações podem exigir atualizações do Job que o senhor tem executado em versões inferiores do Databricks Runtime:

Guia de migração: MLlib (Aprendizado de máquina)

As seguintes alterações de comportamento não são abordadas no guia de migração:

Em Spark 3.0, uma regressão logística multiclasse em PySpark agora retornará (corretamente) LogisticRegressionSummary, e não a subclasse BinaryLogisticRegressionSummary. De qualquer forma, os métodos adicionais expostos por BinaryLogisticRegressionSummary não funcionariam nesse caso. (SPARK-31681)
No Spark 3.0, os mixins pyspark.ml.param.shared.Has* não fornecem mais nenhum método setter set*(self, value); em vez disso, use o respectivo self.set(self.*, value). Consulte SPARK-29093 para obter detalhes. (SPARK-29093)

SparkR

Otimização de setas na interoperabilidade do SparkR(SPARK-26759)
Aprimoramento do desempenho por meio de R vetorizado gapply(), dapply(), createDataFrame, collect()
"Execução ansiosa" para shell R, IDE(SPARK-24572)
R API para agrupamento de iteração de potência(SPARK-19827)

Mudanças de comportamento para o SparkR

Guia de migração: SparkR (R em Spark)

Depreciações

Descontinuar o suporte ao Python 2(SPARK-27884)
Descontinuar o suporte ao R\ < 3.4 (SPARK-26014)

Problemas conhecidos

Analisar o dia do ano usando a letra padrão 'D' retorna o resultado errado se o campo do ano estiver ausente. Isso pode acontecer em SQL funções como to_timestamp, que analisa strings de data e hora para valores de data e hora usando um padrão de strings. (SPARK-31939)
join/Window/Aggregate dentro de subconsultas pode levar a resultados errados se a chave tiver valores -0,0 e 0,0. (SPARK-31958)
Uma consulta de janela pode falhar inesperadamente com um erro ambíguo em autojoin. (SPARK-31956)
As consultas de transmissão com o operador dropDuplicates talvez não consigam reiniciar com o ponto de verificação escrito por Spark 2.x. (SPARK-31990)

Atualizações de manutenção

Consulte Atualizações de manutenção do Databricks Runtime 7.0.

Ambiente do sistema

Sistema operacional : Ubuntu 18.04.4 LTS
Java : 1.8.0_252
Scala : 2.12.10
Python : 3.7.5
R : R versão 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Instalado Python biblioteca

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
criptomoeda asn1	1.3.0	chamada de volta	0.1.0	boto3	1.12.0
botocore	1,15.0	certifi	2020.4.5	caffi	1,14.0
chardet	3.0.4	criptografia	2.8	ciclador	0.10.0
Cython	0,29,15	decorador	4.4.1	docutils	0,15.2
pontos de entrada	0,3	Índia	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0,14.1
jmespath	0.9.4	joblib	0,14.1	cliente jupyter	5.3.4
núcleo jupyter	4.6.1	solucionador de kiwi	1.1.0	Matplotlib	3.1.3
entorpecido	1.18.1	Pandas	1.0.1	parso	0.5.2
bode expiatório	0.5.1	esperar	4.8.0	picles	0.7.5
pip	20,0.2	kit de ferramentas de aviso	3.0.3	psycopg2	2.8.4
processo pty	0.6.0	flecha	0.15.1	pycparser	2,19
Pigmentos	2.5.2	Objeto PYG	3.26.1	PyOpenSSL	19.1.0
análise de pipa	2.4.6	Meias PY	1.7.1	Python-apt	1.6.5+ubuntu0.3
Python-dateutil	2.8.1	pytz	2019,3	pizma	18.1.1
pedidos	2.22,0	transferência s3	0.3.3	scikit-learn	0,22,1
pegajoso	1.4.1	marítimo	0.10.0	ferramentas de configuração	45,2,0
seis	1,14.0	ID de importação ssh	5.7	modelos de estatísticas	0.11.0
tornado	6.0.3	almôndegas	4.3.3	atualizações autônomas	0,1
urllib3	1,25,8	ambiente virtual	16.7.10	largura do wc	0.1.8
Python wheel	0,34,2

Instalada a R biblioteca

As bibliotecas R são instaladas a partir de Microsoft CRAN Snapshot em 2020-04-22.

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
askpass	1.1	afirme que	0.2.1	portas traseiras	1.1.6
base	3.6.3	base64enc	0,1-3	POR	1,72,0-3
pouco	1,1-15,2	bit64	0,9-7	bolha	1.2.1
inicialização	1,3-25	fermentar	1,0-6	vassoura	0.5.6
chamador	3.4.3	cursor	6,0-86	guarda de celas	1.1.0
crono	2,3-55	Aula	7,3-17	CLIPE	2.0.2
clipe	0.7.0	Cluster	2.1.0	ferramentas de código	0,2-16
espaço de cores	1,4-1	marca comum	1.7	compilador	3.6.3
configuração	0,3	capa	3.5.0	giz de cera	1.3.4
diafonia	1.1.0.1	cacho	4.3	data.tabela	1.12.8
conjunto de dados	3.6.3	DBI	1.1.0	dbplyr	1.4.3
desc	1.2.0	ferramentas de desenvolvimento	2.3.0	digerir	0,6,25
dplyr	0,8.5	DT	0,13	reticências	0.3.0
avalie	0,14	fansi	0.4.1	colorista	2.0.3
mapa rápido	1.0.1	para gatos	0.5.0	para cada um	1.5.0
estrangeira	0,8-76	forjar	0.2.0	fs	1.4.1
genéricas	0.0.2	ggplot2	3.3.0	gh	1.1.0
git2r	0.26.1	glmnet	3,0-2	globais	0,12,5
cola	1.4.0	goleiro	0.2.1	gráficos	3.6.3
Dispositivos GR	3.6.3	grade	3.6.3	Grid Extra	2.3
gsubfn	0,7	mesa	0.3.0	refúgio	2.2.0
mais alto	0,8	HMS	0.5.3	ferramentas html	0.4.0
widgets html	1.5.1	http.uv	1.5.2	httr	1.4.1
escritor	1.3.2	HWriter Plus	1,0-3	mini	0.3.1
ipred	0,9-9	isóbanda	0.2.1	iteradores	1.0.12
jsonlite	1.6.1	Kern Smooth	2,23-17	tricotar	1,28
rótulo	0,3	posteriormente	1.0.0	treliça	0,20-41
lava	1.6.7	preguiçoso	0.2.2	ciclo de vida	0.2.0
lubrificar	1.7.8	magritter	1.5	Markdown	1.1
MASSA	7,3-51,6	Matriz	1,2-18	memoise	1.1.0
métodos	3.6.3	mgcv	1,8-31	mímica	0,9
Métricas do modelo	1.2.2.2	modelar	0.1.6	munsell	0.5.0
nome	3,1-147	net	7,3-14	Número Deriv	2016,8-1,1
openssl	1.4.1	paralelo	3.6.3	pilar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	carregamento de pacotes	1.0.2
plogr	0.2.0	plyr	1.8.6	elogio	1.0.0
unidades bonitas	1.1.1	ProC	1.16.2	processa	3.4.2
prodlim	13/11/2019	progresso	1.2.2	promessas	1.1.0
proto	1.0.0	ps	1.3.2	ronronar	0.3.4
r2d3	0.2.3	R6	2.4.1	Floresta aleatória	4,6-14
corredeiras	0.3.1	rcmdcheck	1.3.3	Cervejaria RColor	1,1-2
Rcpp	1.0.4.6	leitor	1.3.1	readxl	1.3.1
receitas	0.1.10	revanche	1.0.1	revanche 2	2.1.1
controles remotos	2.1.1	reprex	0.3.0	remodelar 2	1.4.4
rex	1.2.0	rojson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1,3-16	roxigênio2	7.1.0
rpartem	4,1-15	rprojroot	1,3-2	Reservar	1,8-6
RSQLite	2.2.0	API do estúdio	0,11	reversões	2.0.1
colete	0.3.5	escala	1.1.0	seletor	0,4-2
informações da sessão	1.1.1	forma	1.4.4	brilhante	1.4.0.2
ferramentas de origem	0.1.7	Sparklyr	1.2.0	SparkR	3.0.0
espacial	7,3-11	splines	3.6.3	sqldf	0,4-11
QUADRADO	2020,2	estatísticas	3.6.3	estatísticas4	3.6.3
stringi	1.4.6	longarina	1.4.0	sobrevivência	3,1-12
diz	3.3	tcltk	3.6.3	Demonstrações de ensino	2,10
teste isso	2.3.2	petiscar	3.0.1	arrumado	1.0.2
seleção arrumada	1.0.0	tidyverso	1.3.0	Hora/Data	3043,102
tinytex	0,22	Ferramentas	3.6.3	use isso	1.6.0
utf 8	1.1.4	utilidades	3.6.3	vctrs	0.2.4
Viridis Lite	0.3.0	bigode	0,4	murchar	2.2.0
diversão	0,13	xml2	1.3.1	xopen	1.0.0
x estável	1,8-4	yaml	2.2.1

Instalei Java e Scala biblioteca (versão de clusteringScala 2.12)

ID do grupo	ID do artefato	Versão
chifre	chifre	2.7.7
com.amazonaws	Amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscale	1,11.655
com.amazonaws	formação de nuvem aws-java-sdk	1,11.655
com.amazonaws	aws-java-sdk-cloudfront	1,11.655
com.amazonaws	aws-java-sdk-cloudhsm	1,11.655
com.amazonaws	aws-java-sdk-cloudsearch	1,11.655
com.amazonaws	aws-java-sdk-cloudtrail	1,11.655
com.amazonaws	aws-java-sdk-cloudwatch	1,11.655
com.amazonaws	métricas aws-java-sdk-cloudwatch	1,11.655
com.amazonaws	aws-java-sdk-codedeploy	1,11.655
com.amazonaws	identidade cognitiva aws-java-sdk	1,11.655
com.amazonaws	aws-java-sdk-cognitosync	1,11.655
com.amazonaws	aws-java-sdk-config	1,11.655
com.amazonaws	aws-java-sdk-core	1,11.655
com.amazonaws	pipeline de dados aws-java-sdk	1,11.655
com.amazonaws	aws-java-sdk-conexão direta	1,11.655
com.amazonaws	diretório aws-java-sdk	1,11.655
com.amazonaws	aws-java-sdk-dynamodb	1,11.655
com.amazonaws	aws-java-sdk-ec2	1,11.655
com.amazonaws	aws-java-sdk-ecs	1,11.655
com.amazonaws	aws-java-sdk-efs	1,11.655
com.amazonaws	aws-java-sdk-elasticache	1,11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1,11.655
com.amazonaws	balanceamento de carga elástico aws-java-sdk	1,11.655
com.amazonaws	transcodificador elástico aws-java-sdk-	1,11.655
com.amazonaws	aws-java-sdk-emr	1,11.655
com.amazonaws	aws-java-sdk-glacier	1,11.655
com.amazonaws	aws-java-sdk-iam	1,11.655
com.amazonaws	aws-java-sdk-importação/exportação	1,11.655
com.amazonaws	aws-java-sdk-kinesis	1,11.655
com.amazonaws	aws-java-sdk-kms	1,11.655
com.amazonaws	aws-java-sdk-lambda	1,11.655
com.amazonaws	aws-java-sdk-logs	1,11.655
com.amazonaws	aws-java-sdk - aprendizado de máquina	1,11.655
com.amazonaws	aws-java-sdk-opsworks	1,11.655
com.amazonaws	aws-java-sdk-rds	1,11.655
com.amazonaws	aws-java-sdk-redshift	1,11.655
com.amazonaws	aws-java-sdk-route53	1,11.655
com.amazonaws	aws-java-sdk-s3	1,11.655
com.amazonaws	aws-java-sdk-ses	1,11.655
com.amazonaws	aws-java-sdk-simpledb	1,11.655
com.amazonaws	aws-java-sdk - fluxo de trabalho simples	1,11.655
com.amazonaws	aws-java-sdk-sns	1,11.655
com.amazonaws	aws-java-sdk-sqs	1,11.655
com.amazonaws	aws-java-sdk-ssm	1,11.655
com.amazonaws	gateway de armazenamento aws-java-sdk	1,11.655
com.amazonaws	aws-java-sdk-sts	1,11.655
com.amazonaws	suporte aws-java-sdk	1,11.655
com.amazonaws	aws-java-sdk-swf-biblioteca	1.11.22
com.amazonaws	aws-java-sdk-workspace	1,11.655
com.amazonaws	jmespath-java	1,11.655
com.chuusai	sem forma_2.12	2.3.3
com.clearspring.analítica	transmissão	2.9.6
com.databricks	Reservar	1,8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	plugin_2.12 do compilador	0,4,15-10
com.databricks.scalapb	scalapb-runtime_2.12	0,4,15-10
com.esotérico software	crio-sombreado	4.0.2
com.esotérico software	minlog	1.3.0
com.fasterxml	colega de classe	1.3.4
com.fasterxml.jackson.core	jackson-anotação	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	vinculação de dados jackson	2.10.0
formato de dados com.fasterxml.jackson.	formato de dados jackson-cbor	2.10.0
com.fasterxml.jackson.tipo de dados	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	parâmetro do módulo jackson	2.10.0
com.fasterxml.jackson.module	jackson-module-Scala.12	2.10.0
com.github.ben-manes.cafeína	cafeína	2.3.4
com.github.fommil	descarregador	1.1
com.github.fommil.netlib	abdômen	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-nativos	1.1
com.github.fommil.netlib	sistema_nativo-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-métricas-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1,4.4-3
com.github.wendykierp	JTransforma	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	tampões planos-java	1.9.0
com.google.goiaba	goiaba	15,0
com.google.protobuf	protobuf-java	2.6.1
banco de dados com.h2	h2	1,4,195
com.helger	perfilador	1.1.1
com.jcraft	jsch	0,1,50
com.jolbox	bonecp	VERSÃO 0.8.0.
com.microsoft.azure	azure-data lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-JDBC	8.2.1. jre8
comendo	comprimir-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.trunning	JSON	1,8
com.thoughtworks.paranamer	paranâmero	2.8
com.trueaccord.lenses	lentes_2.12	0.4.12
com.Twitter	chill-java	0,9.5
com.Twitter	chill_2.12	0,9.5
com.Twitter	util-app_2.12	7.1.0
com.Twitter	util-core_2.12	7.1.0
com.Twitter	função-útil_2.12	7.1.0
com.Twitter	util-jvm_2.12	7.1.0
com.Twitter	util-lint_2.12	7.1.0
com.Twitter	util-registry_2.12	7.1.0
com.Twitter	util-stats_2.12	7.1.0
com.typesafe	configuração	1.2.1
com.typesafe.Scala-logging	Scala-logging_2.12	3.7.2
com.univocidade	analisadores de univocidade	2.8.3
com.zaxxer	HikaricP	3.1.0
folhas de feijão comum	folhas de feijão comum	1.9.4
comum-CLI	comum-CLI	1.2
codec comum	codec comum	1,10
coleções comuns	coleções comuns	3.2.2
configuração comum	configuração comum	1,6
commons-dbcp	commons-dbcp	1.4
digestor comum	digestor comum	1,8
upload de arquivo commons	upload de arquivo commons	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2,4
linguagem comum	linguagem comum	2.6
registro de bens comuns	registro de bens comuns	1.1.3
commons-net	commons-net	3.1
comum-pool	comum-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io. airlift	compressor de ar	0,10
io.dropwizard.métricas	núcleo de métricas	4.1.1
io.dropwizard.métricas	métricas-grafite	4.1.1
io.dropwizard.métricas	métricas-healthchecks	4.1.1
io.dropwizard.métricas	métricas-jetty9	4.1.1
io.dropwizard.métricas	métricas-jmx	4.1.1
io.dropwizard.métricas	métricas-JSON	4.1.1
io.dropwizard.métricas	métricas-JVM	4.1.1
io.dropwizard.métricas	métricas-servlets	4.1.1
io.netty	tudo	4.1.47. Final
jakarta.anotação	jakarta.anotação-api	1.3.5
jakarta.validação	jakarta.validação-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.ativação	ativação	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	API de transação	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.transmissão	stax-api	1,0-2
javolução	javolução	5.5.1
junte-se	junte-se	2.14.6
hora do dia	hora do dia	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pirolita	4,30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	supercsv	2.2.0
net.snowflake	SDK de ingestão de flocos de neve	0.9.6
net.snowflake	floco de neve-JDBC	3.12.0
net.snowflake	floco de neve faísca_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	chá remoto - oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	modelo de string	3.2.1
org.apache.ant	formiga	1.9.2
org.apache.ant	formiga	1.9.2
org.apache.ant	lançador de formigas	1.9.2
org.apache.arrow	formato de seta	0.15.1
org.apache.arrow	memória de seta	0.15.1
org.apache.arrow	vetor de seta	0.15.1
org.apache.avro	AVRO	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	compressa comum	1.8.1
org.apache.commons	criptomoeda comum	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	texto comum	1,6
org.apache.curator	curador-cliente	2.7.1
org.apache.curator	estrutura de curador	2.7.1
org.apache.curator	receitas de curadores	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1,0,0-M20
org.apache.directory.api	utilitário de API	1,0,0-M20
org.apache.directory.server	apacheds-i18n	2,0,0-M15
org.apache.directory.server	codec apacheds-kerberos	2,0,0-M15
org.apache.hadoop	hadoop-anotação	2.7.4
org.apache.hadoop	autenticação hadoop	2.7.4
org.apache.hadoop	cliente hadoop	2.7.4
org.apache.hadoop	hadoop-comum	2.7.4
org.apache.hadoop	hadoop-HDFS	2.7.4
org.apache.hadoop	aplicativo cliente hadoop mapreduce	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	núcleo do cliente hadoop-mapreduce	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	API hadoop yarn	2.7.4
org.apache.hadoop	cliente hadoop-yarn	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	servidor hadoop-yarn-comum	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	colmeia-CLI	2.3.7
org.apache.hive	colmeia comum	2.3.7
org.apache.hive	núcleo hive-exec-core	2.3.7
org.apache.hive	hive-JDBC	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-lap-common	2.3.7
org.apache.hive	Hive metastore	2.3.7
org.apache.hive	colmeia	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	API de armazenamento em nuvem	2.7.1
org.apache.hive	geração de código vetorial hive	2.3.7
org.apache.hive.shims	calços de colmeia - 0,23	2.3.7
org.apache.hive.shims	calços de colmeia comuns	2.3.7
org.apache.hive.shims	hive-shims-programador	2.3.7
org.apache.htrace	htrace-core	3.1.0 - incubação
org.apache.httpcomponents	cliente http	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	hera	2.4.0
org.apache.orc	núcleo orc	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	calços de orc	1.5.10
org.apache.parquet	coluna de parquete	1.10.1.2 - blocos de dados 4
org.apache.parquet	parquete comum	1.10.1.2 - blocos de dados 4
org.apache.parquet	codificação de parquet	1.10.1.2 - blocos de dados 4
org.apache.parquet	formato de parquet	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2 - blocos de dados 4
org.apache.parquet	parquet-jackson	1.10.1.2 - blocos de dados 4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	velocidade	1.5
org.apache.xbean	xbean-asm7-shaded	4,15
org.apache.yetus	audiência-anotação	0.5.0
org.apache.zookeeper	tratador	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxers	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	compilador common	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	núcleo de dados-api-jdo	4.2.4
org.datanucleus	núcleo de dados	4.1.17
org.datanucleus	núcleo de dados-rdbms	4.1.19
org.datanucleus	javax.jdo	3,2,0-m3
org.Eclipse.jetty	jetty-client	9.4.18.v20190429
org.Eclipse.jetty	continuação do cais	9.4.18.v20190429
org.Eclipse.jetty	jetty-http	9.4.18.v20190429
org.Eclipse.jetty	jetty-io	9.4.18.v20190429
org.Eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.Eclipse.jetty	jetty-plus	9.4.18.v20190429
org.Eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.Eclipse.jetty	segurança do cais	9.4.18.v20190429
org.Eclipse.jetty	servidor jetty-server	9.4.18.v20190429
org.Eclipse.jetty	jutty-servlet	9.4.18.v20190429
org.Eclipse.jetty	píer de servlets	9.4.18.v20190429
org.Eclipse.jetty	jetty-util	9.4.18.v20190429
org.Eclipse.jetty	aplicativo web jetty-	9.4.18.v20190429
org.Eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-tudo	1,8
org.glassfish.hk2	API hk2	2.6.1
org.glassfish.hk2	localizador hk2	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-recurso-locator	1.0.3
org.glassfish.hk2.external	aopalliance - reembalado	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	servlet de contêiner de camisa	2,30
org.glassfish.jersey.containers	jersey-container-servlet-core	2,30
org.glassfish.jersey.core	cliente de camisa	2,30
org.glassfish.jersey.core	camiseta comum	2,30
org.glassfish.jersey.core	servidor de camisa	2,30
org.glassfish.jersey.inject	camiseta-hk2	2,30
org.glassfish.jersey.media	jersey-media-jaxb	2,30
org.hibernate.validator	validador de hibernação	6.1.0. Final
org.javassist	javassist	3,25,0 GA
org.jboss.logging	registro de jboss-logging	3.3.2. Final
org.jdbi	jdbi	2.63,1
org.joda	conversor de joda	1.7
org.jodd	núcleo nodular	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.JDBC	cliente mariadb-java	2.1.2
org.objenesis	objênese	2.5.1
org.postgresql	PostgreSQL	42,14
org.roaringbitmap	Mapa de bits estrondoso	0,7,45
org.roaringbitmap	calços	0,7,45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.rEngine	Motor	2.1.0
org.Scala-lang	Scala-compiler_2.12	2.12.10
org.Scala-lang	Scala-biblioteca.12	2.12.10
org.Scala-lang	Scala-reflect_2.12	2.12.10
org.Scala-lang.modules	Scala-collection-compat_2.12	2.1.1
org.Scala-lang.modules	Scala-parser-combinators_2.12	1.1.2
org.Scala-lang.modules	Scala-xml_2.12	1.2.0
org.Scala-sbt	interface de teste	1,0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1,0
org.scalanlp	breeze_2.12	1,0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1,7.30
org.slf4j	jul-a-slf4j	1,7.30
org.slf4j	slf4j-api	1,7.30
org.slf4j	slf4j-log4j12	1,7.30
org.spark-project.spark	não utilizado	1.0.0
org.springframework	núcleo de mola	4.1.4. LANÇAMENTO
org.springframework	teste de primavera	4.1.4. LANÇAMENTO
org.threeten	treze e mais	1.5.0
org.tukaani	xz	1.5
org.typelevel	álgebra_2.12	2,0,0-M2
org.typelevel	cats-kernel_2.12	2,0,0-M4
org.typelevel	maquinista_2.12	0.6.8
org.typelevel	macro-compat_2,12	1.1.1
org.typelevel	spire-macros_2.12	0,17.0-M1
org.typelevel	spire-platform_2.12	0,17.0-M1
org.typelevel	spire-util_2.12	0,17.0-M1
org.typelevel	spire_2.12	0,17.0-M1
org.xerial	sqlite-JDBC	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1,24
oro	oro	2.0.8
pt.edu.icm	Matrizes JLarge	1.5
software.Amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0,52

Novo recurso​

Melhorias​

Principais mudanças na biblioteca​

Python pacote​

R pacote​

Java e biblioteca Scala​

Mudanças de comportamento​

Spark mudanças de comportamento​

Outras mudanças de comportamento​

Depreciações e remoções​

Apache Spark​

Core, Spark SQL, transmissão estructurada​

Destaques​

Aprimoramentos de desempenho​

Aprimoramentos de extensibilidade​

Aprimoramentos do conector​

aprimoramentos de recursos​

Aprimoramentos de compatibilidade com SQL​

Aprimoramentos no monitoramento e na depuração​

Aprimoramentos do PySpark​

Aprimoramentos na documentação e na cobertura de testes​

Outras mudanças notáveis​

Mudanças de comportamento para Spark core, Spark SQL, e transmissão estructurada​

MLlib​

Destaques​

Mudanças de comportamento para MLlib​

SparkR​

Mudanças de comportamento para o SparkR​

Depreciações​

Problemas conhecidos​

Atualizações de manutenção​

Ambiente do sistema​

Instalado Python biblioteca​

Instalada a R biblioteca​

Instalei Java e Scala biblioteca (versão de clusteringScala 2.12)​

Novo recurso

Melhorias

Principais mudanças na biblioteca

Python pacote

R pacote

Java e biblioteca Scala

Mudanças de comportamento

Spark mudanças de comportamento

Outras mudanças de comportamento

Depreciações e remoções

Apache Spark

Core, Spark SQL, transmissão estructurada

Destaques

Aprimoramentos de desempenho

Aprimoramentos de extensibilidade

Aprimoramentos do conector

aprimoramentos de recursos

Aprimoramentos de compatibilidade com SQL

Aprimoramentos no monitoramento e na depuração

Aprimoramentos do PySpark

Aprimoramentos na documentação e na cobertura de testes

Outras mudanças notáveis

Mudanças de comportamento para Spark core, Spark SQL, e transmissão estructurada

MLlib

Destaques

Mudanças de comportamento para MLlib

SparkR

Mudanças de comportamento para o SparkR

Depreciações

Problemas conhecidos

Atualizações de manutenção

Ambiente do sistema

Instalado Python biblioteca

Instalada a R biblioteca

Instalei Java e Scala biblioteca (versão de clusteringScala 2.12)