Databricks Runtime 7,0 (EoS)
O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.
A Databricks lançou essa versão em junho de 2020.
As notas a seguir sobre a versão fornecem informações sobre o site Databricks Runtime 7.0, alimentado por Apache Spark 3.0.
Novo recurso
Databricks Runtime A versão 7.0 inclui os seguintes novos recursos:
-
Scala 2.12
O Databricks Runtime 7.0 atualiza o Scala de 2.11.12 para 2.12.10. A lista de alterações entre Scala 2.12 e 2.11 está em Scala 2.12.0 notas sobre a versão.
-
O Auto Loader (Public Preview) , lançado no Databricks Runtime 6.4, foi aprimorado no Databricks Runtime 7.0
O Auto Loader oferece ao senhor uma maneira mais eficiente de processar novos arquivos de dados de forma incremental à medida que eles chegam a um armazenamento de blob na nuvem durante a ETL. Isso é uma melhoria em relação à transmissão estruturada baseada em arquivos, que identifica novos arquivos listando repetidamente o diretório da nuvem e acompanhando os arquivos que foram vistos, o que pode ser muito ineficiente à medida que o diretório cresce. Auto Loader também é mais conveniente e eficaz do que a transmissão estruturada baseada em notificação de arquivos, que exige a configuração manual do serviço de notificação de arquivos na nuvem e não permite que o usuário faça backfill de arquivos existentes. Para obter detalhes, consulte O que é o Auto Loader?
-
COPY INTO
(Public Preview) , que permite que o senhor carregue dados no Delta Lake com tentativas idempotentes, foi aprimorado no Databricks Runtime 7.0Lançado como uma visualização pública no Databricks Runtime 6.4, o comando
COPY INTO
SQL permite que o senhor carregue dados no Delta Lake com tentativas idempotentes. Atualmente, para carregar dados no Delta Lake, o senhor precisa usar as APIs do Apache Spark DataFrame. Se houver falhas durante as cargas, você precisará lidar com elas de forma eficaz. O novo comandoCOPY INTO
oferece uma interface declarativa familiar para carregar dados em SQL. O comando mantém o controle dos arquivos carregados anteriormente e o senhor pode reexecutá-lo com segurança em caso de falhas. Para obter detalhes, consulteCOPY INTO
.
Melhorias
-
Mais Amazon Kinesis concorrente transmissão:
A fonte Amazon Kinesis transmissão estructurada usa
ListShards
por default para obter a lista de fragmentos em uma transmissão Kinesis. Isso requer permissões adicionais no site IAM para que a transmissão seja executada com sucesso. Nas versões anteriores de Databricks Runtime,DescribeStream
era usado por default.ListShards
tem um limite API significativamente maior do queDescribeStream
(100 solicitações por segundo por transmissão paraListShards
versus 10 solicitações por segundo em todo o site AWS account paraDescribeStream
). Essa alteração permitirá que os usuários executem mais de 10 concorrente Kinesis transmissão com transmissão estruturada em Databricks. -
Azure Synapse (anteriormente SQL data warehouse) suporta a instrução
COPY
.O principal benefício do
COPY
é que os usuários com menos privilégios podem gravar dados no Azure Synapse sem precisar de permissões estritas doCONTROL
no Azure Synapse. -
O
%matplotlib inline
comando mágico não é mais necessário para exibir objetos Matplolib em linha nas células do Notebook. Eles são sempre exibidos em linha pelo site default. -
As figuras do Matplolib agora são renderizadas com
transparent=False
, para que os planos de fundo especificados pelo usuário não sejam perdidos. Esse comportamento pode ser substituído pela definição da configuração do Sparkspark.databricks.workspace.matplotlib.transparent true
. -
Ao executar um trabalho de produção de transmissão estruturada em um cluster de modo de alta simultaneidade, as reinicializações de um trabalho ocasionalmente falhavam, porque o trabalho em execução anterior não era encerrado corretamente. Databricks Runtime A versão 6.3 introduziu a capacidade de definir a configuração SQL
spark.sql.streaming.stopActiveRunOnRestart true
em seu clustering para garantir que a execução anterior seja interrompida. Essa configuração é definida por default em Databricks Runtime 7.0.
Principais mudanças na biblioteca
Python pacote
O principal pacote Python foi atualizado:
- boto3 1.9.162 - > 1.12.0
- matplotlib 3.0.3 - > 3,13
- numpy 1.16.2 - > 1.18.1
- Pandas 0.24.2 -> 1.0.1
- pip 19.0.3 - > 20.0.2
- pyarrow 0.13.0 - > 0.15.1
- psycopg2 2.7.6 - > 2.8.4
- scikit-learn 0.20.3 - > 0,22,1
- scipy 1.2.1 - > 1.4.1
- seaborn 0.9.0 - > 0.10.0
Python pacote removido:
- Boto (use boto3)
- pycurl
O ambiente Python no Databricks Runtime 7.0 usa o Python 3.7, que é diferente do Python do sistema Ubuntu instalado:
/usr/bin/python
e /usr/bin/python2
estão vinculados ao Python 2.7 e /usr/bin/python3
está vinculado ao Python 3.6.
R pacote
R pacote adicionado:
- vassoura
- mais alto
- isóbanda
- tricotar
- Markdown
- modelar
- reprex
- rmarkdown
- colete
- seletor
- tidyverso
- tinytex
- diversão
R pacote removido:
- abandam
- bitops
- carro
- Dados do carro
- Dom C
- gbm
- h2o
- mais pequeno
- lme4
- mapproj
- mapeia
- ferramentas de mapa
- Modelos matriciais
- mina
- norma mvt
- nloptr
- openxlsx
- teste pbkr
- Gatinho PKG
- quantreg
- R. métodos S3
- R.oo
- R. utils
- RCP Pegen
- Curl
- rio
- espião
- SPARSEM
- statmod
- compactar
Java e biblioteca Scala
-
O AWS SDK (aws-java-sdk) foi atualizado para a versão 1.11.655.
-
Cliente Amazon Kinesis atualizado para 1.12.0
-
A versão do Apache Hive usada para lidar com as funções definidas pelo usuário do Hive e com o Hive SerDes foi atualizada para a versão 2.3.
-
Anteriormente, os jarros do Azure Storage e do Key Vault eram empacotados como parte do Databricks Runtime, o que impedia que o senhor usasse versões diferentes dessas bibliotecas anexadas ao clustering. As classes em
com.microsoft.azure.storage
ecom.microsoft.azure.keyvault
não estão mais no caminho da classe no Databricks Runtime. Se o senhor depender de um desses caminhos de classe, deverá anexar Azure Storage SDK ou Azure Key Vault SDK ao seu clustering.
Mudanças de comportamento
Esta seção lista as alterações de comportamento do Databricks Runtime 6.6 para o Databricks Runtime 7.0. O senhor deve estar ciente disso ao migrar cargas de trabalho de versões inferiores do Databricks Runtime para o Databricks Runtime 7.0 e acima.
Spark mudanças de comportamento
Como o Databricks Runtime 7.0 é o primeiro Databricks Runtime criado no Spark 3.0, há muitas alterações que o senhor deve conhecer ao migrar cargas de trabalho do Databricks Runtime 5.5 LTS ou 6.x, que são criados no Spark 2.4. Essas alterações estão listadas na seção "Alterações de comportamento" de cada área funcional na seção Apache Spark seção de notas sobre a versão artigos:
- Mudanças de comportamento para Spark core, Spark SQL, e transmissão estructurada
- Mudanças de comportamento para MLlib
- Mudanças de comportamento para o SparkR
Outras mudanças de comportamento
-
A atualização para o Scala 2.12 envolve as seguintes alterações:
-
A serialização de células de pacote é tratada de forma diferente. O exemplo a seguir ilustra a mudança de comportamento e como lidar com ela.
A execução do site
foo.bar.MyObjectInPackageCell.run()
, conforme definido na célula do pacote a seguir, acionará o errojava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
Scalapackage foo.bar
case class MyIntStruct(int: Int)
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column
object MyObjectInPackageCell extends Serializable {
// Because SparkSession cannot be created in Spark executors,
// the following line triggers the error
// Could not initialize class foo.bar.MyObjectInPackageCell$
val spark = SparkSession.builder.getOrCreate()
def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))
val theUDF = udf(foo)
val df = {
val myUDFInstance = theUDF(col("id"))
spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
}
def run(): Unit = {
df.collect().foreach(println)
}
}Para contornar esse erro, você pode colocar
MyObjectInPackageCell
dentro de uma classe serializável. -
Alguns casos usando
DataStreamWriter.foreachBatch
exigirão uma atualização do código-fonte. Essa alteração se deve ao fato de o Scala 2.12 ter conversão automática de expressões lambda para tipos SAM, o que pode causar ambiguidade.Por exemplo, o código Scala a seguir não pode ser compilado:
Scalastreams
.writeStream
.foreachBatch { (df, id) => myFunc(df, id) }Para corrigir o erro de compilação, altere
foreachBatch { (df, id) => myFunc(df, id) }
paraforeachBatch(myFunc _)
ou use a API Java explicitamente:foreachBatch(new VoidFunction2 ...)
.
-
-
Com a atualização do AWS SDK para a versão 1.11.655, o uso do site
org.apache.hadoop.fs.s3native.NativeS3FileSystem
exige a configuração do AWS Signature v4 e do bucket endpoint. Um erro 403 Forbidden poderá ser lançado se um usuário tiver configurado o AWS Signature v2 para assinar solicitações para o S3 com o sistema de arquivos S3N ou se um usuário acessar um caminho do S3 que contenha caracteres "+" e use o sistema de arquivos S3N legado (por exemplo, s3n://bucket/path/+file). -
Como a versão do Apache Hive usada para lidar com as funções definidas pelo usuário do Hive e com o Hive SerDes foi atualizada para a versão 2.3, são necessárias duas alterações:
- A interface
SerDe
do Hive é substituída por uma classe abstrataAbstractSerDe
. Para qualquer implementação personalizada do HiveSerDe
, é necessário migrar paraAbstractSerDe
. - Definir
spark.sql.hive.metastore.jars
comobuiltin
significa que o cliente de metastore Hive 2.3 será usado para acessar metastores para o Databricks Runtime 7.0. Se precisar acessar os metastores externos baseados no Hive 1.2, definaspark.sql.hive.metastore.jars
como a pasta que contém os jars do Hive 1.2.
- A interface
Depreciações e remoções
-
O índice de salto de dados foi preterido no Databricks Runtime 4.3 e removido no Databricks Runtime 7.0. Em vez disso, recomendamos que o senhor use as tabelas Delta, que oferecem recursos aprimorados de omissão de dados.
-
No Databricks Runtime 7.0, a versão subjacente do Apache Spark usa o Scala 2.12. Como a biblioteca compilada em Scala 2.11 pode desativar o agrupamento Databricks Runtime 7.0 de maneiras inesperadas, os agrupamentos que executam Databricks Runtime 7.0 e acima não instalam a biblioteca configurada para ser instalada em todos os agrupamentos. A biblioteca tab de agrupamento mostra um status
Skipped
e uma mensagem de depreciação que explica as alterações no manuseio da biblioteca. No entanto, se o senhor tiver um cluster criado em uma versão anterior do Databricks Runtime antes da versão 3.20 da plataforma Databricks ter sido lançada para o seu workspace e agora editar esse cluster para usar o Databricks Runtime 7.0, qualquer biblioteca que tenha sido configurada para ser instalada em todos os clusters será instalada nesse cluster. Nesse caso, quaisquer JARs incompatíveis na biblioteca instalada podem fazer com que o clustering seja desativado. A solução alternativa é clonar o clustering ou criar um novo clustering. -
org.apache.hadoop.fs.s3native.NativeS3FileSystem
eorg.apache.hadoop.fs.s3.S3FileSystem
não são mais compatíveis com o acesso ao S3.Recomendamos enfaticamente que o senhor use
com.databricks.s3a.S3AFileSystem
, que é o default para os esquemas de sistema de arquivoss3a://
,s3://
es3n://
em Databricks Runtime. Se precisar de ajuda com a migração paracom.databricks.s3a.S3AFileSystem
, entre em contato com o suporte Databricks ou com a equipe Databricks account . -
A capacidade de usar o What is DBFS? foi removida no Databricks Runtime 7.0 na Community Edition. Em vez disso, recomendamos que você use
%fs cp
para copiar seus dados de e para um diretório local.
Apache Spark
O Databricks Runtime 7.0 inclui o Apache Spark 3.0.
Nesta secção:
Core, Spark SQL, transmissão estructurada
Destaques
- (Projeto Hidrogênio) Programador com reconhecimento de acelerador(SPARK-24615)
- Execução adaptativa de consultas (SPARK-31412)
- Remoção dinâmica de partições (SPARK-11150)
- Redesenhado Pandas UDF API com dicas de tipo(SPARK-28264)
- transmissão estructurada UI(SPARK-29543)
- API do plug-in do catálogo(SPARK-31121)
- Melhor compatibilidade com ANSI SQL
Aprimoramentos de desempenho
-
Execução adaptativa de consultas (SPARK-31412)
-
Remoção dinâmica de partições (SPARK-11150)
-
Outras regras do otimizador
- Subconsulta de reutilização de regras (SPARK-27279)
- Regra Pushdown LeftSemi AntiJoin (SPARK-19712)
- Regra PushLeftSemi Leftanti ThroughJoin (SPARK-19712)
- Regra Substituir Null por False (SPARK-25860)
- Regra Eliminar classificações sem limite na subconsulta de união/agregação(SPARK-29343)
- Regra Prunehive TablePartitions (SPARK-15616)
- Removendo campos aninhados desnecessários do Generate (SPARK-27707)
- A regra Rewrite Não Correlacionada existe (SPARK-29800)
-
Minimize os custos de sincronização do cache de tabelas (SPARK-26917), (SPARK-26617),(SPARK-26548)
-
Divida o código de agregação em pequenas funções (SPARK-21870)
-
Adicionar lotes no comando INSERT e ALTER TABLE ADD PARTITION(SPARK-29938)
Aprimoramentos de extensibilidade
- API do plug-in do catálogo(SPARK-31121)
- fonte de dados V2 API refactoring(SPARK-25390)
- Suporte ao metastore Hive 3.0 e 3.1(SPARK-27970),(SPARK-24360)
- Estender a interface do plug-in do Spark para o driver(SPARK-29396)
- Ampliar o sistema de métricas do Spark com métricas definidas pelo usuário usando plug-ins de executor(SPARK-28091)
- APIs de desenvolvedor para suporte estendido ao processamento colunar(SPARK-27396)
- migração de fonte integrada usando DSV2: Parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Permitir injeção de função em extensões Spark (SPARK-25560)
- Permite que o Aggregator seja registrado como UDAF (SPARK-27296)
Aprimoramentos do conector
-
Suporte a committers S3A de alto desempenho(SPARK-23977)
-
Remoção de colunas por meio de expressões não determinísticas (SPARK-29768)
-
Suporte a
spark.sql.statistics.fallBackToHdfs
em tabelas de fontes de dados(SPARK-25474) -
Permitir a remoção de partições com filtros de subconsulta na fonte do arquivo (SPARK-26893)
-
Evitar o pushdown de subconsultas em filtros de fonte de dados(SPARK-25482)
-
Carregamento recursivo de dados de fontes de arquivo (SPARK-27990)
-
Parquet/ORC
-
Generalize Nested Column Pruning(SPARK-25603) e ativado por default (SPARK-29805)
-
Parquet somente
- Parquet pushdown de predicado para campos aninhados(SPARK-17636)
-
Somente ORC
- Suporte ao esquema merge para ORC (SPARK-11412)
- Poda de esquema aninhado para ORC(SPARK-27034)
- Redução da complexidade da conversão de predicados para ORC(SPARK-27105, SPARK-28108)
- Atualize o Apache ORC para a versão 1.5.9(SPARK-30695)
-
CSV
- Suporte ao pushdown de filtros na fonte de dados CSV(SPARK-30323)
-
Hive SerDe
- Nenhuma inferência de esquema ao ler a tabela Hive serde com fonte de dados nativa(SPARK-27119)
- Hive O comando CTAS deve usar a fonte de dados se for conversível(SPARK-25271)
- Use a fonte de dados nativa para otimizar a inserção da tabela Hive particionada(SPARK-28573).
-
Apache Kafka
- Adicionar suporte aos cabeçalhos do Kafka(SPARK-23539)
- Adicionar suporte a tokens de delegação Kafka (SPARK-25501)
- Introduzir uma nova opção na fonte do Kafka: deslocamento por carimbo de data/hora (início/fim)(SPARK-26848)
- Suporte à opção
minPartitions
em Kafka lotes source e transmissão source v1(SPARK-30656) - Atualização do Kafka para a versão 2.4.1(SPARK-31126)
-
Nova fonte integrada de dados
- Nova fonte de dados de arquivo binário integrada(SPARK-25348)
- Novos no-op lotes fonte de dados(SPARK-26550) e no-op transmissão sink(SPARK-26649)
aprimoramentos de recursos
-
[Hydrogen] Programador com reconhecimento de acelerador(SPARK-24615)
-
Introduzir um conjunto completo de dicas de união(SPARK-27225)
-
Adicionar a dica
PARTITION BY
para consultas SQL(SPARK-28746) -
Adicionar funções de ordem superior a Scala API (SPARK-27297)
-
Suporte simples a todas as reuniões no contexto da tarefa de barreira(SPARK-30667)
-
Os UDFs do Hive são compatíveis com o tipo UDT(SPARK-28158)
-
Suporte aos operadores DELETE/UPDATE/merge em Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
-
Novas funções integradas
- cante, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- qualquer, cada um, alguns (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- contagem de bits (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- parte_data (SPARK-28690)
- extrato (SPARK-23903)
- para todos (SPARK-27905)
- de_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- filtro_mapa (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- esquema de csv (SPARK-25672)
- para_csv (SPARK-25638)
- chaves de transformação (SPARK-23939)
- valores_de_transformação (SPARK-23940)
- tipo de (SPARK-29961)
- versão (SPARK-29554)
- xxhash64 (SPARK-27099)
-
Aprimoramentos nas funções integradas existentes
- melhoria das funções/operações de data e hora integradas(SPARK-31415)
- Suporta o modo
FAILFAST
parafrom_json
(SPARK-25243) array_sort
adiciona um novo parâmetro comparador (SPARK-29020)- O filtro agora pode usar o índice como entrada, bem como o elemento (SPARK-28962)
Aprimoramentos de compatibilidade com SQL
- Mudar para o calendário gregoriano proléptico (SPARK-26651)
- Criar a própria definição de padrão de data e hora do Spark(SPARK-31408)
- Apresente a política de atribuição de armazenamento ANSI para inserção de tabelas (SPARK-28495)
- Seguir a regra ANSI de atribuição de lojas na inserção de tabelas pelo site default (SPARK-28885)
- Adicionar um SQLConf
spark.sql.ansi.enabled
(SPARK-28989) - Suporte à cláusula de filtro ANSI SQL para expressão de agregação(SPARK-27986)
- Suporte à função ANSI SQL
OVERLAY
(SPARK-28077) - Suporta comentários aninhados entre colchetes ANSI (SPARK-28880)
- Lance exceção em caso de estouro para números inteiros (SPARK-26218)
- Verificação de estouro para operações aritméticas de intervalo(SPARK-30341)
- Lança uma exceção quando uma string inválida é convertida em um tipo numérico(SPARK-30292)
- Tornar o comportamento de estouro do intervalo de multiplicação e divisão consistente com outras operações(SPARK-30919)
- Adicione aliases do tipo ANSI para char e decimal (SPARK-29941)
- O SQL Parser define palavras-chave reservadas em conformidade com ANSI(SPARK-26215)
- Proíba palavras-chave reservadas como identificadores quando o modo ANSI está ativado (SPARK-26976)
- Suporte à sintaxe ANSI SQL
LIKE ... ESCAPE
(SPARK-28083) - Suporte à sintaxe ANSI SQL Boolean-Predicate(SPARK-27924)
- Melhor suporte para processamento de subconsultas correlacionadas (SPARK-18455)
Aprimoramentos no monitoramento e na depuração
- Nova transmissão estruturada UI(SPARK-29543)
- SHS: Permitir que o evento logs para aplicativos de transmissão em execução seja transferido(SPARK-28594).
- Adicione um API que permita ao usuário definir e observar métricas arbitrárias em lotes e consultas de transmissão(SPARK-29345)
- Instrumentação para acompanhamento do tempo de planejamento por consulta(SPARK-26129)
- Colocar as métricas básicas de embaralhamento no operador de troca de SQL(SPARK-26139)
- SQL A declaração é exibida na guia SQL em vez de no local da chamada(SPARK-27045)
- Adicionar dica de ferramenta ao SparkUI (SPARK-29449)
- Melhorar o desempenho concorrente do history Server(SPARK-29043)
EXPLAIN FORMATTED
comando(SPARK-27395)- Suporte ao despejo de planos truncados e código gerado em um arquivo (SPARK-26023)
- Melhore a estrutura de descrição para descrever a saída de uma consulta (SPARK-26982)
- Adicionar o comando
SHOW VIEWS
(SPARK-31113) - Aprimorar as mensagens de erro do analisador de SQL(SPARK-27901)
- Suporte ao monitoramento nativo do Prometheus(SPARK-29429)
Aprimoramentos do PySpark
- Redesenhado Pandas UDFs com dicas de tipo(SPARK-28264)
- Pandas UDF pipeline (SPARK-26412)
- Suporte a StructType como argumentos e tipos de retorno para Scalar Pandas UDF(SPARK-27240 )
- Suporte ao Dataframe Cogroup por meio de UDFs do Pandas(SPARK-27463)
- Adicionar
mapInPandas
para permitir um iterador de DataFrames(SPARK-28198) - Certas funções SQL também devem receber nomes de colunas(SPARK-26979)
- Tornar as exceções SQL do PySpark mais pitônicas(SPARK-31849)
Aprimoramentos na documentação e na cobertura de testes
- Criar uma referência SQL(SPARK-28588)
- Criar um guia do usuário para a WebUI(SPARK-28372)
- Criar uma página para a documentação de configuração do SQL(SPARK-30510)
- Adicionar informações de versão para a configuração do site Spark (SPARK-30839)
- Testes de regressão de porta do PostgreSQL(SPARK-27763)
- Cobertura de teste do Thrift-Server (SPARK-28608)
- Cobertura de teste de UDFs (Python UDF, Pandas UDF, Scala UDF)(SPARK-27921)
Outras mudanças notáveis
- integrada Hive atualização da execução de 1.2.1 para 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Use a dependência de Apache Hive 2.3 por default (SPARK-30034)
- GA Scala 2.12 e remover 2.11(SPARK-26132)
- Aprimorar a lógica do executor de tempo limite na alocação dinâmica(SPARK-20286)
- Blocos RDD persistentes em disco atendidos pelo serviço de embaralhamento e ignorados na alocação dinâmica(SPARK-27677)
- Adquirir um novo executor para evitar o travamento devido à lista de bloqueios(SPARK-22148)
- Permitir o compartilhamento dos alocadores de pool de memória do Netty(SPARK-24920)
- Corrija o impasse entre
TaskMemoryManager
eUnsafeExternalSorter$SpillableIterator
(SPARK-27338) - Introduzir
AdmissionControl
APIs para StructuredStreaming(SPARK-30669) - Spark história Main page desempenho improvement(SPARK-25973)
- Acelerar e reduzir a agregação de métricas no ouvinte do SQL(SPARK-29562)
- Evite a rede quando os blocos embaralhados forem obtidos do mesmo host(SPARK-27651)
- Melhore a listagem de arquivos para
DistributedFileSystem
(SPARK-27801)
Mudanças de comportamento para Spark core, Spark SQL, e transmissão estructurada
Os seguintes guias de migração listam as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações do Job que o senhor tem executado em versões inferiores do Databricks Runtime:
- Guia de migração: Spark Principais
- Guia de migração: SQL, conjunto de dados e DataFrame
- Guia de migração: transmissão estruturada
- Guia de migração: PySpark (Python em Spark)
As seguintes alterações de comportamento não são abordadas neste guia de migração:
- No Spark 3.0, a classe obsoleta
org.apache.spark.sql.streaming.ProcessingTime
foi removida. Em vez disso, useorg.apache.spark.sql.streaming.Trigger.ProcessingTime
. Da mesma forma,org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
foi removido em favor deTrigger.Continuous
eorg.apache.spark.sql.execution.streaming.OneTimeTrigger
foi ocultado em favor deTrigger.Once
. (SPARK-28199) - Em Databricks Runtime 7.0, ao ler uma tabela Hive SerDe, por default Spark não permite a leitura de arquivos em um subdiretório que não seja uma partição de tabela. Para habilitá-la, defina a configuração
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
comotrue
. Isso não afeta os leitores de tabelas e de arquivos nativos do Spark.
MLlib
Destaques
- O suporte a várias colunas foi adicionado ao Binarizer(SPARK-23578), StringIndexer(SPARK-11215), StopWordsRemover(SPARK-29808) e PySpark QuantileDiscretizer(SPARK-22796)
- Suporte a transformações de recursos baseadas em árvores(SPARK-13677)
- Dois novos avaliadores MultiLabelClassificationEvaluator(SPARK-16692) e RankingEvaluator (SPARK-28045) foram adicionados
- O suporte de pesos amostrais foi adicionado em DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor(SPARK-9478), GBTClassifier/Regressor(SPARK-9612), RegressionEvaluator(SPARK-24102), BinaryClassificationEvaluator(SPARK-24103), BisectingKMeans(SPARK-30351), KMeans Meios(SPARK-29967) e mistura gaussiana(SPARK-30102)
- A API R para PowerIterationClustering foi adicionada(SPARK-19827)
- Adicionado Spark ML listener para acompanhamento ML pipeline status(SPARK-23674)
- O ajuste com o conjunto de validação foi adicionado ao Gradient Boosted Trees in Python(SPARK-24333)
- O transformador RobustScaler foi adicionado (SPARK-28399)
- Classificador e regressor de máquinas de fatoração foram adicionados (SPARK-29224)
- Foram adicionados Gaussian Naive Bayes (SPARK-16872) e Complement Naive Bayes(SPARK-29942)
- Paridade da função ML entre Scala e Python(SPARK-28958)
- O PredicTraw é divulgado em todos os modelos de classificação. O PredictProbability é divulgado em todos os modelos de classificação, exceto LinearSvcModel (SPARK-30358)
Mudanças de comportamento para MLlib
O guia de migração a seguir lista as alterações de comportamento entre o Apache Spark 2.4 e o 3.0. Essas alterações podem exigir atualizações do Job que o senhor tem executado em versões inferiores do Databricks Runtime:
As seguintes alterações de comportamento não são abordadas no guia de migração:
- Em Spark 3.0, uma regressão logística multiclasse em PySpark agora retornará (corretamente)
LogisticRegressionSummary
, e não a subclasseBinaryLogisticRegressionSummary
. De qualquer forma, os métodos adicionais expostos porBinaryLogisticRegressionSummary
não funcionariam nesse caso. (SPARK-31681) - No Spark 3.0, os mixins
pyspark.ml.param.shared.Has*
não fornecem mais nenhum método setterset*(self, value)
; em vez disso, use o respectivoself.set(self.*, value)
. Consulte SPARK-29093 para obter detalhes. (SPARK-29093)
SparkR
- Otimização de setas na interoperabilidade do SparkR(SPARK-26759)
- Aprimoramento do desempenho por meio de R vetorizado gapply(), dapply(), createDataFrame, collect()
- "Execução ansiosa" para shell R, IDE(SPARK-24572)
- R API para agrupamento de iteração de potência(SPARK-19827)
Mudanças de comportamento para o SparkR
O guia de migração a seguir lista as alterações de comportamento entre o Apache Spark 2.4 e o 3.0. Essas alterações podem exigir atualizações do Job que o senhor tem executado em versões inferiores do Databricks Runtime:
Depreciações
- Descontinuar o suporte ao Python 2(SPARK-27884)
- Descontinuar o suporte ao R\ < 3.4 (SPARK-26014)
Problemas conhecidos
- Analisar o dia do ano usando a letra padrão 'D' retorna o resultado errado se o campo do ano estiver ausente. Isso pode acontecer em SQL funções como
to_timestamp
, que analisa strings de data e hora para valores de data e hora usando um padrão de strings. (SPARK-31939) - join/Window/Aggregate dentro de subconsultas pode levar a resultados errados se a chave tiver valores -0,0 e 0,0. (SPARK-31958)
- Uma consulta de janela pode falhar inesperadamente com um erro ambíguo em autojoin. (SPARK-31956)
- As consultas de transmissão com o operador
dropDuplicates
talvez não consigam reiniciar com o ponto de verificação escrito por Spark 2.x. (SPARK-31990)
Atualizações de manutenção
Consulte Atualizações de manutenção do Databricks Runtime 7.0.
Ambiente do sistema
- Sistema operacional : Ubuntu 18.04.4 LTS
- Java : 1.8.0_252
- Scala : 2.12.10
- Python : 3.7.5
- R : R versão 3.6.3 (2020-02-29)
- Delta Lake 0.7.0
Instalado Python biblioteca
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
criptomoeda asn1 | 1.3.0 | chamada de volta | 0.1.0 | boto3 | 1.12.0 |
botocore | 1,15.0 | certifi | 2020.4.5 | caffi | 1,14.0 |
chardet | 3.0.4 | criptografia | 2.8 | ciclador | 0.10.0 |
Cython | 0,29,15 | decorador | 4.4.1 | docutils | 0,15.2 |
pontos de entrada | 0,3 | Índia | 2.8 | ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | jedi | 0,14.1 |
jmespath | 0.9.4 | joblib | 0,14.1 | cliente jupyter | 5.3.4 |
núcleo jupyter | 4.6.1 | solucionador de kiwi | 1.1.0 | Matplotlib | 3.1.3 |
entorpecido | 1.18.1 | Pandas | 1.0.1 | parso | 0.5.2 |
bode expiatório | 0.5.1 | esperar | 4.8.0 | picles | 0.7.5 |
pip | 20,0.2 | kit de ferramentas de aviso | 3.0.3 | psycopg2 | 2.8.4 |
processo pty | 0.6.0 | flecha | 0.15.1 | pycparser | 2,19 |
Pigmentos | 2.5.2 | Objeto PYG | 3.26.1 | PyOpenSSL | 19.1.0 |
análise de pipa | 2.4.6 | Meias PY | 1.7.1 | Python-apt | 1.6.5+ubuntu0.3 |
Python-dateutil | 2.8.1 | pytz | 2019,3 | pizma | 18.1.1 |
pedidos | 2.22,0 | transferência s3 | 0.3.3 | scikit-learn | 0,22,1 |
pegajoso | 1.4.1 | marítimo | 0.10.0 | ferramentas de configuração | 45,2,0 |
seis | 1,14.0 | ID de importação ssh | 5.7 | modelos de estatísticas | 0.11.0 |
tornado | 6.0.3 | almôndegas | 4.3.3 | atualizações autônomas | 0,1 |
urllib3 | 1,25,8 | ambiente virtual | 16.7.10 | largura do wc | 0.1.8 |
Python wheel | 0,34,2 |
Instalada a R biblioteca
As bibliotecas R são instaladas a partir de Microsoft CRAN Snapshot em 2020-04-22.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
askpass | 1.1 | afirme que | 0.2.1 | portas traseiras | 1.1.6 |
base | 3.6.3 | base64enc | 0,1-3 | POR | 1,72,0-3 |
pouco | 1,1-15,2 | bit64 | 0,9-7 | bolha | 1.2.1 |
inicialização | 1,3-25 | fermentar | 1,0-6 | vassoura | 0.5.6 |
chamador | 3.4.3 | cursor | 6,0-86 | guarda de celas | 1.1.0 |
crono | 2,3-55 | Aula | 7,3-17 | CLIPE | 2.0.2 |
clipe | 0.7.0 | Cluster | 2.1.0 | ferramentas de código | 0,2-16 |
espaço de cores | 1,4-1 | marca comum | 1.7 | compilador | 3.6.3 |
configuração | 0,3 | capa | 3.5.0 | giz de cera | 1.3.4 |
diafonia | 1.1.0.1 | cacho | 4.3 | data.tabela | 1.12.8 |
conjunto de dados | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
desc | 1.2.0 | ferramentas de desenvolvimento | 2.3.0 | digerir | 0,6,25 |
dplyr | 0,8.5 | DT | 0,13 | reticências | 0.3.0 |
avalie | 0,14 | fansi | 0.4.1 | colorista | 2.0.3 |
mapa rápido | 1.0.1 | para gatos | 0.5.0 | para cada um | 1.5.0 |
estrangeira | 0,8-76 | forjar | 0.2.0 | fs | 1.4.1 |
genéricas | 0.0.2 | ggplot2 | 3.3.0 | gh | 1.1.0 |
git2r | 0.26.1 | glmnet | 3,0-2 | globais | 0,12,5 |
cola | 1.4.0 | goleiro | 0.2.1 | gráficos | 3.6.3 |
Dispositivos GR | 3.6.3 | grade | 3.6.3 | Grid Extra | 2.3 |
gsubfn | 0,7 | mesa | 0.3.0 | refúgio | 2.2.0 |
mais alto | 0,8 | HMS | 0.5.3 | ferramentas html | 0.4.0 |
widgets html | 1.5.1 | http.uv | 1.5.2 | httr | 1.4.1 |
escritor | 1.3.2 | HWriter Plus | 1,0-3 | mini | 0.3.1 |
ipred | 0,9-9 | isóbanda | 0.2.1 | iteradores | 1.0.12 |
jsonlite | 1.6.1 | Kern Smooth | 2,23-17 | tricotar | 1,28 |
rótulo | 0,3 | posteriormente | 1.0.0 | treliça | 0,20-41 |
lava | 1.6.7 | preguiçoso | 0.2.2 | ciclo de vida | 0.2.0 |
lubrificar | 1.7.8 | magritter | 1.5 | Markdown | 1.1 |
MASSA | 7,3-51,6 | Matriz | 1,2-18 | memoise | 1.1.0 |
métodos | 3.6.3 | mgcv | 1,8-31 | mímica | 0,9 |
Métricas do modelo | 1.2.2.2 | modelar | 0.1.6 | munsell | 0.5.0 |
nome | 3,1-147 | net | 7,3-14 | Número Deriv | 2016,8-1,1 |
openssl | 1.4.1 | paralelo | 3.6.3 | pilar | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | carregamento de pacotes | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | elogio | 1.0.0 |
unidades bonitas | 1.1.1 | ProC | 1.16.2 | processa | 3.4.2 |
prodlim | 13/11/2019 | progresso | 1.2.2 | promessas | 1.1.0 |
proto | 1.0.0 | ps | 1.3.2 | ronronar | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | Floresta aleatória | 4,6-14 |
corredeiras | 0.3.1 | rcmdcheck | 1.3.3 | Cervejaria RColor | 1,1-2 |
Rcpp | 1.0.4.6 | leitor | 1.3.1 | readxl | 1.3.1 |
receitas | 0.1.10 | revanche | 1.0.1 | revanche 2 | 2.1.1 |
controles remotos | 2.1.1 | reprex | 0.3.0 | remodelar 2 | 1.4.4 |
rex | 1.2.0 | rojson | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1,3-16 | roxigênio2 | 7.1.0 |
rpartem | 4,1-15 | rprojroot | 1,3-2 | Reservar | 1,8-6 |
RSQLite | 2.2.0 | API do estúdio | 0,11 | reversões | 2.0.1 |
colete | 0.3.5 | escala | 1.1.0 | seletor | 0,4-2 |
informações da sessão | 1.1.1 | forma | 1.4.4 | brilhante | 1.4.0.2 |
ferramentas de origem | 0.1.7 | Sparklyr | 1.2.0 | SparkR | 3.0.0 |
espacial | 7,3-11 | splines | 3.6.3 | sqldf | 0,4-11 |
QUADRADO | 2020,2 | estatísticas | 3.6.3 | estatísticas4 | 3.6.3 |
stringi | 1.4.6 | longarina | 1.4.0 | sobrevivência | 3,1-12 |
diz | 3.3 | tcltk | 3.6.3 | Demonstrações de ensino | 2,10 |
teste isso | 2.3.2 | petiscar | 3.0.1 | arrumado | 1.0.2 |
seleção arrumada | 1.0.0 | tidyverso | 1.3.0 | Hora/Data | 3043,102 |
tinytex | 0,22 | Ferramentas | 3.6.3 | use isso | 1.6.0 |
utf 8 | 1.1.4 | utilidades | 3.6.3 | vctrs | 0.2.4 |
Viridis Lite | 0.3.0 | bigode | 0,4 | murchar | 2.2.0 |
diversão | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
x estável | 1,8-4 | yaml | 2.2.1 |
Instalei Java e Scala biblioteca (versão de clusteringScala 2.12)
ID do grupo | ID do artefato | Versão |
---|---|---|
chifre | chifre | 2.7.7 |
com.amazonaws | Amazon-kinesis-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscale | 1,11.655 |
com.amazonaws | formação de nuvem aws-java-sdk | 1,11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1,11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1,11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1,11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1,11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1,11.655 |
com.amazonaws | métricas aws-java-sdk-cloudwatch | 1,11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1,11.655 |
com.amazonaws | identidade cognitiva aws-java-sdk | 1,11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1,11.655 |
com.amazonaws | aws-java-sdk-config | 1,11.655 |
com.amazonaws | aws-java-sdk-core | 1,11.655 |
com.amazonaws | pipeline de dados aws-java-sdk | 1,11.655 |
com.amazonaws | aws-java-sdk-conexão direta | 1,11.655 |
com.amazonaws | diretório aws-java-sdk | 1,11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1,11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1,11.655 |
com.amazonaws | aws-java-sdk-ecs | 1,11.655 |
com.amazonaws | aws-java-sdk-efs | 1,11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1,11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1,11.655 |
com.amazonaws | balanceamento de carga elástico aws-java-sdk | 1,11.655 |
com.amazonaws | transcodificador elástico aws-java-sdk- | 1,11.655 |
com.amazonaws | aws-java-sdk-emr | 1,11.655 |
com.amazonaws | aws-java-sdk-glacier | 1,11.655 |
com.amazonaws | aws-java-sdk-iam | 1,11.655 |
com.amazonaws | aws-java-sdk-importação/exportação | 1,11.655 |
com.amazonaws | aws-java-sdk-kinesis | 1,11.655 |
com.amazonaws | aws-java-sdk-kms | 1,11.655 |
com.amazonaws | aws-java-sdk-lambda | 1,11.655 |
com.amazonaws | aws-java-sdk-logs | 1,11.655 |
com.amazonaws | aws-java-sdk - aprendizado de máquina | 1,11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1,11.655 |
com.amazonaws | aws-java-sdk-rds | 1,11.655 |
com.amazonaws | aws-java-sdk-redshift | 1,11.655 |
com.amazonaws | aws-java-sdk-route53 | 1,11.655 |
com.amazonaws | aws-java-sdk-s3 | 1,11.655 |
com.amazonaws | aws-java-sdk-ses | 1,11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1,11.655 |
com.amazonaws | aws-java-sdk - fluxo de trabalho simples | 1,11.655 |
com.amazonaws | aws-java-sdk-sns | 1,11.655 |
com.amazonaws | aws-java-sdk-sqs | 1,11.655 |
com.amazonaws | aws-java-sdk-ssm | 1,11.655 |
com.amazonaws | gateway de armazenamento aws-java-sdk | 1,11.655 |
com.amazonaws | aws-java-sdk-sts | 1,11.655 |
com.amazonaws | suporte aws-java-sdk | 1,11.655 |
com.amazonaws | aws-java-sdk-swf-biblioteca | 1.11.22 |
com.amazonaws | aws-java-sdk-workspace | 1,11.655 |
com.amazonaws | jmespath-java | 1,11.655 |
com.chuusai | sem forma_2.12 | 2.3.3 |
com.clearspring.analítica | transmissão | 2.9.6 |
com.databricks | Reservar | 1,8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | plugin_2.12 do compilador | 0,4,15-10 |
com.databricks.scalapb | scalapb-runtime_2.12 | 0,4,15-10 |
com.esotérico software | crio-sombreado | 4.0.2 |
com.esotérico software | minlog | 1.3.0 |
com.fasterxml | colega de classe | 1.3.4 |
com.fasterxml.jackson.core | jackson-anotação | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | vinculação de dados jackson | 2.10.0 |
formato de dados com.fasterxml.jackson. | formato de dados jackson-cbor | 2.10.0 |
com.fasterxml.jackson.tipo de dados | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | parâmetro do módulo jackson | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-Scala.12 | 2.10.0 |
com.github.ben-manes.cafeína | cafeína | 2.3.4 |
com.github.fommil | descarregador | 1.1 |
com.github.fommil.netlib | abdômen | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1.1 |
com.github.fommil.netlib | native_ref-java-nativos | 1.1 |
com.github.fommil.netlib | sistema_nativo-java | 1.1 |
com.github.fommil.netlib | native_system-java-natives | 1.1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
com.github.joshelser | dropwizard-métricas-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | zstd-jni | 1,4.4-3 |
com.github.wendykierp | JTransforma | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | tampões planos-java | 1.9.0 |
com.google.goiaba | goiaba | 15,0 |
com.google.protobuf | protobuf-java | 2.6.1 |
banco de dados com.h2 | h2 | 1,4,195 |
com.helger | perfilador | 1.1.1 |
com.jcraft | jsch | 0,1,50 |
com.jolbox | bonecp | VERSÃO 0.8.0. |
com.microsoft.azure | azure-data lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-JDBC | 8.2.1. jre8 |
comendo | comprimir-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.trunning | JSON | 1,8 |
com.thoughtworks.paranamer | paranâmero | 2.8 |
com.trueaccord.lenses | lentes_2.12 | 0.4.12 |
com.Twitter | chill-java | 0,9.5 |
com.Twitter | chill_2.12 | 0,9.5 |
com.Twitter | util-app_2.12 | 7.1.0 |
com.Twitter | util-core_2.12 | 7.1.0 |
com.Twitter | função-útil_2.12 | 7.1.0 |
com.Twitter | util-jvm_2.12 | 7.1.0 |
com.Twitter | util-lint_2.12 | 7.1.0 |
com.Twitter | util-registry_2.12 | 7.1.0 |
com.Twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | configuração | 1.2.1 |
com.typesafe.Scala-logging | Scala-logging_2.12 | 3.7.2 |
com.univocidade | analisadores de univocidade | 2.8.3 |
com.zaxxer | HikaricP | 3.1.0 |
folhas de feijão comum | folhas de feijão comum | 1.9.4 |
comum-CLI | comum-CLI | 1.2 |
codec comum | codec comum | 1,10 |
coleções comuns | coleções comuns | 3.2.2 |
configuração comum | configuração comum | 1,6 |
commons-dbcp | commons-dbcp | 1.4 |
digestor comum | digestor comum | 1,8 |
upload de arquivo commons | upload de arquivo commons | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2,4 |
linguagem comum | linguagem comum | 2.6 |
registro de bens comuns | registro de bens comuns | 1.1.3 |
commons-net | commons-net | 3.1 |
comum-pool | comum-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io. airlift | compressor de ar | 0,10 |
io.dropwizard.métricas | núcleo de métricas | 4.1.1 |
io.dropwizard.métricas | métricas-grafite | 4.1.1 |
io.dropwizard.métricas | métricas-healthchecks | 4.1.1 |
io.dropwizard.métricas | métricas-jetty9 | 4.1.1 |
io.dropwizard.métricas | métricas-jmx | 4.1.1 |
io.dropwizard.métricas | métricas-JSON | 4.1.1 |
io.dropwizard.métricas | métricas-JVM | 4.1.1 |
io.dropwizard.métricas | métricas-servlets | 4.1.1 |
io.netty | tudo | 4.1.47. Final |
jakarta.anotação | jakarta.anotação-api | 1.3.5 |
jakarta.validação | jakarta.validação-api | 2.0.2 |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
javax.ativação | ativação | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1.1 |
javax.transaction | API de transação | 1.1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.transmissão | stax-api | 1,0-2 |
javolução | javolução | 5.5.1 |
junte-se | junte-se | 2.14.6 |
hora do dia | hora do dia | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pirolita | 4,30 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | supercsv | 2.2.0 |
net.snowflake | SDK de ingestão de flocos de neve | 0.9.6 |
net.snowflake | floco de neve-JDBC | 3.12.0 |
net.snowflake | floco de neve faísca_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0,1 |
org.acplt.remotetea | chá remoto - oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | modelo de string | 3.2.1 |
org.apache.ant | formiga | 1.9.2 |
org.apache.ant | formiga | 1.9.2 |
org.apache.ant | lançador de formigas | 1.9.2 |
org.apache.arrow | formato de seta | 0.15.1 |
org.apache.arrow | memória de seta | 0.15.1 |
org.apache.arrow | vetor de seta | 0.15.1 |
org.apache.avro | AVRO | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | compressa comum | 1.8.1 |
org.apache.commons | criptomoeda comum | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | texto comum | 1,6 |
org.apache.curator | curador-cliente | 2.7.1 |
org.apache.curator | estrutura de curador | 2.7.1 |
org.apache.curator | receitas de curadores | 2.7.1 |
org.apache.derby | derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1,0,0-M20 |
org.apache.directory.api | utilitário de API | 1,0,0-M20 |
org.apache.directory.server | apacheds-i18n | 2,0,0-M15 |
org.apache.directory.server | codec apacheds-kerberos | 2,0,0-M15 |
org.apache.hadoop | hadoop-anotação | 2.7.4 |
org.apache.hadoop | autenticação hadoop | 2.7.4 |
org.apache.hadoop | cliente hadoop | 2.7.4 |
org.apache.hadoop | hadoop-comum | 2.7.4 |
org.apache.hadoop | hadoop-HDFS | 2.7.4 |
org.apache.hadoop | aplicativo cliente hadoop mapreduce | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | núcleo do cliente hadoop-mapreduce | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | API hadoop yarn | 2.7.4 |
org.apache.hadoop | cliente hadoop-yarn | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | servidor hadoop-yarn-comum | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | colmeia-CLI | 2.3.7 |
org.apache.hive | colmeia comum | 2.3.7 |
org.apache.hive | núcleo hive-exec-core | 2.3.7 |
org.apache.hive | hive-JDBC | 2.3.7 |
org.apache.hive | hive-llap-client | 2.3.7 |
org.apache.hive | hive-lap-common | 2.3.7 |
org.apache.hive | Hive metastore | 2.3.7 |
org.apache.hive | colmeia | 2.3.7 |
org.apache.hive | hive-shims | 2.3.7 |
org.apache.hive | API de armazenamento em nuvem | 2.7.1 |
org.apache.hive | geração de código vetorial hive | 2.3.7 |
org.apache.hive.shims | calços de colmeia - 0,23 | 2.3.7 |
org.apache.hive.shims | calços de colmeia comuns | 2.3.7 |
org.apache.hive.shims | hive-shims-programador | 2.3.7 |
org.apache.htrace | htrace-core | 3.1.0 - incubação |
org.apache.httpcomponents | cliente http | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | hera | 2.4.0 |
org.apache.orc | núcleo orc | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | calços de orc | 1.5.10 |
org.apache.parquet | coluna de parquete | 1.10.1.2 - blocos de dados 4 |
org.apache.parquet | parquete comum | 1.10.1.2 - blocos de dados 4 |
org.apache.parquet | codificação de parquet | 1.10.1.2 - blocos de dados 4 |
org.apache.parquet | formato de parquet | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2 - blocos de dados 4 |
org.apache.parquet | parquet-jackson | 1.10.1.2 - blocos de dados 4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | velocidade | 1.5 |
org.apache.xbean | xbean-asm7-shaded | 4,15 |
org.apache.yetus | audiência-anotação | 0.5.0 |
org.apache.zookeeper | tratador | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxers | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | compilador common | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | núcleo de dados-api-jdo | 4.2.4 |
org.datanucleus | núcleo de dados | 4.1.17 |
org.datanucleus | núcleo de dados-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3,2,0-m3 |
org.Eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.Eclipse.jetty | continuação do cais | 9.4.18.v20190429 |
org.Eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.Eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.Eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.Eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.Eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.Eclipse.jetty | segurança do cais | 9.4.18.v20190429 |
org.Eclipse.jetty | servidor jetty-server | 9.4.18.v20190429 |
org.Eclipse.jetty | jutty-servlet | 9.4.18.v20190429 |
org.Eclipse.jetty | píer de servlets | 9.4.18.v20190429 |
org.Eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.Eclipse.jetty | aplicativo web jetty- | 9.4.18.v20190429 |
org.Eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-tudo | 1,8 |
org.glassfish.hk2 | API hk2 | 2.6.1 |
org.glassfish.hk2 | localizador hk2 | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-recurso-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance - reembalado | 2.6.1 |
org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
org.glassfish.jersey.containers | servlet de contêiner de camisa | 2,30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2,30 |
org.glassfish.jersey.core | cliente de camisa | 2,30 |
org.glassfish.jersey.core | camiseta comum | 2,30 |
org.glassfish.jersey.core | servidor de camisa | 2,30 |
org.glassfish.jersey.inject | camiseta-hk2 | 2,30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2,30 |
org.hibernate.validator | validador de hibernação | 6.1.0. Final |
org.javassist | javassist | 3,25,0 GA |
org.jboss.logging | registro de jboss-logging | 3.3.2. Final |
org.jdbi | jdbi | 2.63,1 |
org.joda | conversor de joda | 1.7 |
org.jodd | núcleo nodular | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.6.6 |
org.json4s | json4s-core_2.12 | 3.6.6 |
org.json4s | json4s-jackson_2.12 | 3.6.6 |
org.json4s | json4s-scalap_2.12 | 3.6.6 |
org.lz4 | lz4-java | 1.7.1 |
org.mariadb.JDBC | cliente mariadb-java | 2.1.2 |
org.objenesis | objênese | 2.5.1 |
org.postgresql | PostgreSQL | 42,14 |
org.roaringbitmap | Mapa de bits estrondoso | 0,7,45 |
org.roaringbitmap | calços | 0,7,45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.rEngine | Motor | 2.1.0 |
org.Scala-lang | Scala-compiler_2.12 | 2.12.10 |
org.Scala-lang | Scala-biblioteca.12 | 2.12.10 |
org.Scala-lang | Scala-reflect_2.12 | 2.12.10 |
org.Scala-lang.modules | Scala-collection-compat_2.12 | 2.1.1 |
org.Scala-lang.modules | Scala-parser-combinators_2.12 | 1.1.2 |
org.Scala-lang.modules | Scala-xml_2.12 | 1.2.0 |
org.Scala-sbt | interface de teste | 1,0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | breeze-macros_2.12 | 1,0 |
org.scalanlp | breeze_2.12 | 1,0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1,7.30 |
org.slf4j | jul-a-slf4j | 1,7.30 |
org.slf4j | slf4j-api | 1,7.30 |
org.slf4j | slf4j-log4j12 | 1,7.30 |
org.spark-project.spark | não utilizado | 1.0.0 |
org.springframework | núcleo de mola | 4.1.4. LANÇAMENTO |
org.springframework | teste de primavera | 4.1.4. LANÇAMENTO |
org.threeten | treze e mais | 1.5.0 |
org.tukaani | xz | 1.5 |
org.typelevel | álgebra_2.12 | 2,0,0-M2 |
org.typelevel | cats-kernel_2.12 | 2,0,0-M4 |
org.typelevel | maquinista_2.12 | 0.6.8 |
org.typelevel | macro-compat_2,12 | 1.1.1 |
org.typelevel | spire-macros_2.12 | 0,17.0-M1 |
org.typelevel | spire-platform_2.12 | 0,17.0-M1 |
org.typelevel | spire-util_2.12 | 0,17.0-M1 |
org.typelevel | spire_2.12 | 0,17.0-M1 |
org.xerial | sqlite-JDBC | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1,24 |
oro | oro | 2.0.8 |
pt.edu.icm | Matrizes JLarge | 1.5 |
software.Amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0,52 |