Databricks Runtime 4,0 (EoS)

nota

O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.

A Databricks lançou essa versão em março de 2018.

important

Esta versão foi descontinuada em 1º de novembro de 2018. Para obter mais informações sobre a política de descontinuidade e programação do Databricks Runtime, consulte Databricks support lifecycles.

As notas a seguir sobre a versão fornecem informações sobre o Databricks Runtime 4.0, desenvolvido pelo Apache Spark.

Mudanças e melhorias

A JSON fonte de dados agora tenta detectar automaticamente a codificação em vez de presumir que seja UTF-8. Nos casos em que a detecção automática falha, os usuários podem especificar a opção de conjunto de caracteres para impor uma determinada codificação. Consulte Detecção automática de conjuntos de caracteres.
A pontuação e a previsão usando o pipeline Spark MLlib na transmissão estruturada são totalmente suportadas.
O Databricks ML Model Export é totalmente compatível. Com esse recurso, o senhor pode treinar um modelo Spark MLlib no Databricks, exportá-lo com uma chamada de função e usar uma biblioteca Databricks no sistema de sua escolha para importar o modelo e pontuar novos dados.
Uma nova implementação do Spark fonte de dados oferece acesso escalonável de leitura/gravação ao Azure Synapse Analytics. Consulte Spark - Synapse analítica Connector.
O esquema da função from_json agora é sempre convertido em um esquema anulável. Em outras palavras, todos os campos, inclusive os aninhados, são anuláveis. Isso garante que os dados sejam compatíveis com o esquema, evitando a corrupção após a gravação dos dados em Parquet quando um campo estiver ausente nos dados e o esquema fornecido pelo usuário declarar o campo como não nulo.
Atualizou alguns instalados Python biblioteca:
- futuros: de 3.1.1 a 3.2.0
- Pandas: de 0.18.1 para 0.19.2
- pyarrow: de 0.4.1 a 0.8.0
- ferramentas de configuração: de 38.2.3 a 38.5.1
- tornado: 4.5.2 a 4.5.3
Atualizou várias instalações da R biblioteca. Consulte R biblioteca instalada.
Atualização do AWS Java SDK de 1.11.126 para 1.11.253.
Atualizou o driver JDBC do SQL Server de 6.1.0.jre8 para 6.2.2.jre8.
Atualizamos o driver JDBC do PostgreSQL de 9.4-1204-jdbc41 para 42.1.4.

Apache Spark

O Databricks Runtime 4.0 inclui o Apache Spark 2.3.0.

Core, PySpark e Spark SQL

Recurso principal

Vetorizado ORC Reader : [SPARK-16060]: Adiciona suporte para o novo leitor ORC que melhora substancialmente a varredura ORC Taxa de transferência por meio de vetorização (2-5x). Para ativar o leitor, os usuários podem definir spark.sql.orc.impl como native.
Spark história Server V2 : [SPARK-18085]: Um novo backend do spark história server (SHS) que oferece melhor escalabilidade para aplicativos de grande escala com um mecanismo de armazenamento de eventos mais eficiente.
fonte de dados API V2 : [SPARK-15689][SPARK-22386]: Um API experimental para conectar novas fontes de dados em Spark. O novo API tenta abordar várias limitações do V1 API e tem como objetivo facilitar o desenvolvimento de fontes de dados externas de alto desempenho, fáceis de manter e extensíveis. Essa API ainda está sendo ativamente desenvolvida, e mudanças significativas devem ser esperadas.
PySpark desempenho Aprimoramentos : [SPARK-22216][SPARK-21187]: Melhorias significativas no desempenho e na interoperabilidade do Python por meio da serialização rápida de dados e da execução vetorizada.

desempenho e estabilidade

[SPARK-21975]: Suporte a histograma no otimizador baseado em custos.
[SPARK-20331]: Melhor suporte para pushdown de predicado para poda de partição do Hive.
[SPARK-1912]: Suporte para codec de compressão padrão.
[SPARK-21113]: Suporte para transmissão de entrada com leitura antecipada para amortizar o custo de E/S do disco no leitor de derramamento.
[SPARK-22510][SPARK-22692][SPARK-21871]: Estabilizar ainda mais a estrutura codegen para evitar atingir o limite de bytecode JVM de 64 KB no método Java e o limite do pool de constantes do compilador Java.
[SPARK-23207]: Corrigido um bug de longa data no Spark em que shuffle+repartition consecutivos em um DataFrame poderiam levar a respostas incorretas em certos casos cirúrgicos.
[SPARK-22062] [SPARK-17788][SPARK-21907]: Corrija váriascausas de OOMs.
[SPARK-22489][SPARK-22916][SPARK-22895][SPARK-20758][SPARK-22266][SPARK-19122][SPARK-22662][SPARK-21652]:Melhorias no otimizador e planejador baseados em regras.

Outras mudanças notáveis

[SPARK-20236]: Suporta a semântica de substituição de partições dinâmicas no estilo Hive.
[SPARK-4131]: Suporte INSERT OVERWRITE DIRECTORY para gravar dados diretamente no sistema de arquivos a partir de uma consulta.
[SPARK-19285][SPARK-22945][SPARK-21499][SPARK-20586][SPARK-20416][SPARK-20668]: Aprimoramentos de UDF.
[SPARK-20463][SPARK-19951][SPARK-22934][SPARK-21055][SPARK-17729][SPARK-20962][SPARK-20963][SPARK-20841][SPARK-17642][SPARK-22475][SPARK-22934]: Melhoria da compatibilidade com ANSI SQL compliance e Hive.
[SPARK-20746]: Funções SQL integradas mais abrangentes.
[SPARK-21485]: Spark SQL geração de documentação para funções integradas.
[SPARK-19810]: Remover o suporte para Scala 2.10.
[SPARK-22324]: Atualize Arrow para 0.8.0 e Netty para 4.1.17.

transmissão estruturada

Processamento contínuo

Um novo mecanismo de execução que pode executar consultas de transmissão com latência de ponta a ponta inferior a milissegundos, alterando apenas uma única linha de código do usuário. Para saber mais, consulte o guia de programação.

transmissão-transmissão join

Capacidade de join duas transmissões de dados, armazenando linhas em buffer até que as tuplas correspondentes cheguem na outra transmissão. Os predicados podem ser usados em colunas de tempo de evento para limitar a quantidade de estado que precisa ser retida.

transmissão API V2

Um site experimental API para conectar novas fontes e sumidouros que funciona para lotes, micro-lotes e execução contínua. Essa API ainda está sendo ativamente desenvolvida, e mudanças significativas devem ser esperadas.

MLlib

Destaques

ML A previsão agora funciona com transmissão estruturada, usando o site atualizado APIs. Os detalhes seguem.

APIs novas e aprimoradas

[SPARK-21866]: suporte integrado para leitura de imagens em um site DataFrame (Scala/Java/Python).
[SPARK-19634]: Funções DataFrame para estatísticas descritivas resumidas sobre colunas de vetores (Scala/Java).
[SPARK-14516]: ClusteringEvaluator para ajustar os algoritmos clustering, suportando as métricas Cosine silhouette e squared Euclidean silhouette (Scala/Java/Python).
[SPARK-3181]: Regressão linear robusta com perda de Huber (Scala/Java/Python).
[SPARK-13969]: FeatureHasher transformer (Scala/Java/Python).
Suporte a várias colunas para diversos transformadores de recurso:
- [SPARK-13030]: OneHotEncoderEstimator (Scala/Java/Python)
- [SPARK-22397]: QuantileDiscretizer (Scala/Java)
- [SPARK-20542]: Bucketizer (Scala/Java/Python)
[SPARK-21633] e SPARK-21542]: Suporte aprimorado para componentes de pipeline personalizados em Python.

Novo recurso

[SPARK-21087]: CrossValidator e TrainValidationSplit podem coletar todos os modelos durante o ajuste (Scala/Java). Isso permite que você inspecione ou salve todos os modelos instalados.
[SPARK-19357]: Os meta-algoritmos CrossValidator, TrainValidationSplit,OneVsRest suportam um parâmetro de paralelismo para o ajuste de vários submodelos em paralelo Spark Job.
[SPARK-17139]: Resumo do modelo para regressão logística multinomial (Scala/Java/Python)
[SPARK-18710]: Adicione offset no GLM.
[SPARK-20199]: Adicionado o parâmetro featureSubsetStrategy a GBTClassifier e GBTRegressor. O uso desse recurso para subamostragem pode melhorar significativamente a velocidade de treinamento; essa opção tem sido um ponto forte do key do xgboost.

Outras mudanças notáveis

[SPARK-22156]: Foi corrigida a escala da taxa de aprendizado Word2Vec com num iterações. A nova taxa de aprendizado é definida para corresponder ao código original Word2Vec C e deve proporcionar melhores resultados de treinamento.
[SPARK-22289]: Adicionar suporte a JSON para parâmetros de matriz (Isso corrigiu um bug para persistência de ML com LogisticRegressionModel ao usar limites em coeficientes).
[SPARK-22700]: Bucketizer.transform descarta incorretamente a linha contendo NaN. Quando o parâmetro handleInvalid era definido como “ignorar”, Bucketizer eliminava uma linha com um valor válido na coluna de entrada se outra coluna (irrelevante) tivesse um valor NaN.
[SPARK-22446]: O otimizador Catalyst às vezes fazia com que StringIndexerModel lançasse uma exceção incorreta do tipo "Unseen rótulo" quando handleInvalid era definido como "error". Isso poderia acontecer com os dados filtrados, devido ao predicado push-down, causando erros mesmo depois que as linhas inválidas já tivessem sido filtradas da entrada dataset.
[SPARK-21681]: Corrigido um bug de caso extremo na regressão logística multinomial que resultava em coeficientes incorretos quando algum recurso tinha variância zero.
Principais otimizações:
- [SPARK-22707]: Consumo de memória reduzido para CrossValidator.
- [SPARK-22949]: Consumo de memória reduzido para TrainValidationSplit.
- [SPARK-21690]: Imputer deve treinar usando uma única passagem sobre os dados.
- [SPARK-14371]: OnlineLDAOptimizer evita a coleta de estatísticas para o motorista para cada mini-lote.

SparkR

O foco principal do SparkR na versão 2.3.0 foi melhorar a estabilidade das UDFs e adicionar vários novos wrappers do SparkR em torno das APIs existentes:

Recurso principal

Melhoria da paridade de funções entre SQL e R
[SPARK-22933]: transmissão estructurada APIs para withWatermark, trigger, partitionBy e transmissão-transmissão join.
[SPARK-21266]: SparkR UDF com suporte a esquema formatado em DDL.
[SPARK-20726][SPARK-22924][SPARK-22843]: Vários novos Wrappers de API de Dataframe.
[SPARK-15767][SPARK-21622][SPARK-20917][SPARK-20307][SPARK-20906]: Vários novos Wrappers da API SparkML.

GraphX

Otimizações

[SPARK-5484]: Pregel agora verifica periodicamente pontos de verificação para evitar StackOverflowErrors.
[SPARK-21491]: Pequena melhoria de desempenho em vários lugares.

Depreciações

Python

[SPARK-23122]: Preterir register* para UDFs em SQLContext e Catalog no PySpark

MLlib

[SPARK-13030]: OneHotEncoder foi descontinuado e será removido na versão 3.0. Ele foi substituído pelo novo OneHotEncoderEstimator. OneHotEncoderEstimator será renomeado para OneHotEncoder na versão 3.0 (mas OneHotEncoderEstimator será mantido como um alias).

Mudanças de comportamento

Spark SQL

[SPARK-22036]: Em default, as operações aritméticas entre decimais retornam um valor arredondado se uma representação exata não for possível (em vez de retornar NULL nas versões anteriores)
[SPARK-22937]: Quando todas as entradas são binárias, o SQL elt() retorna uma saída como binária. Caso contrário, ele retorna como uma cadeia de caracteres. Nas versões anteriores, ele sempre retornava como uma cadeia de caracteres, independentemente dos tipos de entrada.
[SPARK-22895]: Os predicados determinísticos do join/Filter que estão após os primeiros predicados não determinísticos também são empurrados para baixo/através dos operadores filhos, se possível. Nas versões anteriores, esses filtros não eram elegíveis para redução de predicados.
[SPARK-22771]: Quando todas as entradas são binárias, functions.concat() retorna uma saída como binária. Caso contrário, ele retorna como uma cadeia de caracteres. Nas versões anteriores, ele sempre retornava como uma cadeia de caracteres, independentemente dos tipos de entrada.
[SPARK-22489]: Quando um dos join lados é transmissível, preferimos transmitir a tabela que está explicitamente especificada em uma dica de transmissão.
[SPARK-22165]: A inferência da coluna de partição encontrou anteriormente um tipo comum incorreto para diferentes tipos inferidos. Por exemplo, anteriormente, terminava com o tipo double como o tipo comum para o tipo double e o tipo date. Agora, ele encontra o tipo comum correto para esses conflitos. Para obter detalhes, consulte o guia de migração.
[SPARK-22100]: A função percentile_approx aceitava anteriormente a entrada do tipo numeric e produzia resultados do tipo double. Agora ele suporta os tipos date, timestamp e numeric como tipos de entrada. O tipo de resultado também é alterado para ser igual ao tipo de entrada, o que é mais razoável para percentis.
[SPARK-21610]: As consultas dos arquivos brutos JSON/CSV não são permitidas quando as colunas referenciadas incluem apenas a coluna interna de registro corrompido (denominada _corrupt_record por default). Em vez disso, você pode armazenar em cache ou salvar os resultados analisados e enviar a mesma consulta.
[SPARK-23421]: Desde Spark 2.2.1 e 2.3.0, o esquema é sempre inferido em tempo de execução quando as tabelas de fonte de dados têm as colunas que existem tanto no esquema de partição quanto no esquema de dados. O esquema inferido não tem as colunas particionadas. Ao ler a tabela, o site Spark respeita os valores de partição dessas colunas sobrepostas em vez dos valores armazenados nos arquivos de fonte de dados. Em 2.2.0 e 2.1.x release, o esquema inferido é particionado, mas os dados da tabela são invisíveis para os usuários (ou seja, o conjunto de resultados está vazio).

PySpark

[SPARK-19732]: na.fill() ou fillna também aceita booleano e substitui nulos por booleanos. Nas versões anteriores do Spark, o PySpark simplesmente o ignora e retorna o conjunto de dados original/DataFrame.
[SPARK-22395]: Pandas 0.19.2 ou superior é necessário para usar as funcionalidades relacionadas a Pandas, como toPandas, createDataFrame de Pandas DataFrame, etc.
[SPARK-22395]: O comportamento dos valores de registro de data e hora para as funcionalidades relacionadas a Pandas foi alterado para respeitar o fuso horário da sessão, que é ignorado nas versões anteriores.
[SPARK-23328]: df.replace não permite omitir value quando to_replace não é um dicionário. Anteriormente, value poderia ser omitido nos outros casos e ter None em default, o que é contraintuitivo e propenso a erros.

MLlib

Alterações significativas na API : A hierarquia de classes e características para resumos de modelos de regressão logística foi alterada para ser mais limpa e acomodar melhor a adição do resumo de várias classes. Essa é uma alteração importante no código do usuário que converte LogisticRegressionTrainingSummary em BinaryLogisticRegressionTrainingSummary. Em vez disso, os usuários devem usar o método model.binarySummary. Consulte [SPARK-17139]: para obter mais detalhes (observe que essa é uma API @Experimental ). Isso não afeta o método de resumo do Python, que ainda funcionará corretamente para casos multinomiais e binários.
[SPARK-21806]: BinaryClassificationMetrics.pr(): o primeiro ponto (0,0, 1,0) é enganoso e foi substituído por (0,0, p) em que a precisão p corresponde ao ponto de recuperação mais baixo.
[SPARK-16957]: As árvores de decisão agora usam pontos médios ponderados ao escolher valores divididos. Isso pode alterar os resultados do treinamento do modelo.
[SPARK-14657]: o site RFormula sem interceptação agora exibe a categoria de referência ao codificar termos de cadeias de caracteres, para corresponder ao comportamento nativo do R. Isso pode alterar os resultados do treinamento do modelo.
[SPARK-21027]: O paralelismo default usado em OneVsRest agora é definido como 1 (ou seja, o serial). Na versão 2.2 e anteriores, o nível de paralelismo foi definido como o tamanho do threadpool default em Scala. Isso pode alterar o desempenho.
[SPARK-21523]: Atualizou o Breeze para 0.13.2. Isso incluiu uma importante correção de bug na forte busca na linha Wolfe por L-BFGS.
[SPARK-15526]: A dependência JPMML agora está sombreada.
Consulte também a seção “Correções de bugs” para ver as mudanças de comportamento resultantes da correção de bugs.

Problemas conhecidos

[SPARK-23523][SQL]: Resultado incorreto causado pela regra OptimizeMetadataOnlyQuery.
[SPARK-23406]: Bugs na transmissão-transmissão self-join.

Atualizações de manutenção

Consulte Atualizações de manutenção do Databricks Runtime 4.0.

Ambiente do sistema

Sistema operacional : Ubuntu 16.04.4 LTS
Java : 1.8.0_151
Scala : 2.11.8
Python : 2.7.12 (ou 3.5.2 se estiver usando Python 3)
R : R versão 3.4.3 (2017-11-30)
Agrupamento de GPUs : As seguintes bibliotecas de GPU NVIDIA estão instaladas:
- Motorista Tesla 375.66
- CUDA 8.0
- CUDNN 6.0

Instalado Python biblioteca

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
ansi2.html	1.1.1	argparse	1.2.1	backports-abc	0.5
Boto	2,42,0	boto3	1.4.1	botocore	1,4,70
cervejaria 2 ml	1.4.1	certifi	2016,2,28	caffi	1.7.0
chardet	2.3.0	colorama	0.3.7	configobj	5.0.6
criptografia	1.5	ciclador	0.10.0	Cython	0,24,1
decorador	4.0.10	docutils	0,14	enum34	1.1.6
arquivo et-xml	1.0.1	freetype-py	1.0.2	funçõs	1.0.2
fusepy	2.0.4	futuros	3.2.0	ggplot	0.6.8
html5lib	0,999	Índia	2.1	endereço IP	1.0.16
ipython	2.2.0	ipython-genutils	0.1.0	jdcal	1.2
Jinja 2	2.8	jmespath	0.9.0	llvmlite	0,13,0
lxml	3.6.4	MarkupSafe	0,23	Matplotlib	1.5.3
mold3	0,2	msgpack-Python	0.4.7	cliente ndg-https	0.3.3
numba	0,28,1	entorpecido	1.11.1	openpyxl	2.3.2
Pandas	0.19.2	pathlib2	2.1.0	bode expiatório	0.4.1
esperar	4.0.1	picles	0.7.4	Travesseiro	3.3.1
pip	9.0.1	dobra	3.9	kit de ferramentas de aviso	1.0.7
psycopg2	2.6.2	processo pty	0.5.1	py4j	0.10.3
flecha	0,8.0	pyasn1	0.1.9	pycparser	2,14
Pigmentos	2.1.3	Objeto PYG	3.20.0	PyOpenSSL	16,0.0
análise de pipa	2.2.0	espião	0,0,18	Python	2.7.12
Python-dateutil	2.5.3	Python-geohash	0,8.5	pytz	2016,6,1
pedidos	2.11.1	transferência s3	0.1.9	scikit-learn	0,18.1
pegajoso	0,18.1	esfregar	0,32	marítimo	0.7.1
ferramentas de configuração	38.5.1	simplejson	3.8.2	simples3	1,0
despacho único	3.4.0.3	seis	1.10.0	modelos de estatísticas	0.6.1
tornado	4.5.3	almôndegas	4.3.0	urllib3	1.19.1
ambiente virtual	15.0.1	largura do wc	0.1.7	Python wheel	0,30,0
wsgiref	0.1.2

Instalou a R biblioteca

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
abandam	1,4-5	afirme que	0.2.0	portas traseiras	1.1.1
base	3.4.3	POR	1,65,0-1	fichário	0,1
bindrcpp	0,2	pouco	1,1-12	bit64	0,9-7
bitops	1,0-6	bolha	1.1.0	inicialização	1,3-20
fermentar	1,0-6	vassoura	0.4.3	carro	2,1-6
cursor	6,0-77	crono	2,3-51	Aula	7,3-14
Cluster	2.0.6	ferramentas de código	0,2-15	espaço de cores	1,3-2
marca comum	1.4	compilador	3.4.3	giz de cera	1.3.4
cacho	3,0	CVST	0,2-1	data.tabela	1.10.4-3
conjunto de dados	3.4.3	DBI	0,7	dalpha	1.3.1
DeOptimr	1,0-8	desc	1.1.1	ferramentas de desenvolvimento	1,13.4
dicromato	2,0-0	digerir	0.6.12	Vermelho escuro	0.1.0
Dom C	1.3.4	dplyr	0.7.4	DRR	0.0.2
para cada um	1.4.3	estrangeira	0,8-69	gbm	2.1.3
ggplot2	2.2.1	git2r	0.19.0	glmnet	2,0-13
cola	1.2.0	goleiro	0.1.2	gráficos	3.4.3
Dispositivos GR	3.4.3	grade	3.4.3	gsubfn	0,6-6
mesa	0.2.0	h2o	3.16.0.1	httr	1.3.1
escritor	1.3.2	HWriter Plus	1,0-3	ipred	0,9-6
iteradores	1,0.8	jsonlite	1.5	kernlab	0,9-25
Kern Smooth	2,23-15	rótulo	0,3	treliça	0,20-35
lava	1.5.1	preguiçoso	0.2.1	mais pequeno	0.3.2
lme4	1,1-14	lubrificar	1.7.1	magritter	1.5
mapproj	1,2-5	mapeia	3.2.0	MASSA	7,3-48
Matriz	1,2-11	Modelos matriciais	0,4-1	memoise	1.1.0
métodos	3.4.3	mgcv	1,8-23	mímica	0.5
mina	1.2.4	norma	1,5-5	Métricas do modelo	1.1.0
munsell	0.4.3	norma mvt	1,0-6	nome	3,1-131
nloptr	1.0.4	net	7,3-12	Número Deriv	2016,8-1
openssl	0,9.9	paralelo	3.4.3	teste pbkr	0,4-7
pkgconfig	2.0.1	Gatinho PKG	0.1.4	plogr	0,1-1
plyr	1.8.4	elogio	1.0.0	ProC	1.10.0
prodlim	1.6.1	proto	1.0.0	psicótico	1.7.8
ronronar	0.2.4	quantreg	5,34	R. métodos S3	1.7.1
R.oo	1,21,0	R. utils	2.6.0	R6	2.2.2
Floresta aleatória	4,6-12	Cervejaria RColor	1,1-2	Rcpp	0.12,14
RCP Pegen	0.3.3.3.1	RCPP Roll	0.2.2	Curl	1,95-4,8
receitas	0.1.1	remodelar 2	1.4.2	rlang	0.1.4
base robusta	0,92-8	RODBC	1,3-15	roxigênio2	6.0.1
rpartem	4,1-12	rprojroot	1.2	Reservar	1,7-3
RSQLite	2,0	API do estúdio	0,7	escala	0.5.0
sfsmisc	1,1-1	espião	1,2-5	SparkR	2.3.0
SPARSEM	1,77	espacial	7,3-11	splines	3.4.3
sqldf	0,4-11	statmod	1,4,30	estatísticas	3.4.3
estatísticas4	3.4.3	stringi	1.1.6	longarina	1.2.0
sobrevivência	2,41-3	tcltk	3.4.3	Demonstrações de ensino	2,10
teste isso	1.0.2	petiscar	1.3.4	arrumado	0.7.2
seleção arrumada	0.2.3	Hora/Data	3042,101	Ferramentas	3.4.3
utilidades	3.4.3	Viridis Lite	0.2.0	bigode	0,3-2
murchar	2.1.0	xml2	1.1.1

Instalei Java e Scala biblioteca (versão de clusteringScala 2.11)

ID do grupo	ID do artefato	Versão
chifre	chifre	2.7.7
com.amazonaws	Amazon-kinesis-client	1.7.3
com.amazonaws	aws-java-sdk-autoscale	1,11,253
com.amazonaws	formação de nuvem aws-java-sdk	1,11,253
com.amazonaws	aws-java-sdk-cloudfront	1,11,253
com.amazonaws	aws-java-sdk-cloudhsm	1,11,253
com.amazonaws	aws-java-sdk-cloudsearch	1,11,253
com.amazonaws	aws-java-sdk-cloudtrail	1,11,253
com.amazonaws	aws-java-sdk-cloudwatch	1,11,253
com.amazonaws	métricas aws-java-sdk-cloudwatch	1,11,253
com.amazonaws	aws-java-sdk-codedeploy	1,11,253
com.amazonaws	identidade cognitiva aws-java-sdk	1,11,253
com.amazonaws	aws-java-sdk-cognitosync	1,11,253
com.amazonaws	aws-java-sdk-config	1,11,253
com.amazonaws	aws-java-sdk-core	1,11,253
com.amazonaws	pipeline de dados aws-java-sdk	1,11,253
com.amazonaws	aws-java-sdk-conexão direta	1,11,253
com.amazonaws	diretório aws-java-sdk	1,11,253
com.amazonaws	aws-java-sdk-dynamodb	1,11,253
com.amazonaws	aws-java-sdk-ec2	1,11,253
com.amazonaws	aws-java-sdk-ecs	1,11,253
com.amazonaws	aws-java-sdk-efs	1,11,253
com.amazonaws	aws-java-sdk-elasticache	1,11,253
com.amazonaws	aws-java-sdk-elasticbeanstalk	1,11,253
com.amazonaws	balanceamento de carga elástico aws-java-sdk	1,11,253
com.amazonaws	transcodificador elástico aws-java-sdk-	1,11,253
com.amazonaws	aws-java-sdk-emr	1,11,253
com.amazonaws	aws-java-sdk-glacier	1,11,253
com.amazonaws	aws-java-sdk-iam	1,11,253
com.amazonaws	aws-java-sdk-importação/exportação	1,11,253
com.amazonaws	aws-java-sdk-kinesis	1,11,253
com.amazonaws	aws-java-sdk-kms	1,11,253
com.amazonaws	aws-java-sdk-lambda	1,11,253
com.amazonaws	aws-java-sdk-logs	1,11,253
com.amazonaws	aws-java-sdk - aprendizado de máquina	1,11,253
com.amazonaws	aws-java-sdk-opsworks	1,11,253
com.amazonaws	aws-java-sdk-rds	1,11,253
com.amazonaws	aws-java-sdk-redshift	1,11,253
com.amazonaws	aws-java-sdk-route53	1,11,253
com.amazonaws	aws-java-sdk-s3	1,11,253
com.amazonaws	aws-java-sdk-ses	1,11,253
com.amazonaws	aws-java-sdk-simpledb	1,11,253
com.amazonaws	aws-java-sdk - fluxo de trabalho simples	1,11,253
com.amazonaws	aws-java-sdk-sns	1,11,253
com.amazonaws	aws-java-sdk-sqs	1,11,253
com.amazonaws	aws-java-sdk-ssm	1,11,253
com.amazonaws	gateway de armazenamento aws-java-sdk	1,11,253
com.amazonaws	aws-java-sdk-sts	1,11,253
com.amazonaws	suporte aws-java-sdk	1,11,253
com.amazonaws	aws-java-sdk-swf-biblioteca	1.11.22
com.amazonaws	aws-java-sdk-workspace	1,11,253
com.amazonaws	jmespath-java	1,11,253
com.carrotsearch	hppc	0.7.2
com.chuusai	sem forma_2.11	2.3.2
com.clearspring.analítica	transmissão	2.7.0
com.databricks	Reservar	1,8-3
com.databricks	dbml-local_2.11	0.3.0-db1-spark2.3
com.databricks	testes dbml-local_2.11	0.3.0-db1-spark2.3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	plugin_2.11	0,4.15-9
com.databricks.scalapb	scalapb-runtime_2.11	0,4.15-9
com.esotérico software	crio-sombreado	3.0.3
com.esotérico software	minlog	1.3.0
com.fasterxml	colega de classe	1.0.0
com.fasterxml.jackson.core	jackson-anotação	2.6.7
com.fasterxml.jackson.core	jackson-core	2.6.7
com.fasterxml.jackson.core	vinculação de dados jackson	2.6.7.1
formato de dados com.fasterxml.jackson.	formato de dados jackson-cbor	2.6.7
com.fasterxml.jackson.tipo de dados	jackson-datatype-joda	2.6.7
com.fasterxml.jackson.module	parâmetro do módulo jackson	2.6.7
com.fasterxml.jackson.module	jackson-module-Scala.11	2.6.7.1
com.github.fommil	descarregador	1.1
com.github.fommil.netlib	abdômen	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-nativos	1.1
com.github.fommil.netlib	sistema_nativo-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.luben	zstd-jni	1,3.2-2
com.github.rwl	jtransforma	2.4.0
com.google.code.findbugs	jsr305	2.0.1
com.google.code.gson	gson	2.2.4
com.google.goiaba	goiaba	15,0
com.google.protobuf	protobuf-java	2.6.1
com.googlecode.javaewah	Java Ewah	0.3.2
banco de dados com.h2	h2	1,3,174
com.jamesmurty.utils	construtor java-xml	1.1
com.jcraft	jsch	0,1,50
com.jolbox	bonecp	VERSÃO 0.8.0.
com.mchange	cp30	0.9.5.1
com.mchange	mchange-commons-java	0.2.10
com.microsoft.azure	azure-data lake-store-sdk	2.0.11
com.microsoft.sqlserver	mssql-JDBC	6.2.2. jre8
comendo	comprimir-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.thoughtworks.paranamer	paranâmero	2.8
com.trueaccord.lenses	lentes_2.11	0,3
com.Twitter	chill-java	0,8.4
com.Twitter	chill_2.11	0,8.4
com.Twitter	pacote parquet-hadoop	1.6.0
com.Twitter	util-app_2.11	6,23,0
com.Twitter	util-core_2.11	6,23,0
com.Twitter	util-jvm_2.11	6,23,0
com.typesafe	configuração	1.2.1
com.typesafe.Scala-logging	Scala-logging-api_2.11	2.1.2
com.typesafe.Scala-logging	Scala-logging-slf4j_2.11	2.1.2
com.univocidade	analisadores de univocidade	2.5.9
com.vlkan	tampões planos	1,2,0-3f79e055
com.zaxxer	HikaricP	2.4.1
folhas de feijão comum	folhas de feijão comum	1.7.0
folhas de feijão comum	commons-beanutils-core	1.8.0
comum-CLI	comum-CLI	1.2
codec comum	codec comum	1,10
coleções comuns	coleções comuns	3.2.2
configuração comum	configuração comum	1,6
commons-dbcp	commons-dbcp	1.4
digestor comum	digestor comum	1,8
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2,4
linguagem comum	linguagem comum	2.6
registro de bens comuns	registro de bens comuns	1.1.3
commons-net	commons-net	2.2
comum-pool	comum-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.7
io. airlift	compressor de ar	0,8
io.dropwizard.métricas	núcleo de métricas	3.1.5
io.dropwizard.métricas	métricas-ganglia	3.1.5
io.dropwizard.métricas	métricas-grafite	3.1.5
io.dropwizard.métricas	métricas-healthchecks	3.1.5
io.dropwizard.métricas	métricas-jetty9	3.1.5
io.dropwizard.métricas	métricas-JSON	3.1.5
io.dropwizard.métricas	métricas-JVM	3.1.5
io.dropwizard.métricas	métricas-log4j	3.1.5
io.dropwizard.métricas	métricas-servlets	3.1.5
io.netty	urtiga	3.9.9. Final
io.netty	tudo	4.1.17.Final
io. prometheus	cliente simples	0,0,16
io. prometheus	simpleclient_common	0,0,16
io. prometheus	simpleclient_dropwizard	0,0,16
io. prometheus	client_servlet simples	0,0,16
io.prometheus.jmx	coletor	0,7
javax.ativação	ativação	1.1.1
javax.anotação	javax.anotação-api	1.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.validação	API de validação	1.1.0. Final
javax.ws.rs	javax.ws.rs-api	2.0.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.transmissão	stax-api	1,0-2
javolução	javolução	5.5.1
junte-se	junte-se	2,11
hora do dia	hora do dia	2.9.3
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.hydromatic	propriedades de base própria	1.1.5
net.ihard	base64	2.3.8
net.java.dev.jets3t	jets3t	0.9.4
net.razorvine	pirolita	4,13
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	supercsv	2.2.0
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt	no CRPC	1.0.7
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.4
org.antlr	antlr4-runtime	4.7
org.antlr	modelo de string	3.2.1
org.apache.ant	formiga	1.9.2
org.apache.ant	formiga	1.9.2
org.apache.ant	lançador de formigas	1.9.2
org.apache.arrow	formato de seta	0,8.0
org.apache.arrow	memória de seta	0,8.0
org.apache.arrow	vetor de seta	0,8.0
org.apache.avro	AVRO	1.7.7
org.apache.avro	avro-ipc	1.7.7
org.apache.avro	testes avro-iPC	1.7.7
org.apache.avro	avro-mapred-hadoop2	1.7.7
org.apache.calcite	calcita-avática	1.2.0 - incubação
org.apache.calcite	núcleo de calcita	1.2.0 - incubação
org.apache.calcite	calcita-linq4j	1.2.0 - incubação
org.apache.commons	compressa comum	1.4.1
org.apache.commons	criptomoeda comum	1.0.0
org.apache.commons	commons-lang3	3,5
org.apache.commons	commons-math3	3.4.1
org.apache.curator	curador-cliente	2.7.1
org.apache.curator	estrutura de curador	2.7.1
org.apache.curator	receitas de curadores	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1,0,0-M20
org.apache.directory.api	utilitário de API	1,0,0-M20
org.apache.directory.server	apacheds-i18n	2,0,0-M15
org.apache.directory.server	codec apacheds-kerberos	2,0,0-M15
org.apache.hadoop	hadoop-anotação	2.7.3
org.apache.hadoop	autenticação hadoop	2.7.3
org.apache.hadoop	cliente hadoop	2.7.3
org.apache.hadoop	hadoop-comum	2.7.3
org.apache.hadoop	hadoop-HDFS	2.7.3
org.apache.hadoop	aplicativo cliente hadoop mapreduce	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.3
org.apache.hadoop	núcleo do cliente hadoop-mapreduce	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.3
org.apache.hadoop	API hadoop yarn	2.7.3
org.apache.hadoop	cliente hadoop-yarn	2.7.3
org.apache.hadoop	hadoop-yarn-common	2.7.3
org.apache.hadoop	servidor hadoop-yarn-comum	2.7.3
org.apache.htrace	htrace-core	3.1.0 - incubação
org.apache.httpcomponents	cliente http	4.5.4
org.apache.httpcomponents	httpcore	4.4.8
org.apache.ivy	hera	2.4.0
org.apache.orc	orc-core-no-hive	1.4.1
org.apache.orc	orc-mapreduce-nohive	1.4.1
org.apache.parquet	coluna de parquete	1.8.2 - blocos de dados 1
org.apache.parquet	parquete comum	1.8.2 - blocos de dados 1
org.apache.parquet	codificação de parquet	1.8.2 - blocos de dados 1
org.apache.parquet	formato de parquet	2.3.1
org.apache.parquet	parquet-hadoop	1.8.2 - blocos de dados 1
org.apache.parquet	parquet-jackson	1.8.2 - blocos de dados 1
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.9.3
org.apache.xbean	xbean-asm5-shaded	4.4
org.apache.zookeeper	tratador	3.4.6
org.bouncycastle	bcprov-jdk15on	1,58
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxers	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	compilador common	3.0.8
org.codehaus.janino	janino	3.0.8
org.datanucleus	núcleo de dados-api-jdo	3.2.6
org.datanucleus	núcleo de dados	3.2.10
org.datanucleus	núcleo de dados-rdbms	3.2.9
org.Eclipse.jetty	jetty-client	9.3.20.v 20170531
org.Eclipse.jetty	continuação do cais	9.3.20.v 20170531
org.Eclipse.jetty	jetty-http	9.3.20.v 20170531
org.Eclipse.jetty	jetty-io	9.3.20.v 20170531
org.Eclipse.jetty	jetty-jndi	9.3.20.v 20170531
org.Eclipse.jetty	jetty-plus	9.3.20.v 20170531
org.Eclipse.jetty	jetty-proxy	9.3.20.v 20170531
org.Eclipse.jetty	segurança do cais	9.3.20.v 20170531
org.Eclipse.jetty	servidor jetty-server	9.3.20.v 20170531
org.Eclipse.jetty	jutty-servlet	9.3.20.v 20170531
org.Eclipse.jetty	píer de servlets	9.3.20.v 20170531
org.Eclipse.jetty	jetty-util	9.3.20.v 20170531
org.Eclipse.jetty	aplicativo web jetty-	9.3.20.v 20170531
org.Eclipse.jetty	jetty-xml	9.3.20.v 20170531
org.fusesource.leveldbjni	leveldbjni-tudo	1,8
org.glassfish.hk2	API hk2	2.4.0-b34
org.glassfish.hk2	localizador hk2	2.4.0-b34
org.glassfish.hk2	hk2-utils	2.4.0-b34
org.glassfish.hk2	osgi-recurso-locator	1.0.1
org.glassfish.hk2.external	aopalliance - reembalado	2.4.0-b34
org.glassfish.hk2.external	javax.inject	2.4.0-b34
org.glassfish.jersey.bundles.reembalado	jersey-goiaba	2.22.2
org.glassfish.jersey.containers	servlet de contêiner de camisa	2.22.2
org.glassfish.jersey.containers	jersey-container-servlet-core	2.22.2
org.glassfish.jersey.core	cliente de camisa	2.22.2
org.glassfish.jersey.core	camiseta comum	2.22.2
org.glassfish.jersey.core	servidor de camisa	2.22.2
org.glassfish.jersey.media	jersey-media-jaxb	2.22.2
org.hibernate	validador de hibernação	5.1.1. Final
org.iq80.snappy	atrevida	0,2
org.javassist	javassist	3.18.1-GA
org.jboss.logging	registro de jboss-logging	3.1.3. GA
org.jdbi	jdbi	2.63,1
org.joda	conversor de joda	1.7
org.jodd	núcleo nodular	3.5.2
org.json4s	json4s-ast_2.11	3.2.11
org.json4s	json4s-core_2.11	3.2.11
org.json4s	json4s-jackson_2.11	3.2.11
org.lz4	lz4-java	1.4.0
org.mariadb.JDBC	cliente mariadb-java	2.1.2
org.mockito	mockito-all	1.9.5
org.objenesis	objênese	2.1
org.postgresql	PostgreSQL	42,14
org.roaringbitmap	Mapa de bits estrondoso	0.5.11
org.rocksdb	rocksdbjni	5.2.1
org.rosuda.rEngine	Motor	2.1.0
org.Scala-lang	Scala-compiler_2.11	2.11.8
org.Scala-lang	Scala-biblioteca.11	2.11.8
org.Scala-lang	Scala-reflect_2.11	2.11.8
org.Scala-lang	scalap_2.11	2.11.8
org.Scala-lang.modules	Scala-parser-combinators_2.11	1.0.2
org.Scala-lang.modules	Scala-xml_2.11	1.0.5
org.Scala-sbt	interface de teste	1,0
org.scalacheck	scalacheck_2.11	1,12.5
org.scalanlp	breeze-macros_2.11	0,13.2
org.scalanlp	breeze_2.11	0,13.2
org.scalatest	scalatest_2.11	2.2.6
org.slf4j	jcl-over-slf4j	1.7.16
org.slf4j	jul-a-slf4j	1.7.16
org.slf4j	slf4j-api	1.7.16
org.slf4j	slf4j-log4j12	1.7.16
org.spark-project.hive	hive-beeline	1.2.1. spark2
org.spark-project.hive	colmeia-CLI	1.2.1. spark2
org.spark-project.hive	hive-exec	1.2.1. spark2
org.spark-project.hive	hive-JDBC	1.2.1. spark2
org.spark-project.hive	Hive metastore	1.2.1. spark2
org.spark-project.spark	não utilizado	1.0.0
org.spire-math	spire-macros_2.11	0,13,0
org.spire-math	spire_2.11	0,13,0
org.springframework	núcleo de mola	4.1.4. LANÇAMENTO
org.springframework	teste de primavera	4.1.4. LANÇAMENTO
org.tukaani	xz	1,0
org.typelevel	maquinista_2.11	0.6.1
org.typelevel	macro-compat_2.11	1.1.1
org.xerial	sqlite-JDBC	3.8.11.2
org.xerial.snappy	snappy-java	1.1.2.6
org.yaml	snakeyaml	1,16
oro	oro	2.0.8
software.Amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0,52

Mudanças e melhorias​

Apache Spark​

Core, PySpark e Spark SQL​

transmissão estruturada​

MLlib​

SparkR​

GraphX​

Depreciações​

Mudanças de comportamento​

Problemas conhecidos​

Atualizações de manutenção​

Ambiente do sistema​

Instalado Python biblioteca​

Instalou a R biblioteca​

Instalei Java e Scala biblioteca (versão de clusteringScala 2.11)​