Databricks Runtime 5,4 para (EoS) ML

nota

O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.

A Databricks lançou esta versão em junho de 2019.

O Databricks Runtime 5.4 for Machine Learning oferece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 5.4 (EoS). Databricks Runtime ML Contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras, e XGBoost. Ele também oferece suporte ao treinamento de aprendizagem profunda distribuída usando o Horovod.

Para obter mais informações, incluindo instruções para criar um cluster Databricks Runtime ML , consulte AI e aprendizado de máquina em Databricks.

Novo recurso

O Databricks Runtime 5.4 ML foi desenvolvido com base no Databricks Runtime 5.4. Para obter informações sobre as novidades do Databricks Runtime 5.4, consulte as notas sobre a versão Databricks Runtime 5.4 (EoS).

Além das atualizações da biblioteca, o site Databricks Runtime 5.4 ML apresenta o seguinte novo recurso:

Distribuído Hyperopt + automatizado MLflow acompanhamento

Databricks Runtime 5.4 ML apresenta uma nova implementação do Hyperopt powered by Apache Spark para escalonar e simplificar o ajuste de hiperparâmetros. Uma nova classe Trials SparkTrials é implementada para distribuir a execução do Hyperopt trial entre várias máquinas e nós usando Apache Spark. Além disso, todos os experimentos de ajuste, juntamente com os hiperparâmetros ajustados e as métricas direcionadas, são automaticamente registrados em MLflow execução. Consulte Paralelizar o ajuste de hiperparâmetro do Hyperopt.

info

Visualização

Esse recurso está em Public Preview.

Apache Spark MLlib + automatizado MLflow acompanhamento

Databricks Runtime 5.4 O ML oferece suporte ao registro automático da execução doMLflow para modelos ajustados usando os algoritmos de ajuste CrossValidator e TrainValidationSplit do PySpark. Consulte Apache Spark MLlib e MLflow acompanhamento automatizado. Esse recurso é ativado por default em Databricks Runtime 5.4 ML, mas foi desativado por default em Databricks Runtime 5.3 ML.

info

Visualização

Esse recurso está em Public Preview.

Aprimoramentodo HorovodRunner

A saída enviada de Horovod para o nó do driver Spark agora está visível nas células do Notebook.

Atualização do pacote XGBoost Python

O pacote XGBoost Python 0.80 está instalado.

nota

Databricks Runtime O 5.4 contém uma nova montagem FUSE otimizada para carregamento de dados, checkpointing de modelos e registro de cada worker em um local de armazenamento compartilhado file:/dbfs/ml, que fornece E/S de alto desempenho para cargas de trabalho de aprendizagem profunda. Consulte Carregar dados para aprendizado de máquina e aprendizagem profunda.

Ambiente do sistema

O ambiente do sistema no Databricks Runtime 5.4 ML difere do Databricks Runtime 5.4 da seguinte forma:

Python O senhor pode usar os seguintes métodos: 2.7.15 para Python 2 clustering e 3.6.5 para Python 3 clustering.
DBUtils : Databricks Runtime 5.4 ML não contém utilidades de biblioteca (dbutils.biblioteca) (legado).
Para o clustering de GPU, a seguinte biblioteca de GPUs NVIDIA:
- Motorista Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1

biblioteca

As seções a seguir listam as bibliotecas incluídas em Databricks Runtime 5.4 ML que diferem daquelas incluídas em Databricks Runtime 5.4.

Biblioteca de primeira linha

Databricks Runtime 5.4 O site ML inclui as seguintes bibliotecas de primeira linha:

Python biblioteca

Databricks Runtime 5.4 O site ML usa o site Conda para o gerenciamento do pacote Python. Como resultado, há grandes diferenças na Python biblioteca instalada em comparação com a Databricks Runtime. O senhor encontrará a seguir uma lista completa do pacote Python fornecido e das versões instaladas usando o gerenciador de pacotes Conda.

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
abl-py	0.7.1	argparse	1.4.0	criptomoeda asn1	0,24,0
pastor	0.7.1	backports-abc	0.5	backports.functools-lru-cache	1.5
backports.weakref	1.0. postagem 1	bcriptar	3.1.6	cândida	2.1.3
Boto	2,48,0	boto3	1,7,62	botocore	1,10,62
certifi	2018,04.16	caffi	1,11.5	chardet	3.0.4
salmoura	0.5.3	colorama	0.3.9	analisador de configuração	3.5.0
criptografia	2.2.2	ciclador	0.10.0	Cython	0,28,2
decorador	4.3.0	docutils	0,14	pontos de entrada	0.2.3
enum34	1.1.6	arquivo et-xml	1.0.1	funçõs	1.0.2
functools32	3.2.3-2	fusepy	2.0.4	futuro	0,17.1
futuros	3.2.0	ímpeto	0.2.2	grócio	1.12.1
h5py	2.8.0	Horovod	0,16.0	html5lib	1.0.1
Hyperopt	0.1.2. db4	Índia	2.6	endereço IP	1,0.22
ipython	5.7.0	ipython_genutils	0.2.0	jdcal	1.4
Jinja 2	2,10	jmespath	0.9.4	esquema json	2.6.0
cliente jupyter	5.2.3	núcleo jupyter	4.4.0	Keras	2.2.4
Keras-Applications	1.0.7	Keras-Pré-processamento	1.0.9	solucionador de kiwi	1.1.0
cache de linha 2	1.0.0	llvmlite	0.23,1	lxml	4.2.1
Markdown	3.1.1	MarkupSafe	1,0	Matplotlib	2.2.2
confundir	0,8.3	mkl-fft	1.0.0	mkl-random	1.0.1
pular	0.8.1	zombam	2.0.0	pacote de mensagens	0.5.6
nbconvert	5.3.1	formato nb	4.4.0	redes	2.2
nariz	1.3.7	nariz-exclui	0.5.0	numba	0,38,0+0,g2a2b772fc.dirty
entorpecido	1,14.3	Arquivo de óleo	0,45,1	openpyxl	2.5.3
Pandas	0,23,0	filtros pandóicos	1.4.2	paramiko	2.4.1
pathlib2	2.3.2	bode expiatório	0.5.0	pbr	5.1.3
esperar	4.5.0	picles	0.7.4	Travesseiro	5.1.0
pip	10.0.1	dobra	3,11	kit de ferramentas de aviso	1,0.15
protobuf	3.7.1	pistila	5.6.2	psycopg2	2.7.5
processo pty	0.5.2	flecha	0.12.1	pyasn1	0.4.5
pycparser	2,18	Pigmentos	2.2.0	pymongo	3.8.0
PyNaCL	1.3.0	PyOpenSSL	18,0.0	análise de pipa	2.2.0
Meias PY	1.6.8	Python	2.7.15	Python-dateutil	2.7.3
pytz	2018,4	PyYAML	5.1	pizma	17.0.0
pedidos	2.18.4	transferência s3	0.1.13	mais escandalosa	1.7
scikit-learn	0.19.1	pegajoso	1.1.0	marítimo	0.8.1
ferramentas de configuração	39,10	genérico simples	0.8.1	despacho único	3.4.0.3
seis	1.11.0	modelos de estatísticas	0.9.0	subprocesso32	3.5.4
TensorBoard	1.12.2	TensorBoard X	1,6	TensorFlow	1.12.0
cor do termo	1.1.0	caminho de teste	0.3.1	lanterna	0.4.1
visão de tocha	0.2.1	tornado	5.0.2	tqdm	4,32,1
rastreio 2	1.4.0	almôndegas	4.3.2	teste unitário 2	1.1.0
urllib3	1,22	ambiente virtual	16,0.0	largura do wc	0.1.7
codificações da web	0.5.1	Utilitário	0,14.1	Python wheel	0,31,1
embrulhar	1.10.11	wsgiref	0.1.2

Além disso, os seguintes pacotes Spark incluem módulos Python:

Spark pacote	Módulo Python	Versão
graphframes	graphframes	0.7.0-db1-spark2.4
aprendizagem profunda	cintilante	1.5.0-db3-spark2.4
tensorframes	tensorframes	0.6.0-s_2.11

R biblioteca

A biblioteca R é idêntica à biblioteca R em Databricks Runtime 5.4.

Java e biblioteca ( 2.11 clustering) Scala Scala

Além de Java e Scala biblioteca em Databricks Runtime 5.4, Databricks Runtime 5.4 ML contém os seguintes JARs:

ID do grupo	ID do artefato	Versão
com.databricks	aprendizagem profunda	1.5.0-db3-spark2.4
com.typesafe.akka	também conhecido como actor_2.11	2.3.11
ml.combust.mleap	mleap-databricks-runtime_2.11	0,13,0
ml.dmlc	xgboost4j	0,81
ml.dmlc	xgboost4j-Spark	0,81
org.graphframes	quadros de gráfico_2.11	0.7.0-db1-spark2.4
org.tensorflow	libtensorflow	1.12.0
org.tensorflow	libtensorflow_jni	1.12.0
org.tensorflow	conector de fluxo tensor de faísca_2.11	1.12.0
org.tensorflow	TensorFlow	1.12.0
org.tensorframes	tensorframes	0.6.0-s_2.11

Novo recurso​

Distribuído Hyperopt + automatizado MLflow acompanhamento​

Apache Spark MLlib + automatizado MLflow acompanhamento​

Aprimoramentodo HorovodRunner​

Atualização do pacote XGBoost Python​

Ambiente do sistema​

biblioteca​

Biblioteca de primeira linha​

Python biblioteca​

R biblioteca​

Java e biblioteca ( 2.11 clustering) Scala Scala​