Databricks Runtime 5,4 para (EoS) ML
O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.
A Databricks lançou esta versão em junho de 2019.
O Databricks Runtime 5.4 for Machine Learning oferece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 5.4 (EoS). Databricks Runtime ML Contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras, e XGBoost. Ele também oferece suporte ao treinamento de aprendizagem profunda distribuída usando o Horovod.
Para obter mais informações, incluindo instruções para criar um cluster Databricks Runtime ML , consulte AI e aprendizado de máquina em Databricks.
Novo recurso
O Databricks Runtime 5.4 ML foi desenvolvido com base no Databricks Runtime 5.4. Para obter informações sobre as novidades do Databricks Runtime 5.4, consulte as notas sobre a versão Databricks Runtime 5.4 (EoS).
Além das atualizações da biblioteca, o site Databricks Runtime 5.4 ML apresenta o seguinte novo recurso:
Distribuído Hyperopt + automatizado MLflow acompanhamento
Databricks Runtime 5.4 ML apresenta uma nova implementação do Hyperopt powered by Apache Spark para escalonar e simplificar o ajuste de hiperparâmetros. Uma nova classe Trials
SparkTrials
é implementada para distribuir a execução do Hyperopt trial entre várias máquinas e nós usando Apache Spark. Além disso, todos os experimentos de ajuste, juntamente com os hiperparâmetros ajustados e as métricas direcionadas, são automaticamente registrados em MLflow execução. Consulte Paralelizar o ajuste de hiperparâmetro do Hyperopt.
Visualização
Esse recurso está em Public Preview.
Apache Spark MLlib + automatizado MLflow acompanhamento
Databricks Runtime 5.4 O ML oferece suporte ao registro automático da execução doMLflow para modelos ajustados usando os algoritmos de ajuste CrossValidator
e TrainValidationSplit
do PySpark. Consulte Apache Spark MLlib e MLflow acompanhamento automatizado. Esse recurso é ativado por default em Databricks Runtime 5.4 ML, mas foi desativado por default em Databricks Runtime 5.3 ML.
Visualização
Esse recurso está em Public Preview.
Aprimoramentodo HorovodRunner
A saída enviada de Horovod para o nó do driver Spark agora está visível nas células do Notebook.
Atualização do pacote XGBoost Python
O pacote XGBoost Python 0.80 está instalado.
Databricks Runtime O 5.4 contém uma nova montagem FUSE otimizada para carregamento de dados, checkpointing de modelos e registro de cada worker em um local de armazenamento compartilhado file:/dbfs/ml
, que fornece E/S de alto desempenho para cargas de trabalho de aprendizagem profunda. Consulte Carregar dados para aprendizado de máquina e aprendizagem profunda.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 5.4 ML difere do Databricks Runtime 5.4 da seguinte forma:
- Python O senhor pode usar os seguintes métodos: 2.7.15 para Python 2 clustering e 3.6.5 para Python 3 clustering.
- DBUtils : Databricks Runtime 5.4 ML não contém utilidades de biblioteca (dbutils.biblioteca) (legado).
- Para o clustering de GPU, a seguinte biblioteca de GPUs NVIDIA:
- Motorista Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
biblioteca
As seções a seguir listam as bibliotecas incluídas em Databricks Runtime 5.4 ML que diferem daquelas incluídas em Databricks Runtime 5.4.
Biblioteca de primeira linha
Databricks Runtime 5.4 O site ML inclui as seguintes bibliotecas de primeira linha:
Python biblioteca
Databricks Runtime 5.4 O site ML usa o site Conda para o gerenciamento do pacote Python. Como resultado, há grandes diferenças na Python biblioteca instalada em comparação com a Databricks Runtime. O senhor encontrará a seguir uma lista completa do pacote Python fornecido e das versões instaladas usando o gerenciador de pacotes Conda.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
abl-py | 0.7.1 | argparse | 1.4.0 | criptomoeda asn1 | 0,24,0 |
pastor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0. postagem 1 | bcriptar | 3.1.6 | cândida | 2.1.3 |
Boto | 2,48,0 | boto3 | 1,7,62 | botocore | 1,10,62 |
certifi | 2018,04.16 | caffi | 1,11.5 | chardet | 3.0.4 |
salmoura | 0.5.3 | colorama | 0.3.9 | analisador de configuração | 3.5.0 |
criptografia | 2.2.2 | ciclador | 0.10.0 | Cython | 0,28,2 |
decorador | 4.3.0 | docutils | 0,14 | pontos de entrada | 0.2.3 |
enum34 | 1.1.6 | arquivo et-xml | 1.0.1 | funçõs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | futuro | 0,17.1 |
futuros | 3.2.0 | ímpeto | 0.2.2 | grócio | 1.12.1 |
h5py | 2.8.0 | Horovod | 0,16.0 | html5lib | 1.0.1 |
Hyperopt | 0.1.2. db4 | Índia | 2.6 | endereço IP | 1,0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja 2 | 2,10 | jmespath | 0.9.4 | esquema json | 2.6.0 |
cliente jupyter | 5.2.3 | núcleo jupyter | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Keras-Pré-processamento | 1.0.9 | solucionador de kiwi | 1.1.0 |
cache de linha 2 | 1.0.0 | llvmlite | 0.23,1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1,0 | Matplotlib | 2.2.2 |
confundir | 0,8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
pular | 0.8.1 | zombam | 2.0.0 | pacote de mensagens | 0.5.6 |
nbconvert | 5.3.1 | formato nb | 4.4.0 | redes | 2.2 |
nariz | 1.3.7 | nariz-exclui | 0.5.0 | numba | 0,38,0+0,g2a2b772fc.dirty |
entorpecido | 1,14.3 | Arquivo de óleo | 0,45,1 | openpyxl | 2.5.3 |
Pandas | 0,23,0 | filtros pandóicos | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | bode expiatório | 0.5.0 | pbr | 5.1.3 |
esperar | 4.5.0 | picles | 0.7.4 | Travesseiro | 5.1.0 |
pip | 10.0.1 | dobra | 3,11 | kit de ferramentas de aviso | 1,0.15 |
protobuf | 3.7.1 | pistila | 5.6.2 | psycopg2 | 2.7.5 |
processo pty | 0.5.2 | flecha | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2,18 | Pigmentos | 2.2.0 | pymongo | 3.8.0 |
PyNaCL | 1.3.0 | PyOpenSSL | 18,0.0 | análise de pipa | 2.2.0 |
Meias PY | 1.6.8 | Python | 2.7.15 | Python-dateutil | 2.7.3 |
pytz | 2018,4 | PyYAML | 5.1 | pizma | 17.0.0 |
pedidos | 2.18.4 | transferência s3 | 0.1.13 | mais escandalosa | 1.7 |
scikit-learn | 0.19.1 | pegajoso | 1.1.0 | marítimo | 0.8.1 |
ferramentas de configuração | 39,10 | genérico simples | 0.8.1 | despacho único | 3.4.0.3 |
seis | 1.11.0 | modelos de estatísticas | 0.9.0 | subprocesso32 | 3.5.4 |
TensorBoard | 1.12.2 | TensorBoard X | 1,6 | TensorFlow | 1.12.0 |
cor do termo | 1.1.0 | caminho de teste | 0.3.1 | lanterna | 0.4.1 |
visão de tocha | 0.2.1 | tornado | 5.0.2 | tqdm | 4,32,1 |
rastreio 2 | 1.4.0 | almôndegas | 4.3.2 | teste unitário 2 | 1.1.0 |
urllib3 | 1,22 | ambiente virtual | 16,0.0 | largura do wc | 0.1.7 |
codificações da web | 0.5.1 | Utilitário | 0,14.1 | Python wheel | 0,31,1 |
embrulhar | 1.10.11 | wsgiref | 0.1.2 |
Além disso, os seguintes pacotes Spark incluem módulos Python:
Spark pacote | Módulo Python | Versão |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
aprendizagem profunda | cintilante | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
R biblioteca
A biblioteca R é idêntica à biblioteca R em Databricks Runtime 5.4.
Java e biblioteca ( 2.11 clustering) Scala Scala
Além de Java e Scala biblioteca em Databricks Runtime 5.4, Databricks Runtime 5.4 ML contém os seguintes JARs:
ID do grupo | ID do artefato | Versão |
---|---|---|
com.databricks | aprendizagem profunda | 1.5.0-db3-spark2.4 |
com.typesafe.akka | também conhecido como actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0,13,0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-Spark | 0,81 |
org.graphframes | quadros de gráfico_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | conector de fluxo tensor de faísca_2.11 | 1.12.0 |
org.tensorflow | TensorFlow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |