Databricks Runtime 9,0 para (EoS) ML
O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.
A Databricks lançou essa versão em agosto de 2021.
O Databricks Runtime 9.0 for Machine Learning oferece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 9.0 (EoS). Databricks Runtime ML Contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, e XGBoost. Ele também oferece suporte ao treinamento de aprendizagem profunda distribuída usando o Horovod.
Para obter mais informações, incluindo instruções para criar um cluster Databricks Runtime ML , consulte AI e aprendizado de máquina em Databricks.
Correção
Uma versão anterior destas notas sobre a versão afirmava que o suporte para monitoramento de clustering de métricas de GPU com o Ganglia estava desativado no Databricks Runtime 9.0 ML GPU. Isso era verdade para o Databricks Runtime 9.0 ML Beta, mas o problema foi corrigido com o Databricks Runtime 9.0 ML GA. A declaração foi removida.
Novos recursos e melhorias
O Databricks Runtime 9.0 ML foi desenvolvido com base no Databricks Runtime 9.0. Para obter informações sobre as novidades do Databricks Runtime 9.0, incluindo Apache Spark MLlib e SparkR, , consulte as notas sobre a versão Databricks Runtime 9.0 (EoS).
Databricks Autologging (Prévia pública)
O Databricks Autologging já está disponível para o Databricks Runtime 9.0 for Machine Learning em regiões selecionadas. Databricks Autologging é uma solução sem código que fornece acompanhamento automático de experimentos para sessões de treinamento de aprendizado de máquina em Databricks. Com o Databricks Autologging, os parâmetros do modelo, as métricas, os arquivos e as informações de linhagem são capturados automaticamente quando o senhor treina modelos a partir de uma variedade de bibliotecas populares de aprendizado de máquina. As sessões de treinamento são registradas como MLflow acompanhamento execução. Os arquivos de modelo também são rastreados para que o senhor possa facilmente log para o MLflow Model Registry e implantá-los para pontuação de tempo real com MLflow servindo modelo.
Para obter mais informações sobre Databricks Autologging, consulte Databricks Autologging.
Melhorias no site Databricks recurso Store
O desempenho ao criar um conjunto de treinamento foi aprimorado com a minimização do número de junções entre as tabelas de recurso de origem.
XGBoost A integração com agora suporta treinamento distribuído e clustering de GPU PySpark
Para obter detalhes, consulte Usar o XGBoost em Databricks.
Principais mudanças no ambiente do Databricks Runtime ML Python
Os ambientes Conda, juntamente com o comando %conda, são removidos. O Databricks Runtime 9.0 ML foi desenvolvido com pip
e virtualenv
.
Imagens personalizadas usando ambientes baseados no Conda com Databricks Container Services ainda serão suportadas, mas não terão recursos de biblioteca com escopo de Notebook. Databricks recomenda o uso de ambientes baseados em virtualenv com
Databricks Container Services e %pip
para todas as bibliotecas com escopo de Notebook.
Consulte Databricks Runtime 9.0 (EoS) para conhecer as principais alterações no ambiente Python do Databricks Runtime. Para obter uma lista completa do pacote Python instalado e suas versões, consulte Python biblioteca.
Python pacote atualizado
- mlflow 1.18.0 - > 1.19.0
- nltk 3,5 - > 3,6,1
Python pacote adicionado
- profeta 1.0.1
Python pacote removido
- MKL
- núcleo do azure
- azure-storage-blob
- moagem
- Docker
- analisador de caracteres de consulta
- intel-openmp
Depreciações e recursos não suportados
- Em Databricks Runtime 9.0 ML, HorovodRunner não suporta a configuração
np=0
, em quenp
é o número de processos paralelos a serem usados para o trabalho Horovod. - O Databricks Runtime 9.0 ML inclui o r-base 4.1.0 com motor gráfico R versão 14. Isso não é compatível com a versão 1.2.x do RStudio Server.
nvprof
foi removido no Databricks Runtime 9.0 ML GPU.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 9.0 ML difere do Databricks Runtime 9.0 da seguinte forma:
- DBUtils : Databricks Runtime ML não inclui utilidades de biblioteca (dbutils.biblioteca) (legado). Em vez disso, use
%pip
comando. NotebookConsulte -scoped Pythonbiblioteca. - Para o clustering de GPU, o site Databricks Runtime ML inclui a seguinte biblioteca de GPUs NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
biblioteca
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 9.0 ML que diferem daquelas incluídas no Databricks Runtime 9.0.
Nesta secção:
- Biblioteca de primeira linha
- Bibliotecas Python
- R biblioteca
- Java e Scala biblioteca (Scala 2.12 clustering)
Biblioteca de primeira linha
Databricks Runtime 9.0 ML inclui as seguintes bibliotecas de primeira linha:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python biblioteca
Databricks Runtime 9.0 O ML usa o Virtualenv para o gerenciamento do pacote Python e inclui muitos pacotes populares do ML.
Além do pacote especificado nas seções a seguir, o Databricks Runtime 9.0 ML também inclui o seguinte pacote:
- Hyperopt 0.2.5.db2
- sparkdl 2.2.0_db1
- recurso 0.3.3
- automl 1.1.1
Python biblioteca sobre clustering de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
abl-py | 0.11.0 | Antergos Linux | 2015.10 (versão ISO) | apronta | 1.4.4 |
argônio-2-cffi | 20.1.0 | pastor | 0.8.1 | atunparse | 1.6.3 |
gerador assíncrono | 1,10 | atrai | 20,3,0 | chamada de volta | 0.2.0 |
bcriptar | 3.2.0 | cândida | 3.3.0 | boto3 | 1,16.7 |
botocore | 1.19,7 | Gargalo | 1.3.2 | ferramentas de cache | 4.2.2 |
certifi | 2020.12,5 | caffi | 1,14.5 | chardet | 4.0.0 |
clique | 7.1.2 | salmoura | 1.6.0 | cmdstanpy | 0,9,68 |
analisador de configuração | 5.0.1 | data de conversão | 2.3.2 | criptografia | 3.4.7 |
ciclador | 0.10.0 | Cython | 0,29,23 | Databricks-CLI | 0,14.3 |
dbus-Python | 1.2.16 | decorador | 5.0.6 | xml desfundido | 0.7.1 |
endro | 0.3.2 | cache em disco | 5.2.1 | distlib | 0.3.2 |
informação da distribuição | 0,23 ubuntu 1 | pontos de entrada | 0,3 | efema | 4.0.0.2 |
visão geral das facetas | 1.0.0 | bloqueio de arquivo | 3.0.12 | Frasco | 1.1.2 |
tampões planos | 1,12 | fsspec | 0.9.0 | futuro | 0,18.2 |
ímpeto | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
autenticação do Google | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grócio | 1.34,1 | unicórnio | 20,0.4 | h5py | 3.1.0 |
conversor híjri | 2.1.3 | férias | 0.10.5.2 | Horovod | 0,22,1 |
html/min | 0.1.12 | Índia | 2,10 | Hash de imagem | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22,0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodato | 0.6.0 | é perigoso | 1.1.0 |
jedi | 0,17.2 | Jinja 2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | esquema json | 3.2.0 |
cliente jupyter | 6.1.12 | núcleo jupyter | 4.7.1 | pigmentos jupyterlab | 0.1.2 |
widgets jupyterlab | 1.0.1 | Keras-noite | 2.5.0.dev2021032900 | Keras-Pré-processamento | 1.1.2 |
solucionador de kiwi | 1.3.1 | coalas | 1.8.1 | calendário lunar coreano | 0.2.1 |
LightGBM | 3.1.1 | llvmlite | 0,36,0 | Calendário lunar | 0,0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
Matplotlib | 3.4.2 | faltando não | 0.5.0 | confundir | 0,8.4 |
pular | 0,17.0 | malflow-skinny | 1.19.0 | multimétodo | 1.4 |
cliente nb | 0.5.3 | nbconvert | 6.0.7 | formato nb | 5.1.3 |
nest-assíncio | 1.5.1 | redes | 2,5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0,53,1 | entorpecido | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | fazendo às malas | 20,9 |
Pandas | 1.2.4 | perfil de pandas | 3.0.0 | filtros pandóicos | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | bode expiatório | 0.5.1 |
petastorme | 0.11.1 | esperar | 4.8.0 | phik | 0.12.0 |
picles | 0.7.5 | Travesseiro | 8.2.0 | pip | 21.0.1 |
Plotly | 4.14.3 | cliente prometheus | 0.10.1 | kit de ferramentas de aviso | 3.0.17 |
Prophet | 1.0.1 | protobuf | 3.17.2 | pistila | 5.8.0 |
psycopg2 | 2.8.5 | processo pty | 0.7.0 | flecha | 4.0.0 |
pyasn1 | 0.4.8 | módulos pyasn1 | 0.2.8 | pycparser | 2,20 |
pidântico | 1.8.2 | Pigmentos | 2.8.1 | Objeto PYG | 3,36,0 |
Pymeeus | 0.5.11 | PyNaCL | 1.3.0 | pyodbc | 4,0.30 |
análise de pipa | 2.4.7 | persistente | 0,17.3 | pystan | 2.19.1.1 |
Python-apt | 2.0.0+ubuntu0.20.4.6 | Python-dateutil | 2.8.1 | Python-editor | 1.0.4 |
pytz | 2020,5 | PY Wavelets | 1.1.1 | PyYAML | 5.4.1 |
pizma | 20.0.0 | regex | 2021.4.4 | pedidos | 2.25.1 |
solicitações-oauthlib | 1.3.0 | solicitações - soquete unix | 0.2.0 | tentando novamente | 1.3.3 |
rsa | 4.7.2 | transferência s3 | 0.3.7 | scikit-learn | 0,24,1 |
pegajoso | 1.6.2 | marítimo | 0.11.1 | Enviar 2 lixeiras | 1.5.0 |
ferramentas de configuração | 52,0,0 | ferramentas de configuração - git | 1.2 | forma | 0,39,0 |
simplejson | 3.17.2 | seis | 1,15.0 | fatiador | 0.0.7 |
tapa | 3.0.5 | distribuidor de fluxo tensor de faísca | 0.1.0 | sqlparse | 0.4.1 |
ID de importação ssh | 5,10 | modelos de estatísticas | 0.12.2 | tabular | 0,8.7 |
emaranhado em unicode | 0.1.0 | TensorBoard | 2.5.0 | TensorBoard-servidor de dados | 0.6.1 |
TensorBoard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.5.0 | estimador de fluxo tensor | 2.5.0 |
cor do termo | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
threadpool ctl | 2.1.0 | lanterna | 1.9.0+CPU | visão de tocha | 0.10.0+cpu |
tornado | 6.1 | tqdm | 4,59,0 | almôndegas | 5.0.5 |
extensões de digitação | 3.7.4.3 | junhão | 4.0.2 | atualizações autônomas | 0,1 |
urllib3 | 1,25.11 | ambiente virtual | 20.4.1 | visões | 0.7.1 |
largura do wc | 0.2.5 | codificações da web | 0.5.1 | cliente websocket | 0,57,0 |
Utilitário | 1.0.1 | Python wheel | 0,36,2 | extensão widgetsnb | 3.5.1 |
embrulhar | 1.12.1 | xgboost | 1.4.2 |
Python biblioteca sobre clustering de GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
abl-py | 0.11.0 | Antergos Linux | 2015.10 (versão ISO) | apronta | 1.4.4 |
argônio-2-cffi | 20.1.0 | pastor | 0.8.1 | atunparse | 1.6.3 |
gerador assíncrono | 1,10 | atrai | 20,3,0 | chamada de volta | 0.2.0 |
bcriptar | 3.2.0 | cândida | 3.3.0 | boto3 | 1,16.7 |
botocore | 1.19,7 | Gargalo | 1.3.2 | ferramentas de cache | 4.2.2 |
certifi | 2020.12,5 | caffi | 1,14.5 | chardet | 4.0.0 |
clique | 7.1.2 | salmoura | 1.6.0 | cmdstanpy | 0,9,68 |
analisador de configuração | 5.0.1 | data de conversão | 2.3.2 | criptografia | 3.4.7 |
ciclador | 0.10.0 | Cython | 0,29,23 | Databricks-CLI | 0,14.3 |
dbus-Python | 1.2.16 | decorador | 5.0.6 | xml desfundido | 0.7.1 |
endro | 0.3.2 | cache em disco | 5.2.1 | distlib | 0.3.2 |
informação da distribuição | 0,23 ubuntu 1 | pontos de entrada | 0,3 | efema | 4.0.0.2 |
visão geral das facetas | 1.0.0 | bloqueio de arquivo | 3.0.12 | Frasco | 1.1.2 |
tampões planos | 1,12 | fsspec | 0.9.0 | futuro | 0,18.2 |
ímpeto | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
autenticação do Google | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grócio | 1.34,1 | unicórnio | 20,0.4 | h5py | 3.1.0 |
conversor híjri | 2.1.3 | férias | 0.10.5.2 | Horovod | 0,22,1 |
html/min | 0.1.12 | Índia | 2,10 | Hash de imagem | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22,0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodato | 0.6.0 | é perigoso | 1.1.0 |
jedi | 0,17.2 | Jinja 2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | esquema json | 3.2.0 |
cliente jupyter | 6.1.12 | núcleo jupyter | 4.7.1 | pigmentos jupyterlab | 0.1.2 |
widgets jupyterlab | 1.0.1 | Keras-noite | 2.5.0.dev2021032900 | Keras-Pré-processamento | 1.1.2 |
solucionador de kiwi | 1.3.1 | coalas | 1.8.1 | calendário lunar coreano | 0.2.1 |
LightGBM | 3.1.1 | llvmlite | 0,36,0 | Calendário lunar | 0,0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
Matplotlib | 3.4.2 | faltando não | 0.5.0 | confundir | 0,8.4 |
pular | 0,17.0 | malflow-skinny | 1.19.0 | multimétodo | 1.4 |
cliente nb | 0.5.3 | nbconvert | 6.0.7 | formato nb | 5.1.3 |
nest-assíncio | 1.5.1 | redes | 2,5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0,53,1 | entorpecido | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | fazendo às malas | 20,9 |
Pandas | 1.2.4 | perfil de pandas | 3.0.0 | filtros pandóicos | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | bode expiatório | 0.5.1 |
petastorme | 0.11.1 | esperar | 4.8.0 | phik | 0.12.0 |
picles | 0.7.5 | Travesseiro | 8.2.0 | pip | 21.0.1 |
Plotly | 4.14.3 | cliente prometheus | 0.11.0 | kit de ferramentas de aviso | 3.0.17 |
Prophet | 1.0.1 | protobuf | 3.17.2 | pistila | 5.8.0 |
psycopg2 | 2.8.5 | processo pty | 0.7.0 | flecha | 4.0.0 |
pyasn1 | 0.4.8 | módulos pyasn1 | 0.2.8 | pycparser | 2,20 |
pidântico | 1.8.2 | Pigmentos | 2.8.1 | Objeto PYG | 3,36,0 |
Pymeeus | 0.5.11 | PyNaCL | 1.3.0 | pyodbc | 4,0.30 |
análise de pipa | 2.4.7 | persistente | 0,17.3 | pystan | 2.19.1.1 |
Python-apt | 2.0.0+ubuntu0.20.4.6 | Python-dateutil | 2.8.1 | Python-editor | 1.0.4 |
pytz | 2020,5 | PY Wavelets | 1.1.1 | PyYAML | 5.4.1 |
pizma | 20.0.0 | regex | 2021.4.4 | pedidos | 2.25.1 |
solicitações-oauthlib | 1.3.0 | solicitações - soquete unix | 0.2.0 | tentando novamente | 1.3.3 |
rsa | 4.7.2 | transferência s3 | 0.3.7 | scikit-learn | 0,24,1 |
pegajoso | 1.6.2 | marítimo | 0.11.1 | Enviar 2 lixeiras | 1.5.0 |
ferramentas de configuração | 52,0,0 | ferramentas de configuração - git | 1.2 | forma | 0,39,0 |
simplejson | 3.17.2 | seis | 1,15.0 | fatiador | 0.0.7 |
tapa | 3.0.5 | distribuidor de fluxo tensor de faísca | 0.1.0 | sqlparse | 0.4.1 |
ID de importação ssh | 5,10 | modelos de estatísticas | 0.12.2 | tabular | 0,8.7 |
emaranhado em unicode | 0.1.0 | TensorBoard | 2.5.0 | TensorBoard-servidor de dados | 0.6.1 |
TensorBoard-plugin-wit | 1.8.0 | TensorFlow | 2.5.0 | estimador de fluxo tensor | 2.5.0 |
cor do termo | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
threadpool ctl | 2.1.0 | lanterna | 1,9.0+cu111 | visão de tocha | 0,10,0+cu111 |
tornado | 6.1 | tqdm | 4,59,0 | almôndegas | 5.0.5 |
extensões de digitação | 3.7.4.3 | junhão | 4.0.2 | atualizações autônomas | 0,1 |
urllib3 | 1,25.11 | ambiente virtual | 20.4.1 | visões | 0.7.1 |
largura do wc | 0.2.5 | codificações da web | 0.5.1 | cliente websocket | 0,57,0 |
Utilitário | 1.0.1 | Python wheel | 0,36,2 | extensão widgetsnb | 3.5.1 |
embrulhar | 1.12.1 | xgboost | 1.4.2 |
Spark pacote contendo os módulos Python
Spark pacote | Módulo Python | Versão |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
R biblioteca
A biblioteca R é idêntica à biblioteca R em Databricks Runtime 9.0.
Java e biblioteca ( 2.12 clustering) Scala Scala
Além de Java e Scala biblioteca em Databricks Runtime 9.0, Databricks Runtime 9.0 ML contém os seguintes JARs:
Agrupamento de CPU
ID do grupo | ID do artefato | Versão |
---|---|---|
com.typesafe.akka | também conhecido como actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0,17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2,12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | cliente mlflow | 1.19.0 |
org.mlflow | faísca de fluxo | 1.19.0 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0,8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1,15.0 |
Agrupamento de GPU
ID do grupo | ID do artefato | Versão |
---|---|---|
com.typesafe.akka | também conhecido como actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0,17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2,12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | cliente mlflow | 1.19.0 |
org.mlflow | faísca de fluxo | 1.19.0 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0,8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1,15.0 |