Databricks Runtime 11.3 LTS para Machine Learning (Fim de Suporte)
O suporte para esta versão do Databricks Runtime foi encerrado. Para a data de fim do suporte, consulte o Histórico de fim de suporte. Para todas as versões suportadas Databricks Runtime , consulte as notas sobre versões e compatibilidadeDatabricks Runtime.
Databricks Runtime 11.3 LTS para Machine Learning fornece um ambiente pronto para uso para machine learning e ciência de dados baseado no Databricks Runtime 11.3 LTS (EoS). Databricks Runtime ML contém muitas bibliotecas populares de machine learning, incluindo TensorFlow, PyTorch e XGBoost. Databricks Runtime ML inclui AutoML, uma ferramenta para ensinar automaticamente um pipeline machine learning . Databricks Runtime ML também suporta aprendizagem profunda distribuída usando Horovod.
LTS significa que esta versão tem suporte a longo prazo . Consulte o ciclo de vida da versão LTS do Databricks Runtime.
Para obter mais informações, incluindo instruções para criar um cluster Databricks Runtime ML , consulte AI e machine learning no Databricks.
Novos recursos e melhorias
O Databricks Runtime 11.3 LTS ML é construído sobre o Databricks Runtime 11.3 LTS. Para obter informações sobre o que há de novo no Databricks Runtime 11.3 LTS, incluindo Apache Spark MLlib e SparkR, consulte as notas sobre a versão Databricks Runtime 11.3 LTS (EoS) .
Aprimoramentos no AutoML
AutoML agora oferece suporte ao uso de tabelas de recursos existentes Feature Store em seus experimentos AutoML . Para obter detalhes, consulte Integração do AutoML Feature Store.
Os notebooks de teste gerados pelo AutoML agora contêm trechos de código que permitem aos usuários executar novamente o ajuste de hiperparâmetros.
AutoML agora suporta o recurso DecimalType .
Correções de bugs
O Databricks Runtime 11.3 LTS ML inclui uma versão atualizada de sparkdl.xgboost. As versões anteriores de sparkdl.xgboost contêm erros que foram corrigidos nesta versão, portanto, a Databricks recomenda que os usuários da biblioteca atualizem para o Databricks Runtime 11.3 LTS ML.
Prepare-se para os próximos lançamentos.
Uma próxima versão do Databricks Runtime ML incluirá a versão 1.0 sklearn . Visite a documentação sklearn para obter informações sobre como se preparar para esta alteração.
Databricks Runtime ML contém dois pacotes openblas . O pacote /opt/OpenBLAS está obsoleto no Databricks Runtime 11.3 LTS ML e será removido em uma versão futura.
Ambiente do sistema
O ambiente de sistema no Databricks Runtime 11.3 LTS ML difere do Databricks Runtime 11.3 LTS da seguinte forma:
- DBUtils : Databricks Runtime ML não inclui bibliotecas russas (dbutils.biblioteca) (legado). Use o comando
%pipem vez disso. Veja Biblioteca Python com escopo deNotebook. - Para clusters de GPUs, Databricks Runtime ML inclui a seguinte biblioteca de GPUs NVIDIA:
- CUDA 11.3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
Databricks Runtime 11.3 LTS ML inclui XGBoost 1.6.1, que não é compatível com clusters de GPU com capacidadecompute 5.2 ou inferior.
biblioteca
As seções a seguir listam a biblioteca incluída no Databricks Runtime 11.3 LTS ML que difere daquelas Incluído no Databricks Runtime 11.3 LTS.
Nesta secção:
- Biblioteca de primeira linha
- Bibliotecas Python
- Biblioteca R
- Biblioteca Java e Scala ( cluster Scala 2.12)
Biblioteca de primeira linha
Databricks Runtime 11.3 LTS ML inclui a seguinte biblioteca de nível superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
- scikit-learn
BibliotecaPython
Databricks Runtime 11.3 LTS ML utiliza o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes populares ML .
Além do pacote especificado nas seções a seguir, Databricks Runtime 11.3 LTS ML também inclui o seguinte pacote:
- Hyperopt 0.2.7.db1
- sparkdl 2.3.0-db3
- feature_store 0.7.0
- automl 1.13.2
Para reproduzir o ambiente Python Databricks Runtime ML em seu ambiente virtual Python local, download o arquivo requirements-11.3.txt. arquivo e execução pip install -r requirements-11.3.txt. Este comando instala toda a biblioteca de código aberto que Databricks Runtime ML usa, mas não instala a biblioteca desenvolvida pelo Databricks, como databricks-automl, databricks-feature-store ou o fork Databricks de hyperopt.
BibliotecaPython em clustersde CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
|---|---|---|---|---|---|
absl-py | 1.0.0 | argônio2-cffi | 20.1.0 | Astor | 0.8.1 |
astunparse | 1.6.3 | gerador-assíncrono | 1.10 | atributos | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | chamada de retorno | 0.2.0 |
backports.entry-points-selecionáveis | 1.1.1 | bcrypt | 4.0.0 | preto | 22.3.0 |
água sanitária | 4.0.0 | felicidade | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | ferramentas de cache | 5.2.0 | catálogo | 2.0.8 |
certificar | 08/10/2021 | cffi | 1.14.6 | chardet | 4.0.0 |
normalizador de conjunto de caracteres | 2.0.4 | clique | 8.0.3 | picles de nuvem | 2.0.0 |
cmdstanpy | 0.9.68 | confecção | 0.0.1 | analisador de configuração | 5.2.0 |
converterdata | 2.4.0 | criptografia | 3.4.8 | ciclista | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-CLI | 0.17.3 | tempo duplo | 0.1.12 | dbus-Python | 1.2.16 |
debugpy | 1.4.1 | decorador | 5.1.0 | defusedxml | 0.7.1 |
aneto | 0.3.4 | cache em disco | 5.4.0 | biblioteca dist | 0.3.6 |
pontos de entrada | 0,3 | efêmero | 4.1.3 | visão geral das facetas | 1.0.0 |
texto rápido | 0.9.2 | bloqueio de arquivo | 3.3.1 | Frasco | 1.1.2 |
buffers planos | 1.12 | especificação de fs | 2021.8.1 | futuro | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
autenticação do Google | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | API gviz | 1.10.0 |
h5py | 3.3.0 | conversor hijri | 2.2.4 | feriados | 0,15 |
Horovod | 0.25.0 | htmlmin | 0.1.12 | hub de rostos abraçados | 0.9.1 |
idna | 3.2 | Hash da imagem | 4.3.0 | aprendizado desequilibrado | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodato | 0.6.1 |
é perigoso | 2.0.1 | jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
esquema JSON | 3.2.0 | cliente jupyter | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | widgets do JupyterLab | 1.0.0 | Keras | 2.9.0 |
Pré-processamento Keras | 1.1.2 | kiwisolver | 1.3.1 | calendário lunar coreano | 0.3.1 |
códigos de idioma | 3.3.0 | libclang | 14.0.6 | LightGBM | 3.3.2 |
llvmlite | 0.37.0 | Calendário Lunar | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | Matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | desafinação | 0.8.4 |
mleap | 0.20.0 | mlflow-magro | 1.29.0 | multimétodo | 1.9 |
murmurhash | 1.0.8 | mypy-extensões | 0.4.3 | nbclient | 0.5.3 |
nbconvert | 6.1.0 | nbformato | 5.1.3 | ninho-asyncio | 1.5.1 |
rede x | 2.6.3 | nltk | 3.6.5 | notebook | 6.4.5 |
número | 0.54.1 | numpy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | embalagem | 21.0 | Pandas | 1.3.4 |
pandas-perfilamento | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | especificação de caminho | 0.9.0 | patia | 0.6.2 |
Patsy | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
phik | 0.12.2 | pickleshare | 0.7.5 | Travesseiro | 8.4.0 |
pip | 21.2.4 | diretórios de plataforma | 2.5.2 | Plotly | 5.9.0 |
pmdarima | 1.8.5 | pré-apresentado | 3.0.7 | cliente prometheus | 0.11.0 |
kit de ferramentas de prompt | 3.0.20 | Prophet | 1.0.1 | protobuf | 3.19.4 |
psutil | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
pyarrow | 7.0.0 | pyasn1 | 0.4.8 | módulos pyasn1 | 0.2.8 |
pybind11 | 2.10.0 | pycparser | 2.20 | pydântico | 1.9.2 |
Pigmentos | 2.10.0 | PyGObject | 3.36.0 | PyJWT | 2.5.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.5.0 | pyodbc | 4.0.31 |
pyparsing | 3.0.4 | pirrizante | 0.18.0 | pystan | 2.19.1.1 |
Python-dateutil | 2.8.2 | Editor Python | 1.0.4 | pytz | 2021.3 |
PyWavelets | 1.1.1 | PyYAML | 6.0 | pyzmq | 22.2.1 |
regex | 2021.8.3 | solicitações | 2.26.0 | requests-oauthlib | 1.3.1 |
solicitações-socket unix | 0.2.0 | rsa | 4,9 | s3transfer | 0.5.2 |
scikit-learn | 0.24.2 | scipy | 1.7.1 | nascido no mar | 0.11.3 |
Send2Trash | 1.8.0 | ferramentas de configuração | 58.0.4 | setuptools-git | 1.2 |
forma | 0.41.0 | JSON simples | 3.17.6 | seis | 1.16.0 |
fatiador | 0.0.7 | aberto inteligente | 5.2.1 | mapa de memória | 5.0.0 |
espacial | 3.4.1 | legado espacial | 3.0.10 | registradores spacy | 1.0.3 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.2 | sério | 2.4.4 |
ssh-import-id | 5.10 | modelos estatísticos | 0.12.2 | tabular | 0.8.9 |
emaranhado-em-unicode | 0.1.0 | tenacidade | 8.0.1 | TensorBoard | 2.9.1 |
servidor de dados do TensorBoard | 0.6.1 | Perfil do plugin TensorBoard | 2.8.0 | TensorBoard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.9.1 | estimador tensorflow | 2.9.0 | tensorflow-io-GCS-sistema de arquivos | 0.27.0 |
termcolor | 2.0.1 | terminado | 0.9.4 | caminho de teste | 0.5.0 |
fino | 8.1.2 | threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 |
tokenizadores | 0.12.1 | tomli | 2.0.1 | tocha | 1.12.1+cpu |
visão de tocha | 0.13.1+cpu | tornado | 6.1 | tqdm | 4.62.3 |
traços | 5.1.0 | transformadores | 4.21.2 | digitador | 0.4.2 |
extensões de digitação | 3.10.0.2 | ujson | 4.0.2 | atualizações não assistidas | 0,1 |
urllib3 | 1.26.7 | ambiente virtual | 20.8.0 | visões | 0.7.4 |
wasabi | 0.10.1 | largura do wc | 0.2.5 | codificações web | 0.5.1 |
cliente websocket | 1.3.1 | Ferramentas | 2.0.2 | Python wheel | 0.37.0 |
widgetsnbextension | 3.6.0 | embrulhado | 1.12.1 | xgboost | 1.6.2 |
zíper | 3.6.0 |
BibliotecaPython em clustersde GPUs
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
|---|---|---|---|---|---|
absl-py | 1.0.0 | argônio2-cffi | 20.1.0 | Astor | 0.8.1 |
astunparse | 1.6.3 | gerador-assíncrono | 1.10 | atributos | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | chamada de retorno | 0.2.0 |
backports.entry-points-selecionáveis | 1.1.1 | bcrypt | 4.0.0 | preto | 22.3.0 |
água sanitária | 4.0.0 | felicidade | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | ferramentas de cache | 5.2.0 | catálogo | 2.0.8 |
certificar | 08/10/2021 | cffi | 1.14.6 | chardet | 4.0.0 |
normalizador de conjunto de caracteres | 2.0.4 | clique | 8.0.3 | picles de nuvem | 2.0.0 |
cmdstanpy | 0.9.68 | confecção | 0.0.1 | analisador de configuração | 5.2.0 |
converterdata | 2.4.0 | criptografia | 3.4.8 | ciclista | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-CLI | 0.17.3 | tempo duplo | 0.1.12 | dbus-Python | 1.2.16 |
debugpy | 1.4.1 | decorador | 5.1.0 | defusedxml | 0.7.1 |
aneto | 0.3.4 | cache em disco | 5.4.0 | biblioteca dist | 0.3.6 |
pontos de entrada | 0,3 | efêmero | 4.1.3 | visão geral das facetas | 1.0.0 |
texto rápido | 0.9.2 | bloqueio de arquivo | 3.3.1 | Frasco | 1.1.2 |
buffers planos | 1.12 | especificação de fs | 2021.8.1 | futuro | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
autenticação do Google | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | API gviz | 1.10.0 |
h5py | 3.3.0 | conversor hijri | 2.2.4 | feriados | 0,15 |
Horovod | 0.25.0 | htmlmin | 0.1.12 | hub de rostos abraçados | 0.9.1 |
idna | 3.2 | Hash da imagem | 4.3.0 | aprendizado desequilibrado | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodato | 0.6.1 |
é perigoso | 2.0.1 | jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
esquema JSON | 3.2.0 | cliente jupyter | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | widgets do JupyterLab | 1.0.0 | Keras | 2.9.0 |
Pré-processamento Keras | 1.1.2 | kiwisolver | 1.3.1 | calendário lunar coreano | 0.3.1 |
códigos de idioma | 3.3.0 | libclang | 14.0.6 | LightGBM | 3.3.2 |
llvmlite | 0.37.0 | Calendário Lunar | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | Matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | desafinação | 0.8.4 |
mleap | 0.20.0 | mlflow-magro | 1.29.0 | multimétodo | 1.9 |
murmurhash | 1.0.8 | mypy-extensões | 0.4.3 | nbclient | 0.5.3 |
nbconvert | 6.1.0 | nbformato | 5.1.3 | ninho-asyncio | 1.5.1 |
rede x | 2.6.3 | nltk | 3.6.5 | notebook | 6.4.5 |
número | 0.54.1 | numpy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | embalagem | 21.0 | Pandas | 1.3.4 |
pandas-perfilamento | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | especificação de caminho | 0.9.0 | patia | 0.6.2 |
Patsy | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
phik | 0.12.2 | pickleshare | 0.7.5 | Travesseiro | 8.4.0 |
pip | 21.2.4 | diretórios de plataforma | 2.5.2 | Plotly | 5.9.0 |
pmdarima | 1.8.5 | pré-apresentado | 3.0.7 | kit de ferramentas de prompt | 3.0.20 |
Prophet | 1.0.1 | protobuf | 3.19.4 | psutil | 5.8.0 |
psycopg2 | 2.9.3 | ptyprocess | 0.7.0 | pyarrow | 7.0.0 |
pyasn1 | 0.4.8 | módulos pyasn1 | 0.2.8 | pybind11 | 2.10.0 |
pycparser | 2.20 | pydântico | 1.9.2 | Pigmentos | 2.10.0 |
PyGObject | 3.36.0 | PyJWT | 2.5.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | pyodbc | 4.0.31 | pyparsing | 3.0.4 |
pirrizante | 0.18.0 | pystan | 2.19.1.1 | Python-dateutil | 2.8.2 |
Editor Python | 1.0.4 | pytz | 2021.3 | PyWavelets | 1.1.1 |
PyYAML | 6.0 | pyzmq | 22.2.1 | regex | 2021.8.3 |
solicitações | 2.26.0 | requests-oauthlib | 1.3.1 | solicitações-socket unix | 0.2.0 |
rsa | 4,9 | s3transfer | 0.5.2 | scikit-learn | 0.24.2 |
scipy | 1.7.1 | nascido no mar | 0.11.3 | Send2Trash | 1.8.0 |
ferramentas de configuração | 58.0.4 | setuptools-git | 1.2 | forma | 0.41.0 |
JSON simples | 3.17.6 | seis | 1.16.0 | fatiador | 0.0.7 |
aberto inteligente | 5.2.1 | mapa de memória | 5.0.0 | espacial | 3.4.1 |
legado espacial | 3.0.10 | registradores spacy | 1.0.3 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.2 | sério | 2.4.4 | ssh-import-id | 5.10 |
modelos estatísticos | 0.12.2 | tabular | 0.8.9 | emaranhado-em-unicode | 0.1.0 |
tenacidade | 8.0.1 | TensorBoard | 2.9.1 | servidor de dados do TensorBoard | 0.6.1 |
Perfil do plugin TensorBoard | 2.8.0 | TensorBoard-plugin-wit | 1.8.1 | TensorFlow | 2.9.1 |
estimador tensorflow | 2.9.0 | tensorflow-io-GCS-sistema de arquivos | 0.27.0 | termcolor | 2.0.1 |
terminado | 0.9.4 | caminho de teste | 0.5.0 | fino | 8.1.2 |
threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 | tokenizadores | 0.12.1 |
tomli | 2.0.1 | tocha | 1.12.1+cu113 | visão de tocha | 0,13,1+cu113 |
tornado | 6.1 | tqdm | 4.62.3 | traços | 5.1.0 |
transformadores | 4.21.2 | digitador | 0.4.2 | extensões de digitação | 3.10.0.2 |
ujson | 4.0.2 | atualizações não assistidas | 0,1 | urllib3 | 1.26.7 |
ambiente virtual | 20.8.0 | visões | 0.7.4 | wasabi | 0.10.1 |
largura do wc | 0.2.5 | codificações web | 0.5.1 | cliente websocket | 1.3.1 |
Ferramentas | 2.0.2 | Python wheel | 0.37.0 | widgetsnbextension | 3.6.0 |
embrulhado | 1.12.1 | xgboost | 1.6.2 | zíper | 3.6.0 |
Biblioteca R
A biblioteca R é idêntica à biblioteca R do Databricks Runtime 11.3 LTS.
BibliotecaJava e Scala ( cluster Scala 2.12)
Além das bibliotecas Java e Scala presentes no Databricks Runtime 11.3 LTS, Databricks Runtime 11.3 LTS ML contém os seguintes arquivos JAR:
clusters de CPU
ID do grupo | ID do artefato | Versão |
|---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mlea | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-spark_2.12 | 1.6.2 |
ml.dmlc | xgboost4j_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | cliente mlflow | 1.29.0 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
clusters de GPUs
ID do grupo | ID do artefato | Versão |
|---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mlea | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.6.2 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | cliente mlflow | 1.29.0 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |