Databricks Runtime 10.4 para aprendizado de máquina (EoS) LTS
O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.
O Databricks Runtime 10.4 LTS for Machine Learning oferece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 10.4 LTS (EoS). Databricks Runtime ML Contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, e XGBoost. Databricks Runtime ML inclui AutoMLuma ferramenta para treinar automaticamente o pipeline de aprendizado de máquina. O Databricks Runtime ML também oferece suporte ao treinamento de aprendizagem profunda distribuída usando o Horovod.
Para obter mais informações, incluindo instruções para criar um cluster Databricks Runtime ML , consulte AI e aprendizado de máquina em Databricks.
Estas notas sobre a versão podem incluir referências a recursos que não estão disponíveis no Google Cloud a partir desta versão.
Para ver as notas sobre a versão das versões do site Databricks Runtime que chegaram ao fim do suporte (EoS), consulte Fim do suporte Databricks Runtime notas sobre a versão. As versões do EoS Databricks Runtime foram retiradas e podem não ser atualizadas.
Novos recursos e melhorias
O Databricks Runtime 10.4 LTS ML foi desenvolvido com base no Databricks Runtime 10.4 LTS. Para obter informações sobre as novidades em Databricks Runtime 10.4 LTS, incluindo Apache Spark MLlib e SparkR, consulte as notas sobre a versão Databricks Runtime 10.4 LTS (EoS).
Aprimoramentos no AutoML
Os seguintes aprimoramentos foram feitos no AutoML.
O AutoML está geralmente disponível
A partir do Databricks Runtime 10.4 LTS ML, o AutoML está disponível de forma geral.
Imputação de valores faltantes
Agora você pode especificar como os valores nulos são imputados. Em default, AutoML seleciona um método de imputação com base no tipo e no conteúdo da coluna. Consulte Imputar valores ausentes para obter detalhes.).
Seleção de colunas da interface do usuário
Para problemas de classificação e regressão, agora o senhor pode usar a interface do usuário, além da API, para especificar colunas que o AutoML deve ignorar durante seus cálculos. Consulte Seleção de colunas.
Novo tipo de dados
O AutoML agora suporta tipos de matriz numérica.
Localização personalizada do Notebook e do experimento gerados
Agora, o senhor pode especificar um local no site workspace onde o AutoML deve salvar o Notebook e os experimentos gerados. Use o parâmetro experiment_dir
. Consulte a referência da API Python do AutoML.
Aprimoramentos no Databricks recurso Store
Os seguintes aprimoramentos foram feitos no Databricks recurso Store.
- Agora o senhor pode registrar uma tabelaDelta existente como uma tabela de recurso.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 10.4 LTS ML difere do Databricks Runtime 10.4 LTS da seguinte forma:
- DBUtils : Databricks Runtime ML não inclui utilidades de biblioteca (dbutils.biblioteca) (legado). Em vez disso, use
%pip
comando. NotebookConsulte -scoped Pythonbiblioteca. - Para o clustering de GPU, o site Databricks Runtime ML inclui a seguinte biblioteca de GPUs NVIDIA:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
biblioteca
As seções a seguir listam as bibliotecas incluídas em Databricks Runtime 10.4 LTS ML que diferem daquelas incluídas em Databricks Runtime 10.4 LTS.
Nesta secção:
- Biblioteca de primeira linha
- Bibliotecas Python
- R biblioteca
- Java e Scala biblioteca (Scala 2.12 clustering)
Biblioteca de primeira linha
Databricks Runtime 10.4 LTS ML inclui as seguintes bibliotecas de primeira linha:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python biblioteca
Databricks Runtime 10.4 LTS ML usa o Virtualenv para o gerenciamento do pacote Python e inclui muitos pacotes populares ML.
Além do pacote especificado nas seções a seguir, Databricks Runtime 10.4 LTS ML também inclui o seguinte pacote:
- Hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
Python biblioteca sobre clustering de CPU
Para reproduzir o ambiente Databricks Runtime ML Python em seu ambiente virtual local Python, download o arquivo requirements-10.4.txt e execute pip install -r requirements-10.4.txt
. Esse comando instala todos os códigos abertos de biblioteca que o site Databricks Runtime ML usa, mas não instala a biblioteca desenvolvida pelo site Databricks, como databricks-automl
, databricks-feature-store
, ou o fork Databricks do site hyperopt
.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
abl-py | 0.11.0 | Antergos Linux | 2015.10 (versão ISO) | apronta | 1.4.4 |
argônio-2-cffi | 20.1.0 | pastor | 0.8.1 | atunparse | 1.6.3 |
gerador assíncrono | 1,10 | atrai | 20,3,0 | chamada de volta | 0.2.0 |
bcriptar | 3.2.0 | bidita | 0,21,4 | cândida | 3.3.0 |
blis | 0.7.4 | boto3 | 1,16.7 | botocore | 1.19,7 |
ferramentas de cache | 4.2.4 | catálogo | 2.0.6 | certifi | 2020.12,5 |
caffi | 1,14.5 | chardet | 4.0.0 | clique | 7.1.2 |
salmoura | 1.6.0 | cmdstanpy | 0,9,68 | analisador de configuração | 5.0.1 |
data de conversão | 2.3.2 | criptografia | 3.4.7 | ciclador | 0.10.0 |
cimem | 2.0.5 | Cython | 0,29,23 | databricks-automl-runtime | 0.2.6 |
Databricks-CLI | 0,16.3 | dbl-tempo | 0.1.2 | dbus-Python | 1.2.16 |
decorador | 5.0.6 | xml desfundido | 0.7.1 | endro | 0.3.2 |
cache em disco | 5.2.1 | distlib | 0.3.4 | informação da distribuição | 0,23 ubuntu 1 |
pontos de entrada | 0,3 | efema | 4.1.3 | visão geral das facetas | 1.0.0 |
texto rápido | 0.9.2 | bloqueio de arquivo | 3.0.12 | Frasco | 1.1.2 |
tampões planos | 2,0 | fsspec | 0.9.0 | futuro | 0,18.2 |
ímpeto | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
autenticação do Google | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grócio | 1,39,0 | unicórnio | 20,0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | conversor híjri | 2.2.3 | férias | 0,12 |
Horovod | 0,23,0 | html/min | 0.1.12 | abraçando o face-hub | 0.1.2 |
Índia | 2,10 | Hash de imagem | 4.2.1 | aprendizado desequilibrado | 0.8.1 |
importlib-metadados | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22,0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodato | 0.6.0 |
é perigoso | 1.1.0 | jedi | 0,17.2 | Jinja 2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
esquema json | 3.2.0 | cliente jupyter | 6.1.12 | núcleo jupyter | 4.7.1 |
pigmentos jupyterlab | 0.1.2 | widgets jupyterlab | 1.0.0 | Keras | 2.8.0 |
Keras-Pré-processamento | 1.1.2 | solucionador de kiwi | 1.3.1 | coalas | 1.8.2 |
calendário lunar coreano | 0.2.1 | códigos de idioma | 3.3.0 | libclang | 13.0.0 |
LightGBM | 3.3.2 | llvmlite | 0,38,0 | Calendário lunar | 0,0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
Matplotlib | 3.4.2 | faltando não | 0.5.1 | confundir | 0,8.4 |
pular | 0,18.1 | malflow-skinny | 1.24.0 | multimétodo | 1.7 |
murmurar | 1.0.5 | cliente nb | 0.5.3 | nbconvert | 6.0.7 |
formato nb | 5.1.3 | nest-assíncio | 1.5.1 | redes | 2,5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0,55,1 |
entorpecido | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
fazendo às malas | 21,3 | Pandas | 1.2.4 | perfil de pandas | 3.1.0 |
filtros pandóicos | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.0 | bode expiatório | 0.5.1 | petastorme | 0,11.4 |
esperar | 4.8.0 | phik | 0.12.0 | picles | 0.7.5 |
Travesseiro | 8.2.0 | pip | 21.0.1 | Plotly | 5.5.0 |
pmdarima | 1.8.4 | pressionado | 3.0.5 | cliente prometheus | 0.10.1 |
kit de ferramentas de aviso | 3.0.17 | Prophet | 1.0.1 | protobuf | 3.17.2 |
pistila | 5.8.0 | psycopg2 | 2.8.5 | processo pty | 0.7.0 |
flecha | 4.0.0 | pyasn1 | 0.4.8 | módulos pyasn1 | 0.2.8 |
pybind11 | 2.9.1 | pycparser | 2,20 | pidântico | 1.8.2 |
Pigmentos | 2.8.1 | Objeto PYG | 3,36,0 | Pymeeus | 0.5.11 |
PyNaCL | 1.4.0 | pyodbc | 4,0.30 | análise de pipa | 2.4.7 |
persistente | 0,17.3 | pystan | 2.19.1.1 | Python-apt | 2.0.0+ubuntu0.20.4.7 |
Python-dateutil | 2.8.1 | Python-editor | 1.0.4 | Python-engineio | 4.3.0 |
Python-socketio | 5.4.1 | pytz | 2020,5 | PY Wavelets | 1.1.1 |
PyYAML | 5.4.1 | pizma | 20.0.0 | regex | 2021.4.4 |
pedidos | 2.25.1 | solicitações-oauthlib | 1.3.0 | solicitações - soquete unix | 0.2.0 |
rsa | 4.7.2 | transferência s3 | 0.3.7 | sacremoses | 0,0,46 |
scikit-learn | 0,24,1 | pegajoso | 1.6.2 | marítimo | 0.11.1 |
Enviar 2 lixeiras | 1.5.0 | ferramentas de configuração | 52,0,0 | ferramentas de configuração - git | 1.2 |
forma | 0,40,0 | simplejson | 3.17.2 | seis | 1,15.0 |
fatiador | 0.0.7 | aberto de forma inteligente | 5.2.0 | tapa | 3.0.5 |
espaçoso | 3.2.1 | legado espacial | 3.0.8 | registradores espaciais | 1.0.1 |
distribuidor de fluxo tensor de faísca | 1.0.0 | sqlparse | 0.4.1 | sensatamente | 2.4.1 |
ID de importação ssh | 5,10 | modelos de estatísticas | 0.12.2 | tabular | 0,8.7 |
emaranhado em unicode | 0.1.0 | tenacidade | 6.2.0 | TensorBoard | 2.8.0 |
TensorBoard-servidor de dados | 0.6.1 | TensorBoard-perfil do plugin | 2.5.0 | TensorBoard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | estimador de fluxo tensor | 2.8.0 | tensorflow-io-GCS-filesystem | 0,24,0 |
cor do termo | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
tf-estimator-nightly | 2.8.0.dev2021122109 | uma coisa | 8.0.12 | threadpool ctl | 2.1.0 |
tokenizadores | 0.10.3 | lanterna | 1.10.2+CPU | visão de tocha | 0.11.3+cpu |
tornado | 6.1 | tqdm | 4,59,0 | almôndegas | 5.0.5 |
transformadores | 4.16.2 | digitar | 0.3.2 | extensões de digitação | 3.7.4.3 |
junhão | 4.0.2 | atualizações autônomas | 0,1 | urllib3 | 1,25.11 |
ambiente virtual | 20.4.1 | visões | 0.7.4 | wasabi | 0.8.2 |
largura do wc | 0.2.5 | codificações da web | 0.5.1 | cliente websocket | 0,57,0 |
Utilitário | 1.0.1 | Python wheel | 0,36,2 | extensão widgetsnb | 3.5.1 |
embrulhar | 1.12.1 | xgboost | 1.5.2 | zíper | 3.4.1 |
Python biblioteca sobre clustering de GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
abl-py | 0.11.0 | Antergos Linux | 2015.10 (versão ISO) | apronta | 1.4.4 |
argônio-2-cffi | 20.1.0 | pastor | 0.8.1 | atunparse | 1.6.3 |
gerador assíncrono | 1,10 | atrai | 20,3,0 | chamada de volta | 0.2.0 |
bcriptar | 3.2.0 | bidita | 0,21,4 | cândida | 3.3.0 |
blis | 0.7.4 | boto3 | 1,16.7 | botocore | 1.19,7 |
ferramentas de cache | 4.2.4 | catálogo | 2.0.6 | certifi | 2020.12,5 |
caffi | 1,14.5 | chardet | 4.0.0 | clique | 7.1.2 |
salmoura | 1.6.0 | cmdstanpy | 0,9,68 | analisador de configuração | 5.0.1 |
data de conversão | 2.3.2 | criptografia | 3.4.7 | ciclador | 0.10.0 |
cimem | 2.0.5 | Cython | 0,29,23 | databricks-automl-runtime | 0.2.6 |
Databricks-CLI | 0,16.3 | dbl-tempo | 0.1.2 | dbus-Python | 1.2.16 |
decorador | 5.0.6 | xml desfundido | 0.7.1 | endro | 0.3.2 |
cache em disco | 5.2.1 | distlib | 0.3.4 | informação da distribuição | 0,23 ubuntu 1 |
pontos de entrada | 0,3 | efema | 4.1.3 | visão geral das facetas | 1.0.0 |
texto rápido | 0.9.2 | bloqueio de arquivo | 3.0.12 | Frasco | 1.1.2 |
tampões planos | 2,0 | fsspec | 0.9.0 | futuro | 0,18.2 |
ímpeto | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
autenticação do Google | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grócio | 1,39,0 | unicórnio | 20,0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | conversor híjri | 2.2.3 | férias | 0,12 |
Horovod | 0,23,0 | html/min | 0.1.12 | abraçando o face-hub | 0.1.2 |
Índia | 2,10 | Hash de imagem | 4.2.1 | aprendizado desequilibrado | 0.8.1 |
importlib-metadados | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22,0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodato | 0.6.0 |
é perigoso | 1.1.0 | jedi | 0,17.2 | Jinja 2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
esquema json | 3.2.0 | cliente jupyter | 6.1.12 | núcleo jupyter | 4.7.1 |
pigmentos jupyterlab | 0.1.2 | widgets jupyterlab | 1.0.0 | Keras | 2.8.0 |
Keras-Pré-processamento | 1.1.2 | solucionador de kiwi | 1.3.1 | coalas | 1.8.2 |
calendário lunar coreano | 0.2.1 | códigos de idioma | 3.3.0 | libclang | 13.0.0 |
LightGBM | 3.3.2 | llvmlite | 0,38,0 | Calendário lunar | 0,0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
Matplotlib | 3.4.2 | faltando não | 0.5.1 | confundir | 0,8.4 |
pular | 0,18.1 | malflow-skinny | 1.24.0 | multimétodo | 1.7 |
murmurar | 1.0.5 | cliente nb | 0.5.3 | nbconvert | 6.0.7 |
formato nb | 5.1.3 | nest-assíncio | 1.5.1 | redes | 2,5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0,55,1 |
entorpecido | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
fazendo às malas | 21,3 | Pandas | 1.2.4 | perfil de pandas | 3.1.0 |
filtros pandóicos | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.0 | bode expiatório | 0.5.1 | petastorme | 0,11.4 |
esperar | 4.8.0 | phik | 0.12.0 | picles | 0.7.5 |
Travesseiro | 8.2.0 | pip | 21.0.1 | Plotly | 5.5.0 |
pmdarima | 1.8.4 | pressionado | 3.0.5 | kit de ferramentas de aviso | 3.0.17 |
Prophet | 1.0.1 | protobuf | 3.17.2 | pistila | 5.8.0 |
psycopg2 | 2.8.5 | processo pty | 0.7.0 | flecha | 4.0.0 |
pyasn1 | 0.4.8 | módulos pyasn1 | 0.2.8 | pybind11 | 2.9.1 |
pycparser | 2,20 | pidântico | 1.8.2 | Pigmentos | 2.8.1 |
Objeto PYG | 3,36,0 | Pymeeus | 0.5.11 | PyNaCL | 1.4.0 |
pyodbc | 4,0.30 | análise de pipa | 2.4.7 | persistente | 0,17.3 |
pystan | 2.19.1.1 | Python-apt | 2.0.0+ubuntu0.20.4.7 | Python-dateutil | 2.8.1 |
Python-editor | 1.0.4 | Python-engineio | 4.3.0 | Python-socketio | 5.4.1 |
pytz | 2020,5 | PY Wavelets | 1.1.1 | PyYAML | 5.4.1 |
pizma | 20.0.0 | regex | 2021.4.4 | pedidos | 2.25.1 |
solicitações-oauthlib | 1.3.0 | solicitações - soquete unix | 0.2.0 | rsa | 4.7.2 |
transferência s3 | 0.3.7 | sacremoses | 0,0,46 | scikit-learn | 0,24,1 |
pegajoso | 1.6.2 | marítimo | 0.11.1 | Enviar 2 lixeiras | 1.5.0 |
ferramentas de configuração | 52,0,0 | ferramentas de configuração - git | 1.2 | forma | 0,40,0 |
simplejson | 3.17.2 | seis | 1,15.0 | fatiador | 0.0.7 |
aberto de forma inteligente | 5.2.0 | tapa | 3.0.5 | espaçoso | 3.2.1 |
legado espacial | 3.0.8 | registradores espaciais | 1.0.1 | distribuidor de fluxo tensor de faísca | 1.0.0 |
sqlparse | 0.4.1 | sensatamente | 2.4.1 | ID de importação ssh | 5,10 |
modelos de estatísticas | 0.12.2 | tabular | 0,8.7 | emaranhado em unicode | 0.1.0 |
tenacidade | 6.2.0 | TensorBoard | 2.8.0 | TensorBoard-servidor de dados | 0.6.1 |
TensorBoard-perfil do plugin | 2.5.0 | TensorBoard-plugin-wit | 1.8.1 | TensorFlow | 2.8.0 |
estimador de fluxo tensor | 2.8.0 | tensorflow-io-GCS-filesystem | 0,24,0 | cor do termo | 1.1.0 |
terminado | 0.9.4 | caminho de teste | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
uma coisa | 8.0.12 | threadpool ctl | 2.1.0 | tokenizadores | 0.10.3 |
lanterna | 1,102+cu111 | visão de tocha | 0,11,3+cu111 | tornado | 6.1 |
tqdm | 4,59,0 | almôndegas | 5.0.5 | transformadores | 4.16.2 |
digitar | 0.3.2 | extensões de digitação | 3.7.4.3 | junhão | 4.0.2 |
atualizações autônomas | 0,1 | urllib3 | 1,25.11 | ambiente virtual | 20.4.1 |
visões | 0.7.4 | wasabi | 0.8.2 | largura do wc | 0.2.5 |
codificações da web | 0.5.1 | cliente websocket | 0,57,0 | Utilitário | 1.0.1 |
Python wheel | 0,36,2 | extensão widgetsnb | 3.5.1 | embrulhar | 1.12.1 |
xgboost | 1.5.2 | zíper | 3.4.1 |
Spark pacote contendo os módulos Python
Spark pacote | Módulo Python | Versão |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3,2 |
R biblioteca
A biblioteca R é idêntica à biblioteca R em Databricks Runtime 10.4 LTS.
Java e biblioteca ( 2.12 clustering) Scala Scala
Além de Java e Scala biblioteca em Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contém os seguintes JARs:
Agrupamento de CPU
ID do grupo | ID do artefato | Versão |
---|---|---|
com.typesafe.akka | também conhecido como actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0,18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2,12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3,2 |
org.mlflow | cliente mlflow | 1.24.0 |
org.mlflow | faísca de fluxo | 1.24.0 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0,8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1,15.0 |
Agrupamento de GPU
ID do grupo | ID do artefato | Versão |
---|---|---|
com.typesafe.akka | também conhecido como actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0,18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2,12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3,2 |
org.mlflow | cliente mlflow | 1.24.0 |
org.mlflow | faísca de fluxo | 1.24.0 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0,8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1,15.0 |