Databricks Runtime 9.1 LTS para aprendizado de máquina
A Databricks lançou essa imagem e a declarou como Long Term Support (LTS) em setembro de 2021.
O Databricks Runtime 9.1 LTS for Machine Learning oferece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 9.1 LTS. Databricks Runtime ML Contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, e XGBoost. Databricks Runtime ML inclui AutoMLuma ferramenta para treinar automaticamente o pipeline de aprendizado de máquina. O Databricks Runtime ML também oferece suporte ao treinamento de aprendizagem profunda distribuída usando o Horovod.
LTS significa que essa versão está sob suporte de longo prazo . Consulte o ciclo de vida da versão do Databricks Runtime LTS.
Para obter mais informações, incluindo instruções para criar um cluster Databricks Runtime ML , consulte AI e aprendizado de máquina em Databricks.
Para ver as notas sobre a versão das versões do site Databricks Runtime que chegaram ao fim do suporte (EoS), consulte Fim do suporte Databricks Runtime notas sobre a versão. As versões do EoS Databricks Runtime foram retiradas e podem não ser atualizadas.
Novos recursos e melhorias
AutoML
As seguintes melhorias estão disponíveis no Databricks Runtime 9.1 LTS MLe acima.
AutoML suporta um conjunto de dados maior por amostragem
AutoML agora coleta amostras de conjuntos de dados que podem exceder as restrições de memória, permitindo a execução em conjuntos de dados maiores com menos risco de erros de falta de memória. Para obter detalhes, consulte Amostragem de grandes conjuntos de dados.
O AutoML pré-processa colunas com base no tipo semântico
O AutoML detecta determinadas colunas que têm um tipo semântico diferente do tipo de dados Spark ou pandas. O AutoML então converte e aplica passos de pré-processamento de dados com base no tipo semântico detectado. Especificamente, o AutoML realiza as seguintes conversões:
- As colunas de strings e inteiros que representam dados de data ou carimbo de data/hora são convertidas em um tipo de carimbo de data/hora.
- As colunas de strings que representam dados numéricos são convertidas em um tipo numérico.
Aprimoramentos no Notebook gerado pelo site AutoML
As passos de pré-processamento para colunas de data e carimbo de data/hora agora estão incorporadas no pacote databricks-automl-runtime
, simplificando o Notebook gerado pelo treinamento do AutoML. databricks-automl-runtime
está incluído no Databricks Runtime 9.1 LTS MLe acima e também está disponível no PyPI.
loja de recursos
As seguintes melhorias estão disponíveis no Databricks Runtime 9.1 LTS MLe acima.
- Ao criar um TrainingSet, agora você pode definir
label=None
para oferecer suporte a aplicativos de aprendizado não supervisionado. - Agora o senhor pode especificar mais de um recurso em um único
FeatureLookup
. - Agora o senhor pode especificar um caminho personalizado para as tabelas de recurso. Use o parâmetro
path
emcreate_feature_table()
. O endereço default é o local do banco de dados. - Novos tipos de dados PySpark suportados: ArrayType e ShortType.
Mlflow
Os seguintes aprimoramentos estão disponíveis a partir da versão 1.20.2 do Mlflow, que está incluída no Databricks Runtime 9.1 LTS ML.
- O autologging para o scikit-learn agora registra métricas pós-treinamento sempre que uma API de avaliação do scikit-learn, como
sklearn.metrics.mean_squared_error
, é chamada. - O autologging para PySpark ML agora registra métricas pós-treinamento sempre que uma API de avaliação de modelo, como
Evaluator.evaluate()
, é chamada. mlflow.*.log_model
emlflow.*.save_model
agora têm argumentospip_requirements
eextra_pip_requirements
para que o senhor possa especificar diretamente os requisitos de pip do modelo para log ou salvar.mlflow.*.log_model
emlflow.*.save_model
agora inferem automaticamente os requisitos de pip do modelo para log ou salvar com base no ambiente software atual.stdMetrics
agora são registradas como métricas de treinamento durante o autologging do PySpark CrossValidator.- O autologging do PyTorch Lightning agora oferece suporte à execução distribuída.
Databricks Autologging (Prévia pública)
O Databricks Autologging Public Preview foi expandido para novas regiões. Databricks Autologging é uma solução sem código que fornece acompanhamento automático de experimentos para sessões de treinamento de aprendizado de máquina em Databricks. Com o Databricks Autologging, os parâmetros do modelo, as métricas, os arquivos e as informações de linhagem são capturados automaticamente quando o senhor treina modelos a partir de uma variedade de bibliotecas populares de aprendizado de máquina. As sessões de treinamento são registradas como MLflow acompanhamento execução. Os arquivos de modelo também são rastreados para que o senhor possa facilmente log para o MLflow Model Registry e implantá-los para pontuação de tempo real com MLflow servindo modelo.
Para obter mais informações sobre Databricks Autologging, consulte Databricks Autologging.
Principais alterações no ambiente do Databricks Runtime ML Python
Python pacote atualizado
- automl 1.1.1 = > 1,2,1
- recurso 0.3.3 = > 0,3.4,1
- feriados 0.10.5.2 = > 0.11.2
- Keras 2.5.0 => 2.6.0
- mlflow 1.19.0 = > 1.20,2
- petastorm 0.11.1 = > 0.11.2
- trama 4.14.3 = > 5.1.0
- distribuidor de fluxo tensor de faísca 0.1.0 = > 1,0,0
- sparkdl 2.2.0_db1 = > 2.2.0_db3
- TensorBoard 2.5.0 => 2.6.0
- tensorflow 2.5.0 = > 2.6.0
Python pacote adicionado
- databricks-automl-runtime 0.1.0
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 9.1 LTS ML difere do Databricks Runtime 9.1 LTS da seguinte forma:
- DBUtils : Databricks Runtime ML não inclui utilidades de biblioteca (dbutils.biblioteca) (legado). Em vez disso, use
%pip
comando. NotebookConsulte -scoped Pythonbiblioteca. - Para o clustering de GPU, o site Databricks Runtime ML inclui a seguinte biblioteca de GPUs NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
biblioteca
As seções a seguir listam as bibliotecas incluídas em Databricks Runtime 9.1 LTS ML que diferem daquelas incluídas em Databricks Runtime 9.1 LTS.
Nesta secção:
- Biblioteca de primeira linha
- Bibliotecas Python
- R biblioteca
- Java e Scala biblioteca (Scala 2.12 clustering)
Biblioteca de primeira linha
Databricks Runtime 9.1 LTS ML inclui as seguintes bibliotecas de primeira linha:
- AutoML
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python biblioteca
Databricks Runtime 9.1 LTS ML usa o Virtualenv para o gerenciamento do pacote Python e inclui muitos pacotes populares ML.
Além do pacote especificado nas seções a seguir, Databricks Runtime 9.1 LTS ML também inclui o seguinte pacote:
- Hyperopt 0.2.5.db2
- sparkdl 2.2.0_db3
- recurso 0.3.4.1
- automl 1.2.1
Python biblioteca sobre clustering de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
abl-py | 0.11.0 | Antergos Linux | 2015.10 (versão ISO) | apronta | 1.4.4 |
argônio-2-cffi | 20.1.0 | pastor | 0.8.1 | atunparse | 1.6.3 |
gerador assíncrono | 1,10 | atrai | 20,3,0 | chamada de volta | 0.2.0 |
bcriptar | 3.2.0 | cândida | 3.3.0 | boto3 | 1,16.7 |
botocore | 1.19,7 | Gargalo | 1.3.2 | ferramentas de cache | 4.2.2 |
certifi | 2020.12,5 | caffi | 1,14.5 | chardet | 4.0.0 |
ressoar | 5,0 | clique | 7.1.2 | salmoura | 1.6.0 |
cmdstanpy | 0,9,68 | analisador de configuração | 5.0.1 | data de conversão | 2.3.2 |
criptografia | 3.4.7 | ciclador | 0.10.0 | Cython | 0,29,23 |
databricks-automl-runtime | 0.1.0 | Databricks-CLI | 0,14.3 | dbus-Python | 1.2.16 |
decorador | 5.0.6 | xml desfundido | 0.7.1 | endro | 0.3.2 |
cache em disco | 5.2.1 | distlib | 0.3.2 | informação da distribuição | 0,23 ubuntu 1 |
pontos de entrada | 0,3 | efema | 4.0.0.2 | visão geral das facetas | 1.0.0 |
bloqueio de arquivo | 3.0.12 | Frasco | 1.1.2 | tampões planos | 1,12 |
fsspec | 0.9.0 | futuro | 0,18.2 | ímpeto | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | autenticação do Google | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grócio | 1,39,0 |
unicórnio | 20,0.4 | h5py | 3.1.0 | conversor híjri | 2.2.1 |
férias | 0.11.2 | Horovod | 0,22,1 | html/min | 0.1.12 |
Índia | 2,10 | Hash de imagem | 4.2.1 | importlib-metadados | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22,0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodato | 0.6.0 | é perigoso | 1.1.0 |
jedi | 0,17.2 | Jinja 2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | esquema json | 3.2.0 |
cliente jupyter | 6.1.12 | núcleo jupyter | 4.7.1 | pigmentos jupyterlab | 0.1.2 |
widgets jupyterlab | 1.0.0 | Keras | 2.6.0 | Keras-Pré-processamento | 1.1.2 |
solucionador de kiwi | 1.3.1 | coalas | 1.8.1 | calendário lunar coreano | 0.2.1 |
LightGBM | 3.1.1 | llvmlite | 0,37,0 | Calendário lunar | 0,0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
Matplotlib | 3.4.2 | faltando não | 0.5.0 | confundir | 0,8.4 |
pular | 0,17.0 | malflow-skinny | 1.20.2 | multimétodo | 1.4 |
cliente nb | 0.5.3 | nbconvert | 6.0.7 | formato nb | 5.1.3 |
nest-assíncio | 1.5.1 | redes | 2,5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0,54,0 | entorpecido | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | fazendo às malas | 20,9 |
Pandas | 1.2.4 | perfil de pandas | 3.0.0 | filtros pandóicos | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | bode expiatório | 0.5.1 |
petastorme | 0.11.2 | esperar | 4.8.0 | phik | 0.12.0 |
picles | 0.7.5 | Travesseiro | 8.2.0 | pip | 21.0.1 |
Plotly | 5.1.0 | cliente prometheus | 0.10.1 | kit de ferramentas de aviso | 3.0.17 |
Prophet | 1.0.1 | protobuf | 3.17.2 | pistila | 5.8.0 |
psycopg2 | 2.8.5 | processo pty | 0.7.0 | flecha | 4.0.0 |
pyasn1 | 0.4.8 | módulos pyasn1 | 0.2.8 | pycparser | 2,20 |
pidântico | 1.8.2 | Pigmentos | 2.8.1 | Objeto PYG | 3,36,0 |
Pymeeus | 0.5.11 | PyNaCL | 1.3.0 | pyodbc | 4,0.30 |
análise de pipa | 2.4.7 | persistente | 0,17.3 | pystan | 2.19.1.1 |
Python-apt | 2.0.0+ubuntu0.20.4.6 | Python-dateutil | 2.8.1 | Python-editor | 1.0.4 |
pytz | 2020,5 | PY Wavelets | 1.1.1 | PyYAML | 5.4.1 |
pizma | 20.0.0 | regex | 2021.4.4 | pedidos | 2.25.1 |
solicitações-oauthlib | 1.3.0 | solicitações - soquete unix | 0.2.0 | rsa | 4.7.2 |
transferência s3 | 0.3.7 | scikit-learn | 0,24,1 | pegajoso | 1.6.2 |
marítimo | 0.11.1 | Enviar 2 lixeiras | 1.5.0 | ferramentas de configuração | 52,0,0 |
ferramentas de configuração - git | 1.2 | forma | 0,39,0 | simplejson | 3.17.2 |
seis | 1,15.0 | fatiador | 0.0.7 | tapa | 3.0.5 |
distribuidor de fluxo tensor de faísca | 1.0.0 | sqlparse | 0.4.1 | ID de importação ssh | 5,10 |
modelos de estatísticas | 0.12.2 | tabular | 0,8.7 | emaranhado em unicode | 0.1.0 |
tenacidade | 6.2.0 | TensorBoard | 2.6.0 | TensorBoard-servidor de dados | 0.6.1 |
TensorBoard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.6.0 | estimador de fluxo tensor | 2.6.0 |
cor do termo | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
threadpool ctl | 2.1.0 | lanterna | 1.9.0+CPU | visão de tocha | 0.10.0+cpu |
tornado | 6.1 | tqdm | 4,59,0 | almôndegas | 5.0.5 |
extensões de digitação | 3.7.4.3 | junhão | 4.0.2 | atualizações autônomas | 0,1 |
urllib3 | 1,25.11 | ambiente virtual | 20.4.1 | visões | 0.7.1 |
largura do wc | 0.2.5 | codificações da web | 0.5.1 | cliente websocket | 0,57,0 |
Utilitário | 1.0.1 | Python wheel | 0,36,2 | extensão widgetsnb | 3.5.1 |
embrulhar | 1.12.1 | xgboost | 1.4.2 | zíper | 3.4.1 |
Python biblioteca sobre clustering de GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
abl-py | 0.11.0 | Antergos Linux | 2015.10 (versão ISO) | apronta | 1.4.4 |
argônio-2-cffi | 20.1.0 | pastor | 0.8.1 | atunparse | 1.6.3 |
gerador assíncrono | 1,10 | atrai | 20,3,0 | chamada de volta | 0.2.0 |
bcriptar | 3.2.0 | cândida | 3.3.0 | boto3 | 1,16.7 |
botocore | 1.19,7 | Gargalo | 1.3.2 | ferramentas de cache | 4.2.2 |
certifi | 2020.12,5 | caffi | 1,14.5 | chardet | 4.0.0 |
ressoar | 5,0 | clique | 7.1.2 | salmoura | 1.6.0 |
cmdstanpy | 0,9,68 | analisador de configuração | 5.0.1 | data de conversão | 2.3.2 |
criptografia | 3.4.7 | ciclador | 0.10.0 | Cython | 0,29,23 |
databricks-automl-runtime | 0.1.0 | Databricks-CLI | 0,14.3 | dbus-Python | 1.2.16 |
decorador | 5.0.6 | xml desfundido | 0.7.1 | endro | 0.3.2 |
cache em disco | 5.2.1 | distlib | 0.3.2 | informação da distribuição | 0,23 ubuntu 1 |
pontos de entrada | 0,3 | efema | 4.0.0.2 | visão geral das facetas | 1.0.0 |
bloqueio de arquivo | 3.0.12 | Frasco | 1.1.2 | tampões planos | 1,12 |
fsspec | 0.9.0 | futuro | 0,18.2 | ímpeto | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | autenticação do Google | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grócio | 1,39,0 |
unicórnio | 20,0.4 | h5py | 3.1.0 | conversor híjri | 2.2.1 |
férias | 0.11.2 | Horovod | 0,22,1 | html/min | 0.1.12 |
Índia | 2,10 | Hash de imagem | 4.2.1 | importlib-metadados | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22,0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodato | 0.6.0 | é perigoso | 1.1.0 |
jedi | 0,17.2 | Jinja 2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | esquema json | 3.2.0 |
cliente jupyter | 6.1.12 | núcleo jupyter | 4.7.1 | pigmentos jupyterlab | 0.1.2 |
widgets jupyterlab | 1.0.0 | Keras | 2.6.0 | Keras-Pré-processamento | 1.1.2 |
solucionador de kiwi | 1.3.1 | coalas | 1.8.1 | calendário lunar coreano | 0.2.1 |
LightGBM | 3.1.1 | llvmlite | 0,37,0 | Calendário lunar | 0,0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
Matplotlib | 3.4.2 | faltando não | 0.5.0 | confundir | 0,8.4 |
pular | 0,17.0 | malflow-skinny | 1.20.2 | multimétodo | 1.4 |
cliente nb | 0.5.3 | nbconvert | 6.0.7 | formato nb | 5.1.3 |
nest-assíncio | 1.5.1 | redes | 2,5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0,54,0 | entorpecido | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | fazendo às malas | 20,9 |
Pandas | 1.2.4 | perfil de pandas | 3.0.0 | filtros pandóicos | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | bode expiatório | 0.5.1 |
petastorme | 0.11.2 | esperar | 4.8.0 | phik | 0.12.0 |
picles | 0.7.5 | Travesseiro | 8.2.0 | pip | 21.0.1 |
Plotly | 5.1.0 | kit de ferramentas de aviso | 3.0.17 | Prophet | 1.0.1 |
protobuf | 3.17.2 | pistila | 5.8.0 | psycopg2 | 2.8.5 |
processo pty | 0.7.0 | flecha | 4.0.0 | pyasn1 | 0.4.8 |
módulos pyasn1 | 0.2.8 | pycparser | 2,20 | pidântico | 1.8.2 |
Pigmentos | 2.8.1 | Objeto PYG | 3,36,0 | Pymeeus | 0.5.11 |
PyNaCL | 1.3.0 | pyodbc | 4,0.30 | análise de pipa | 2.4.7 |
persistente | 0,17.3 | pystan | 2.19.1.1 | Python-apt | 2.0.0+ubuntu0.20.4.6 |
Python-dateutil | 2.8.1 | Python-editor | 1.0.4 | pytz | 2020,5 |
PY Wavelets | 1.1.1 | PyYAML | 5.4.1 | pizma | 20.0.0 |
regex | 2021.4.4 | pedidos | 2.25.1 | solicitações-oauthlib | 1.3.0 |
solicitações - soquete unix | 0.2.0 | rsa | 4.7.2 | transferência s3 | 0.3.7 |
scikit-learn | 0,24,1 | pegajoso | 1.6.2 | marítimo | 0.11.1 |
Enviar 2 lixeiras | 1.5.0 | ferramentas de configuração | 52,0,0 | ferramentas de configuração - git | 1.2 |
forma | 0,39,0 | simplejson | 3.17.2 | seis | 1,15.0 |
fatiador | 0.0.7 | tapa | 3.0.5 | distribuidor de fluxo tensor de faísca | 1.0.0 |
sqlparse | 0.4.1 | ID de importação ssh | 5,10 | modelos de estatísticas | 0.12.2 |
tabular | 0,8.7 | emaranhado em unicode | 0.1.0 | tenacidade | 6.2.0 |
TensorBoard | 2.6.0 | TensorBoard-servidor de dados | 0.6.1 | TensorBoard-plugin-wit | 1.8.0 |
TensorFlow | 2.6.0 | estimador de fluxo tensor | 2.6.0 | cor do termo | 1.1.0 |
terminado | 0.9.4 | caminho de teste | 0.4.4 | threadpool ctl | 2.1.0 |
lanterna | 1,9.0+cu111 | visão de tocha | 0,10,0+cu111 | tornado | 6.1 |
tqdm | 4,59,0 | almôndegas | 5.0.5 | extensões de digitação | 3.7.4.3 |
junhão | 4.0.2 | atualizações autônomas | 0,1 | urllib3 | 1,25.11 |
ambiente virtual | 20.4.1 | visões | 0.7.1 | largura do wc | 0.2.5 |
codificações da web | 0.5.1 | cliente websocket | 0,57,0 | Utilitário | 1.0.1 |
Python wheel | 0,36,2 | extensão widgetsnb | 3.5.1 | embrulhar | 1.12.1 |
xgboost | 1.4.2 | zíper | 3.4.1 |
Spark pacote contendo os módulos Python
Spark pacote | Módulo Python | Versão |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
R biblioteca
A biblioteca R é idêntica à biblioteca R em Databricks Runtime 9.1 LTS.
Java e biblioteca ( 2.12 clustering) Scala Scala
Além de Java e Scala biblioteca em Databricks Runtime 9.1 LTS, Databricks Runtime 9.1 LTS ML contém os seguintes JARs:
Agrupamento de CPU
ID do grupo | ID do artefato | Versão |
---|---|---|
com.typesafe.akka | também conhecido como actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0,17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2,12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | cliente mlflow | 1.20.2 |
org.mlflow | faísca de fluxo | 1.20.2 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0,8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1,15.0 |
Agrupamento de GPU
ID do grupo | ID do artefato | Versão |
---|---|---|
com.typesafe.akka | também conhecido como actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0,17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2,12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | cliente mlflow | 1.20.2 |
org.mlflow | faísca de fluxo | 1.20.2 |
org.Scala-lang.modules | Scala-java8-compat_2.12 | 0,8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1,15.0 |