Pular para o conteúdo principal

Databricks Runtime 10,1 para (EoS) ML

nota

O suporte para essa versão do Databricks Runtime foi encerrado. Para saber a data do fim do suporte, consulte Histórico do fim do suporte. Para conhecer todas as versões compatíveis do site Databricks Runtime, consulte Databricks Runtime notas sobre as versões e a compatibilidade.

O Databricks Runtime 10.1 for Machine Learning oferece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 10.1 (EoS). Databricks Runtime ML Contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, e XGBoost. Ele também oferece suporte ao treinamento de aprendizagem profunda distribuída usando o Horovod.

Para obter mais informações, incluindo instruções para criar um cluster Databricks Runtime ML , consulte AI e aprendizado de máquina em Databricks.

nota

Estas notas sobre a versão podem incluir referências a recursos que não estão disponíveis no Google Cloud a partir desta versão.

Novos recursos e melhorias

O Databricks Runtime 10.1 ML foi desenvolvido com base no Databricks Runtime 10.1. Para obter informações sobre as novidades do Databricks Runtime 10.1, incluindo Apache Spark MLlib e SparkR, consulte as notas sobre a versão Databricks Runtime 10.1 (EoS).

Aprimoramentos do AutoML

No Databricks Runtime 10.1, o AutoML inclui detecção aprimorada de tipos semânticos, novo alerta para possíveis problemas de dados durante o treinamento, novos recursos para evitar modelos de ajuste excessivo e a capacidade de dividir cronologicamente a entrada dataset em conjuntos de treinamento, validação e teste.

Detecções adicionais de tipo semântico

O AutoML agora oferece suporte à detecção adicional de tipos semânticos:

  • As colunas numéricas que contêm rótulo categórico são tratadas como um tipo categórico.
  • Colunas de string que contêm texto em inglês são tratadas como uma feição de texto.

Agora o senhor também pode adicionar anotações para especificar um tipo de dados de coluna. Para obter detalhes, consulte Detecção de tipo semântico.

alerta durante o treinamento para possíveis problemas de dados

AutoML agora detecta e gera alertas para possíveis problemas com o site dataset. Exemplos de alerta incluem tipos de colunas não suportados e colunas de alta cardinalidade. Esses alertas aparecem na página do experimento sob o novo alerta tab. Informações adicionais sobre alerta estão incluídas no Data Exploration Notebook. Para obter mais informações, consulte executar o experimento e monitorar os resultados.

Redução do sobreajuste do modelo

Dois novos recursos reduzem as chances de ajuste excessivo de um modelo ao usar o AutoML:

  • O AutoML agora informa métricas de teste, além das métricas de validação e treinamento.
  • O AutoML agora usa a parada antecipada. Ele interrompe o treinamento e os modelos de ajuste se as métricas de validação não estiverem mais melhorando.

Dividir dataset em conjuntos de treinamento/validação/teste em ordem cronológica

Para problemas de classificação e regressão, o senhor pode dividir cronologicamente o site dataset em conjuntos de treinamento, validação e teste. Consulte Dividir dados em conjuntos de treinamento, validação e teste para obter detalhes.

Aprimoramentos no Databricks recurso Store

Databricks O recurso Store agora oferece suporte a tipos de dados adicionais para tabelas de recurso: BinaryType, DecimalType e MapType.

Mlflow

Os seguintes aprimoramentos estão disponíveis a partir da versão 1.21.0 do Mlflow, que está incluída no Databricks Runtime 10.1 ML.

  • [Modelos] Atualize a variante do modelo fastai para oferecer suporte a fastai v2 (2.4.1 e acima).
  • [Modelos] Introduzir uma variante de modelo mlflow.prophet para modelos de série temporal do Prophet.
  • [Pontuação] Corrige um erro de imposição de esquema que converte incorretamente o site strings em objetos datetime.

Hyperopt

SparkTrials agora suporta o parâmetro early_stopping_fn para fmin. O senhor pode usar a função de parada antecipada para especificar as condições em que o Hyperopt deve interromper o ajuste do hiperparâmetro antes que o número máximo de avaliações seja atingido. Por exemplo, você pode usar esse parâmetro para finalizar o ajuste se a função objetivo não estiver mais diminuindo. Para obter detalhes, consulte fmin().

Principais mudanças no ambiente do Databricks Runtime ML Python

Python pacote atualizado

  • automl 1.3.1 = > 1.4.1
  • recurso 0.3.4 = > 0,3,5
  • feriados 0.11.2 = > 0.11.3.1
  • Horovod 0.22.1 => 0.23.0
  • Hyperopt 0.2.5.db2 => 0.2.5.db4
  • aprendizado desequilibrado 0.8.0 = > 0.8.1
  • lightgbm 3.1.1 = > 3,3,0
  • fluxo de leite 1.20.2 = > 1,21,0
  • petastorm 0.11.2 = > 0.11.3
  • trama 5.1.0 = > 5,3,0
  • PyTorch 1.9.0 => 1.9.1
  • espacial 3.1.2 = > 3,13
  • sparkdl 2.2.0_db3 = > 2.2.0_db4
  • torchvision 0.10.0 = > 0.10.1
  • transformadores 4.9.2 = > 4.11.3

Python pacote adicionado

  • texto rápido = > 0.9.2
  • TensorBoard-plugin-profile => 2.5.0

Depreciações

MLlib O acompanhamento automatizado MLflow está obsoleto no clustering que executa Databricks Runtime 10.1 ML e acima. Em vez disso, use o MLflow PySpark ML autologging chamando mlflow.pyspark.ml.autolog(). O autologging é ativado pelo site default com Databricks Autologging.

Ambiente do sistema

O ambiente do sistema no Databricks Runtime 10.1 ML difere do Databricks Runtime 10.1 da seguinte forma:

biblioteca

As seções a seguir listam as bibliotecas incluídas em Databricks Runtime 10.1 ML que diferem daquelas incluídas em Databricks Runtime 10.1.

Nesta secção:

Biblioteca de primeira linha

Databricks Runtime 10.1 O site ML inclui as seguintes bibliotecas de primeira linha:

Python biblioteca

Databricks Runtime 10.1 O ML usa o Virtualenv para o gerenciamento do pacote Python e inclui muitos pacotes populares do ML.

Além do pacote especificado nas seções a seguir, Databricks Runtime 10.1 ML também inclui o seguinte pacote:

  • Hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • recurso 0.3.5
  • automl 1.4.0
nota

O Databricks Runtime 10.1 ML inclui o scikit-learn versão 0.24 em vez da versão 1.0 devido a problemas de incompatibilidade. O pacote scikit-learn interage com muitos outros pacotes em Databricks Runtime 10.1 ML.

O senhor pode atualizar para a versão 1.0 do scikit-learn; no entanto, a Databricks não oferece suporte a essa versão.

Para atualizar, use a biblioteca com escopo de Notebook. From a Notebook, execução %pip install --upgrade "scikit-learn>=1.0,<1.1".

Uma alternativa é usar este clustering init script:

Bash
#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Python biblioteca sobre clustering de CPU

Biblioteca

Versão

Biblioteca

Versão

Biblioteca

Versão

abl-py

0.11.0

Antergos Linux

2015.10 (versão ISO)

apronta

1.4.4

argônio-2-cffi

20.1.0

pastor

0.8.1

atunparse

1.6.3

gerador assíncrono

1,10

atrai

20,3,0

chamada de volta

0.2.0

bcriptar

3.2.0

cândida

3.3.0

blis

0.7.4

boto3

1,16.7

botocore

1.19,7

ferramentas de cache

4.2.4

catálogo

2.0.6

certifi

2020.12,5

caffi

1,14.5

chardet

4.0.0

ressoar

5,0

clique

7.1.2

salmoura

1.6.0

cmdstanpy

0,9,68

analisador de configuração

5.0.1

data de conversão

2.3.2

criptografia

3.4.7

ciclador

0.10.0

cimem

2.0.5

Cython

0,29,23

databricks-automl-runtime

0.2.3

Databricks-CLI

0,14.3

dbus-Python

1.2.16

decorador

5.0.6

xml desfundido

0.7.1

endro

0.3.2

cache em disco

5.2.1

distlib

0.3.3

informação da distribuição

0,23 ubuntu 1

pontos de entrada

0,3

efema

4.1

visão geral das facetas

1.0.0

texto rápido

0.9.2

bloqueio de arquivo

3.0.12

Frasco

1.1.2

tampões planos

1,12

fsspec

0.9.0

futuro

0,18.2

ímpeto

0.4.0

gitdb

4.0.7

GitPython

3.1.12

autenticação do Google

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grócio

1,39,0

unicórnio

20,0.4

gviz-api

1.10.0

h5py

3.1.0

conversor híjri

2.2.2

férias

0.11.3.1

Horovod

0,23,0

html/min

0.1.12

abraçando o face-hub

0,0,19

Índia

2,10

Hash de imagem

4.2.1

aprendizado desequilibrado

0.8.1

importlib-metadados

3.10.0

ipykernel

5.3.4

ipython

7.22,0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodato

0.6.0

é perigoso

1.1.0

jedi

0,17.2

Jinja 2

2.11.3

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

esquema json

3.2.0

cliente jupyter

6.1.12

núcleo jupyter

4.7.1

pigmentos jupyterlab

0.1.2

widgets jupyterlab

1.0.0

Keras

2.6.0

Keras-Pré-processamento

1.1.2

solucionador de kiwi

1.3.1

coalas

1.8.2

calendário lunar coreano

0.2.1

LightGBM

3.3.0

llvmlite

0,37,0

Calendário lunar

0,0.9

Mako

1.1.3

Markdown

3.3.3

MarkupSafe

2.0.1

Matplotlib

3.4.2

faltando não

0.5.0

confundir

0,8.4

pular

0,18.1

malflow-skinny

1,21,0

multimétodo

1,6

murmurar

1.0.5

cliente nb

0.5.3

nbconvert

6.0.7

formato nb

5.1.3

nest-assíncio

1.5.1

redes

2,5

nltk

3.6.1

notebook

6.3.0

numba

0,54,1

entorpecido

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

fazendo às malas

20,9

Pandas

1.2.4

perfil de pandas

3.1.0

filtros pandóicos

1.4.3

paramiko

2.7.2

parso

0.7.0

patia

0.6.0

bode expiatório

0.5.1

petastorme

0.11.3

esperar

4.8.0

phik

0.12.0

picles

0.7.5

Travesseiro

8.2.0

pip

21.0.1

Plotly

5.3.0

pressionado

3.0.5

cliente prometheus

0.10.1

kit de ferramentas de aviso

3.0.17

Prophet

1.0.1

protobuf

3.17.2

pistila

5.8.0

psycopg2

2.8.5

processo pty

0.7.0

flecha

4.0.0

pyasn1

0.4.8

módulos pyasn1

0.2.8

pybind11

2.8.0

pycparser

2,20

pidântico

1.8.2

Pigmentos

2.8.1

Objeto PYG

3,36,0

Pymeeus

0.5.11

PyNaCL

1.4.0

pyodbc

4,0.30

análise de pipa

2.4.7

persistente

0,17.3

pystan

2.19.1.1

Python-apt

2.0.0+ubuntu0.20.4.6

Python-dateutil

2.8.1

Python-editor

1.0.4

pytz

2020,5

PY Wavelets

1.1.1

PyYAML

5.4.1

pizma

20.0.0

regex

2021.4.4

pedidos

2.25.1

solicitações-oauthlib

1.3.0

solicitações - soquete unix

0.2.0

rsa

4.7.2

transferência s3

0.3.7

sacremoses

0,0,46

scikit-learn

0,24,1

pegajoso

1.6.2

marítimo

0.11.1

Enviar 2 lixeiras

1.5.0

ferramentas de configuração

52,0,0

ferramentas de configuração - git

1.2

forma

0,39,0

simplejson

3.17.2

seis

1,15.0

fatiador

0.0.7

aberto de forma inteligente

5.2.0

tapa

3.0.5

espaçoso

3.1.3

legado espacial

3.0.8

distribuidor de fluxo tensor de faísca

1.0.0

sqlparse

0.4.1

sensatamente

2.4.1

ID de importação ssh

5,10

modelos de estatísticas

0.12.2

tabular

0,8.7

emaranhado em unicode

0.1.0

tenacidade

6.2.0

TensorBoard

2.6.0

TensorBoard-servidor de dados

0.6.1

TensorBoard-perfil do plugin

2.5.0

TensorBoard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

estimador de fluxo tensor

2.6.0

cor do termo

1.1.0

terminado

0.9.4

caminho de teste

0.4.4

uma coisa

8.0.9

threadpool ctl

2.1.0

tokenizadores

0.10.3

lanterna

1.9.1+CPU

visão de tocha

0.10.1+cpu

tornado

6.1

tqdm

4,59,0

almôndegas

5.0.5

transformadores

4.11.3

digitar

0.3.2

extensões de digitação

3.7.4.3

junhão

4.0.2

atualizações autônomas

0,1

urllib3

1,25.11

ambiente virtual

20.4.1

visões

0.7.4

wasabi

0.8.2

largura do wc

0.2.5

codificações da web

0.5.1

cliente websocket

0,57,0

Utilitário

1.0.1

Python wheel

0,36,2

extensão widgetsnb

3.5.1

embrulhar

1.12.1

xgboost

1.4.2

zíper

3.4.1

Python biblioteca sobre clustering de GPU

Biblioteca

Versão

Biblioteca

Versão

Biblioteca

Versão

abl-py

0.11.0

Antergos Linux

2015.10 (versão ISO)

apronta

1.4.4

argônio-2-cffi

20.1.0

pastor

0.8.1

atunparse

1.6.3

gerador assíncrono

1,10

atrai

20,3,0

chamada de volta

0.2.0

bcriptar

3.2.0

cândida

3.3.0

blis

0.7.4

boto3

1,16.7

botocore

1.19,7

ferramentas de cache

4.2.4

catálogo

2.0.6

certifi

2020.12,5

caffi

1,14.5

chardet

4.0.0

ressoar

5,0

clique

7.1.2

salmoura

1.6.0

cmdstanpy

0,9,68

analisador de configuração

5.0.1

data de conversão

2.3.2

criptografia

3.4.7

ciclador

0.10.0

cimem

2.0.5

Cython

0,29,23

databricks-automl-runtime

0.2.3

Databricks-CLI

0,14.3

dbus-Python

1.2.16

decorador

5.0.6

xml desfundido

0.7.1

endro

0.3.2

cache em disco

5.2.1

distlib

0.3.3

informação da distribuição

0,23 ubuntu 1

pontos de entrada

0,3

efema

4.1

visão geral das facetas

1.0.0

texto rápido

0.9.2

bloqueio de arquivo

3.0.12

Frasco

1.1.2

tampões planos

1,12

fsspec

0.9.0

futuro

0,18.2

ímpeto

0.4.0

gitdb

4.0.7

GitPython

3.1.12

autenticação do Google

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grócio

1,39,0

unicórnio

20,0.4

gviz-api

1.10.0

h5py

3.1.0

conversor híjri

2.2.2

férias

0.11.3.1

Horovod

0,23,0

html/min

0.1.12

abraçando o face-hub

0,0,19

Índia

2,10

Hash de imagem

4.2.1

aprendizado desequilibrado

0.8.1

importlib-metadados

3.10.0

ipykernel

5.3.4

ipython

7.22,0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodato

0.6.0

é perigoso

1.1.0

jedi

0,17.2

Jinja 2

2.11.3

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

esquema json

3.2.0

cliente jupyter

6.1.12

núcleo jupyter

4.7.1

pigmentos jupyterlab

0.1.2

widgets jupyterlab

1.0.0

Keras

2.6.0

Keras-Pré-processamento

1.1.2

solucionador de kiwi

1.3.1

coalas

1.8.2

calendário lunar coreano

0.2.1

LightGBM

3.3.0

llvmlite

0,37,0

Calendário lunar

0,0.9

Mako

1.1.3

Markdown

3.3.3

MarkupSafe

2.0.1

Matplotlib

3.4.2

faltando não

0.5.0

confundir

0,8.4

pular

0,18.1

malflow-skinny

1,21,0

multimétodo

1,6

murmurar

1.0.5

cliente nb

0.5.3

nbconvert

6.0.7

formato nb

5.1.3

nest-assíncio

1.5.1

redes

2,5

nltk

3.6.1

notebook

6.3.0

numba

0,54,1

entorpecido

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

fazendo às malas

20,9

Pandas

1.2.4

perfil de pandas

3.1.0

filtros pandóicos

1.4.3

paramiko

2.7.2

parso

0.7.0

patia

0.6.0

bode expiatório

0.5.1

petastorme

0.11.3

esperar

4.8.0

phik

0.12.0

picles

0.7.5

Travesseiro

8.2.0

pip

21.0.1

Plotly

5.3.0

pressionado

3.0.5

kit de ferramentas de aviso

3.0.17

Prophet

1.0.1

protobuf

3.17.2

pistila

5.8.0

psycopg2

2.8.5

processo pty

0.7.0

flecha

4.0.0

pyasn1

0.4.8

módulos pyasn1

0.2.8

pybind11

2.8.1

pycparser

2,20

pidântico

1.8.2

Pigmentos

2.8.1

Objeto PYG

3,36,0

Pymeeus

0.5.11

PyNaCL

1.4.0

pyodbc

4,0.30

análise de pipa

2.4.7

persistente

0,17.3

pystan

2.19.1.1

Python-apt

2.0.0+ubuntu0.20.4.6

Python-dateutil

2.8.1

Python-editor

1.0.4

pytz

2020,5

PY Wavelets

1.1.1

PyYAML

5.4.1

pizma

20.0.0

regex

2021.4.4

pedidos

2.25.1

solicitações-oauthlib

1.3.0

solicitações - soquete unix

0.2.0

rsa

4.7.2

transferência s3

0.3.7

sacremoses

0,0,46

scikit-learn

0,24,1

pegajoso

1.6.2

marítimo

0.11.1

Enviar 2 lixeiras

1.5.0

ferramentas de configuração

52,0,0

ferramentas de configuração - git

1.2

forma

0,39,0

simplejson

3.17.2

seis

1,15.0

fatiador

0.0.7

aberto de forma inteligente

5.2.0

tapa

3.0.5

espaçoso

3.1.3

legado espacial

3.0.8

distribuidor de fluxo tensor de faísca

1.0.0

sqlparse

0.4.1

sensatamente

2.4.1

ID de importação ssh

5,10

modelos de estatísticas

0.12.2

tabular

0,8.7

emaranhado em unicode

0.1.0

tenacidade

6.2.0

TensorBoard

2.6.0

TensorBoard-servidor de dados

0.6.1

TensorBoard-perfil do plugin

2.5.0

TensorBoard-plugin-wit

1.8.0

TensorFlow

2.6.0

estimador de fluxo tensor

2.6.0

cor do termo

1.1.0

terminado

0.9.4

caminho de teste

0.4.4

uma coisa

8.0.9

threadpool ctl

2.1.0

tokenizadores

0.10.3

lanterna

1,9.1+cu111

visão de tocha

0,10,1+cu111

tornado

6.1

tqdm

4,59,0

almôndegas

5.0.5

transformadores

4.11.3

digitar

0.3.2

extensões de digitação

3.7.4.3

junhão

4.0.2

atualizações autônomas

0,1

urllib3

1,25.11

ambiente virtual

20.4.1

visões

0.7.4

wasabi

0.8.2

largura do wc

0.2.5

codificações da web

0.5.1

cliente websocket

0,57,0

Utilitário

1.0.1

Python wheel

0,36,2

extensão widgetsnb

3.5.1

embrulhar

1.12.1

xgboost

1.4.2

zíper

3.4.1

Spark pacote contendo os módulos Python

Spark pacote

Módulo Python

Versão

graphframes

graphframes

0.8.2-db1-spark3,2

R biblioteca

A biblioteca R é idêntica à biblioteca R em Databricks Runtime 10.1.

Java e biblioteca ( 2.12 clustering) Scala Scala

Além de Java e Scala biblioteca em Databricks Runtime 10.1, Databricks Runtime 10.1 ML contém os seguintes JARs:

Agrupamento de CPU

ID do grupo

ID do artefato

Versão

com.typesafe.akka

também conhecido como actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0,17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2,12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db6-spark3,2

org.mlflow

cliente mlflow

1.20.2

org.mlflow

faísca de fluxo

1.20.2

org.Scala-lang.modules

Scala-java8-compat_2.12

0,8.0

org.tensorflow

spark-tensorflow-connector_2.12

1,15.0

Agrupamento de GPU

ID do grupo

ID do artefato

Versão

com.typesafe.akka

também conhecido como actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0,18.1-23eb1ef

ml.dmlc

xgboost4j-gpu_2,12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1-spark3.2

org.graphframes

graphframes_2.12

0.8.2-db1-spark3,2

org.mlflow

cliente mlflow

1,21,0

org.mlflow

faísca de fluxo

1,21,0

org.Scala-lang.modules

Scala-java8-compat_2.12

0,8.0

org.tensorflow

spark-tensorflow-connector_2.12

1,15.0