O que é AutoML?

AutoML simplifica o processo de aplicação do aprendizado de máquina ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetros para o senhor.

nota

No Databricks Runtime 18.0 ML ou acima, AutoML não está incluído como uma biblioteca integrada.

Como o AutoML funciona?

Forneça seu endereço dataset e especifique o tipo de problema de aprendizado de máquina e, em seguida, AutoML faz o seguinte:

Limpa e prepara seus dados.
Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.
Encontra o melhor modelo usando algoritmos de avaliação de código aberto do scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
Apresenta os resultados. AutoML também gera um Notebook de código-fonte para cada teste, permitindo que o senhor revise, reproduza e modifique o código conforme necessário.

Comece a trabalhar com os experimentos do AutoML por meio de uma interface de usuário com pouco código para regressão, classificação, previsão ou Python API.

Requisitos

AutoML depende do pacote databricks-automl-runtime, que contém componentes que são úteis fora do site AutoML e também ajuda a simplificar o Notebook gerado pelo treinamento AutoML. databricks-automl-runtime está disponível no PyPI.
Nenhuma biblioteca adicional, além das pré-instaladas no Databricks Runtime for Machine Learning, deve ser instalada no clustering.
- Qualquer modificação (remoção, atualizações ou retrocessos) nas versões de bibliotecas existentes resultará em falhas de execução devido à incompatibilidade.
Para acessar os arquivos no seu workspace, é necessário ter as portas de rede 1017 e 1021 abertas para os experimentos do AutoML. Para abrir essas portas ou confirmar que elas estão abertas, revise a configuração do firewall da VPN na nuvem e as regras do grupo de segurança ou entre em contato com o administrador local da nuvem. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.
Use um recurso compute com um modo de acessocompute compatível. Nem todos os modos de acesso do site compute têm acesso ao site Unity Catalog:

modo de acesso computacional	Suporte a AutoML	Suporte ao Unity Catalog
Dedicado (anteriormente usuário único)	Suportado	Suportado
Padrão (anteriormente compartilhado)	Sem compatibilidade	Suportado
Nenhum isolamento compartilhado	Suportado	Sem compatibilidade

Algoritmos do AutoML

O AutoML treina e avalia modelos com base nos algoritmos da tabela a seguir.

nota

Para modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descida de gradiente estocástico são baseados no scikit-learn.

Modelos de classificação	Modelos de regressão	Modelos de previsão	Modelos de previsão (serverless)
Árvores de decisão	Árvores de decisão	Prophet	Prophet
Florestas aleatórias	Florestas aleatórias	Auto-ARIMA (Disponível em Databricks Runtime 10.3 ML e acima.)	Auto-ARIMA
Regressão logística	Regressão linear com descida de gradiente estocástico		DeepAR
XGBoost	XGBoost
LightGBM	LightGBM

Geração de cadernos de teste

Classic compute AutoML gera o Notebook do código-fonte por trás dos testes para que o senhor possa revisar, reproduzir e modificar o código conforme necessário.

Para experimentos de previsão, o Notebook gerado pelo AutoML é importado automaticamente para o site workspace para todas as tentativas do seu experimento.

Para experimentos de classificação e regressão, o Notebook gerado pelo AutoML para exploração de dados e a melhor tentativa em seu experimento são importados automaticamente para o site workspace. Os notebooks gerados para outros experimentos são salvos como artefatos do MLflow em DBFS em vez de serem importados automaticamente para o seu workspace. Para todas as tentativas, além da melhor tentativa, notebook_path e notebook_url na API Python TrialInfo não são definidos. Se precisar usar esse Notebook, o senhor pode importá-lo manualmente para o site workspace com a UI do experimento AutoML ou o databricks.automl.import_notebook Python API.

Se o senhor usar apenas o Notebook de exploração de dados ou o Notebook da melhor tentativa gerado pelo AutoML, a coluna Source (Fonte) na UI do experimento AutoML contém o link para o Notebook gerado para a melhor tentativa.

Se o senhor usar outro Notebook gerado na UI do experimento AutoML, ele não será importado automaticamente para o workspace. Os senhores podem encontrar o Notebook clicando em cada MLflow execução. O IPython Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.

Valores de Shapley (SHAP) para explicar o modelo

nota

No MLR 11.1 e abaixo, os gráficos SHAP não são gerados se o site dataset contiver uma coluna datetime.

O Notebook produzido pela execução de regressão e classificação do AutoML inclui código para calcular os valores doShapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada recurso para as previsões de um modelo.

AutoML O notebook calcula os valores de Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, eles não são realizados pelo site default.

Para calcular e exibir valores de Shapley:

Vá para a seção de importância do recurso em um Notebook de avaliação gerado pelo AutoML.
Defina shap_enabled = True.
Execute novamente o notebook

Como o AutoML funciona?​

Requisitos​

Algoritmos do AutoML​

Geração de cadernos de teste​

Valores de Shapley (SHAP) para explicar o modelo​

Próximas etapas​

Como o AutoML funciona?

Requisitos

Algoritmos do AutoML

Geração de cadernos de teste

Valores de Shapley (SHAP) para explicar o modelo

Próximas etapas