O que é AutoML?
AutoML simplifica o processo de aplicação do aprendizado de máquina ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetros para o senhor.
Como o AutoML funciona?
Forneça seu endereço dataset e especifique o tipo de problema de aprendizado de máquina e, em seguida, AutoML faz o seguinte:
- Limpa e prepara seus dados.
- Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.
- Encontra o melhor modelo usando algoritmos de avaliação de código aberto do scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
- Apresenta os resultados. AutoML também gera um Notebook de código-fonte para cada teste, permitindo que o senhor revise, reproduza e modifique o código conforme necessário.
Comece a trabalhar com os experimentos do AutoML por meio de uma interface de usuário com pouco código para regressão, classificação, previsão ou Python API.
Requisitos
-
Databricks recomenda Databricks Runtime 10.4 LTS ML ou acima para AutoML disponibilidade geral.
-
AutoML depende do pacote
databricks-automl-runtime
, que contém componentes que são úteis fora do site AutoML e também ajuda a simplificar o Notebook gerado pelo treinamento AutoML.databricks-automl-runtime
está disponível no PyPI. -
Nenhuma biblioteca adicional, além das pré-instaladas no Databricks Runtime for Machine Learning, deve ser instalada no clustering.
- Qualquer modificação (remoção, atualizações ou retrocessos) nas versões de bibliotecas existentes resultará em falhas de execução devido à incompatibilidade.
-
Para acessar os arquivos no seu workspace, é necessário ter as portas de rede 1017 e 1021 abertas para os experimentos do AutoML. Para abrir essas portas ou confirmar que elas estão abertas, revise a configuração do firewall da VPN na nuvem e as regras do grupo de segurança ou entre em contato com o administrador local da nuvem. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.
-
Use um recurso compute com um modo de acessocompute compatível. Nem todos os modos de acesso do site compute têm acesso ao site Unity Catalog:
modo de acesso computacional | Suporte a AutoML | Suporte ao Unity Catalog |
---|---|---|
Dedicado (anteriormente usuário único) | Compatível quando dedicado a um único usuário. Não há suporte quando atribuído a um grupo. | Suportado |
Padrão (anteriormente compartilhado) | Sem compatibilidade | Suportado |
Nenhum isolamento compartilhado | Suportado | Sem compatibilidade |
Algoritmos do AutoML
O AutoML treina e avalia modelos com base nos algoritmos da tabela a seguir.
Para modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descida de gradiente estocástico são baseados no scikit-learn.
| Classification models | Regression models | Forecasting models | | ——————— | —————– | —————— | Decision trees | Decision trees |Prophet|Florestas aleatórias | Florestas aleatórias| Auto-ARIMA (Disponível em Databricks Runtime 10.3 ML e acima.)| O senhor pode usar o Random Forest para criar modelos de classificação. Regressão logística | Regressão linear com descida de gradiente estocástico | | | | XGBoost | XGBoost | | | LightGBM| LightGBM| |
Geração de cadernos de teste
Classic compute AutoML gera o Notebook do código-fonte por trás dos testes para que o senhor possa revisar, reproduzir e modificar o código conforme necessário.
Para experimentos de previsão, o Notebook gerado pelo AutoML é importado automaticamente para o site workspace para todas as tentativas do seu experimento.
Para experimentos de classificação e regressão, o Notebook gerado pelo AutoML para exploração de dados e a melhor tentativa em seu experimento são importados automaticamente para o site workspace. Os notebooks gerados para outros experimentos são salvos como artefatos do MLflow em DBFS em vez de serem importados automaticamente para o seu workspace. Para todas as tentativas, além da melhor tentativa, notebook_path
e notebook_url
na API Python TrialInfo
não são definidos. Se precisar usar esse Notebook, o senhor pode importá-lo manualmente para o site workspace com a UI do experimento AutoML ou o databricks.automl.import_notebook
Python API.
Se o senhor usar apenas o Notebook de exploração de dados ou o Notebook da melhor tentativa gerado pelo AutoML, a coluna Source (Fonte) na UI do experimento AutoML contém o link para o Notebook gerado para a melhor tentativa.
Se o senhor usar outro Notebook gerado na UI do experimento AutoML, ele não será importado automaticamente para o workspace. Os senhores podem encontrar o Notebook clicando em cada MLflow execução. O IPython Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.
Valores de Shapley (SHAP) para explicar o modelo
No MLR 11.1 e abaixo, os gráficos SHAP não são gerados se o site dataset contiver uma coluna datetime
.
Os notebooks produzidos pelas execuções de regressão e classificação do AutoML incluem código para calcular os valores de Shapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada recurso para as previsões de um modelo.
AutoML O notebook calcula os valores de Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, eles não são realizados pelo site default.
Para calcular e exibir valores de Shapley:
- Vá para a seção de importância do recurso em um Notebook de avaliação gerado pelo AutoML.
- Defina
shap_enabled = True
. - Execute novamente o notebook