Pular para o conteúdo principal

O que é AutoML?

AutoML simplifica o processo de aplicação do aprendizado de máquina ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetros para o senhor.

Como o AutoML funciona?

Forneça seu endereço dataset e especifique o tipo de problema de aprendizado de máquina e, em seguida, AutoML faz o seguinte:

  1. Limpa e prepara seus dados.
  2. Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.
  3. Encontra o melhor modelo usando algoritmos de avaliação de código aberto do scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
  4. Apresenta os resultados. AutoML também gera um Notebook de código-fonte para cada teste, permitindo que o senhor revise, reproduza e modifique o código conforme necessário.

Comece a trabalhar com os experimentos do AutoML por meio de uma interface de usuário com pouco código para regressão, classificação, previsão ou Python API.

Requisitos

  • Databricks recomenda Databricks Runtime 10.4 LTS ML ou acima para AutoML disponibilidade geral.

  • AutoML depende do pacote databricks-automl-runtime, que contém componentes que são úteis fora do site AutoML e também ajuda a simplificar o Notebook gerado pelo treinamento AutoML. databricks-automl-runtime está disponível no PyPI.

  • Nenhuma biblioteca adicional, além das pré-instaladas no Databricks Runtime for Machine Learning, deve ser instalada no clustering.

    • Qualquer modificação (remoção, atualizações ou retrocessos) nas versões de bibliotecas existentes resultará em falhas de execução devido à incompatibilidade.
  • Para acessar os arquivos no seu workspace, é necessário ter as portas de rede 1017 e 1021 abertas para os experimentos do AutoML. Para abrir essas portas ou confirmar que elas estão abertas, revise a configuração do firewall da VPN na nuvem e as regras do grupo de segurança ou entre em contato com o administrador local da nuvem. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.

  • Use um recurso compute com um modo de acessocompute compatível. Nem todos os modos de acesso do site compute têm acesso ao site Unity Catalog:

modo de acesso computacional

Suporte a AutoML

Suporte ao Unity Catalog

Dedicado (anteriormente usuário único)

Compatível quando dedicado a um único usuário. Não há suporte quando atribuído a um grupo.

Suportado

Padrão (anteriormente compartilhado)

Sem compatibilidade

Suportado

Nenhum isolamento compartilhado

Suportado

Sem compatibilidade

Algoritmos do AutoML

O AutoML treina e avalia modelos com base nos algoritmos da tabela a seguir.

nota

Para modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descida de gradiente estocástico são baseados no scikit-learn.

| Classification models | Regression models | Forecasting models | | ——————— | —————– | —————— | Decision trees | Decision trees |Prophet|Florestas aleatórias | Florestas aleatórias| Auto-ARIMA (Disponível em Databricks Runtime 10.3 ML e acima.)| O senhor pode usar o Random Forest para criar modelos de classificação. Regressão logística | Regressão linear com descida de gradiente estocástico | | | | XGBoost | XGBoost | | | LightGBM| LightGBM| |

Geração de cadernos de teste

Classic compute AutoML gera o Notebook do código-fonte por trás dos testes para que o senhor possa revisar, reproduzir e modificar o código conforme necessário.

Para experimentos de previsão, o Notebook gerado pelo AutoML é importado automaticamente para o site workspace para todas as tentativas do seu experimento.

Para experimentos de classificação e regressão, o Notebook gerado pelo AutoML para exploração de dados e a melhor tentativa em seu experimento são importados automaticamente para o site workspace. Os notebooks gerados para outros experimentos são salvos como artefatos do MLflow em DBFS em vez de serem importados automaticamente para o seu workspace. Para todas as tentativas, além da melhor tentativa, notebook_path e notebook_url na API Python TrialInfo não são definidos. Se precisar usar esse Notebook, o senhor pode importá-lo manualmente para o site workspace com a UI do experimento AutoML ou o databricks.automl.import_notebook Python API.

Se o senhor usar apenas o Notebook de exploração de dados ou o Notebook da melhor tentativa gerado pelo AutoML, a coluna Source (Fonte) na UI do experimento AutoML contém o link para o Notebook gerado para a melhor tentativa.

Se o senhor usar outro Notebook gerado na UI do experimento AutoML, ele não será importado automaticamente para o workspace. Os senhores podem encontrar o Notebook clicando em cada MLflow execução. O IPython Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.

Valores de Shapley (SHAP) para explicar o modelo

nota

No MLR 11.1 e abaixo, os gráficos SHAP não são gerados se o site dataset contiver uma coluna datetime.

Os notebooks produzidos pelas execuções de regressão e classificação do AutoML incluem código para calcular os valores de Shapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada recurso para as previsões de um modelo.

AutoML O notebook calcula os valores de Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, eles não são realizados pelo site default.

Para calcular e exibir valores de Shapley:

  1. Vá para a seção de importância do recurso em um Notebook de avaliação gerado pelo AutoML.
  2. Defina shap_enabled = True.
  3. Execute novamente o notebook

Próximas etapas