O que é AutoML?
Databricks AutoML simplifica o processo de aplicação do machine learning ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetros para o senhor.
Forneça seu endereço dataset e especifique o tipo de problema machine learning e, em seguida, AutoML faz o seguinte:
Limpa e prepara seus dados.
Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.
Encontra o melhor modelo usando os algoritmos de avaliação de código aberto de Scikit-Learn, xgboost, LightGBM, Prophet, e ARIMA.
Apresenta os resultados. AutoML também gera um Notebook de código-fonte para cada teste, permitindo que o senhor revise, reproduza e modifique o código conforme necessário.
Comece a usar os experimentos do AutoML por meio de uma interface de usuário com pouco código ou do Python API.
Requisitos
Databricks Runtime 9.1 ML ouacima. Para a versão de disponibilidade geral (GA), Databricks Runtime 10.4 LTS ML ouacima.
Para previsão de série temporal, Databricks Runtime 10.0 ML ouacima.
Com o Databricks Runtime 9.1 LTS ML e acima, o AutoML depende do pacote
databricks-automl-runtime
, que contém componentes úteis fora do AutoML e também ajuda a simplificar o Notebook gerado pelo AutoML treinamento.databricks-automl-runtime
está disponível no PyPI.
Nenhuma biblioteca adicional, além das pré-instaladas no Databricks Runtime for Machine Learning, deve ser instalada no cluster.
Qualquer modificação (remoção, atualizações ou retrocessos) nas versões de bibliotecas existentes resultará em falhas de execução devido à incompatibilidade.
O AutoML é incompatível com clusters de modo de acesso compartilhado.
Para usar o Unity Catalog com AutoML, o modo de acessoclusters deve ser Single User e você deve ser o usuário único designado dos clusters.
Para acessar os arquivos no seu site workspace, é preciso ter as portas de rede 1017 e 1021 abertas para os experimentos do site AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN cloud e as regras do grupo de segurança ou entre em contato com o administrador local do cloud. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.
Algoritmos AutoML
O Databricks AutoML ensina e avalia modelos com base nos algoritmos na tabela a seguir.
Observação
Para modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descida de gradiente estocástico são baseados em Scikit-Learn.
Modelos de classificação |
Modelos de regressão |
Modelos de previsão |
---|---|---|
Auto-ARIMA (Disponível no Databricks Runtime 10.3 MLe acima.) |
||
Teste Notebook generation
AutoML gera o Notebook do código-fonte por trás dos trials para que o senhor possa revisar, reproduzir e modificar o código conforme necessário.
Para experimentos de previsão, o Notebook gerado pelo AutoML é importado automaticamente para o site workspace para todas as tentativas do seu experimento.
Para experimentos de classificação e regressão, o Notebook gerado pelo AutoML para exploração de dados e a melhor tentativa em seu experimento são importados automaticamente para o site workspace. Os notebooks gerados para outros experimentos são salvos como artefatos do MLflow em DBFS em vez de serem importados automaticamente para o seu workspace. Para todas as tentativas além da melhor tentativa, os notebook_path
e notebook_url
na TrialInfo
Python API não são definidos. Se precisar usar esse Notebook, o senhor pode importá-lo manualmente para o site workspace com a UI do experimento AutoML ou o databricks.automl.import_notebook
Python API.
Se o senhor usar apenas a exploração de dados Notebook ou a melhor tentativa Notebook gerada por AutoML, a coluna Source (Fonte ) na UI do experimento AutoML conterá o link para o Notebook gerado para a melhor tentativa.
Se o senhor usar outro Notebook gerado na UI do experimento AutoML, ele não será importado automaticamente para o workspace. Os senhores podem encontrar o Notebook clicando em cada MLflow execução. O IPython Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.
Valores de Shapley (SHAP) para explicabilidade do modelo
Observação
No MLR 11.1 e abaixo, os gráficos SHAP não são gerados se o site dataset contiver uma coluna datetime
.
Os notebooks produzidos pelas execuções de regressão e classificação do AutoML incluem código para calcular os valores de Shapley. Os valores de Shapley são baseados na teoria dos jogos e estimam a importância de cada recurso para as previsões de um modelo.
AutoML O notebook calcula os valores de Shapley usando o pacote SHAP. Como esses cálculos consomem muita memória, eles não são realizados pelo site default.
Para calcular e exibir valores de Shapley:
Vá para a seção de importância do recurso em uma avaliação gerada pelo AutoML Notebook.
Defina
shap_enabled = True
.Execute novamente o notebook