Treine modelos de regressão com a API AutoML Python
Este artigo demonstra como treinar um modelo com AutoML usando o AutoML Python API. Consulte a referência da API Python do AutoML para obter mais detalhes.
O site API fornece funções para iniciar a classificação, a regressão e a previsão AutoML execução. Cada chamada de função treina um conjunto de modelos e gera um Notebook de teste para cada modelo.
Consulte Requisitos para experimentos com AutoML.
Configurar um experimento usando a API AutoML
As etapas a seguir descrevem, de modo geral, como configurar um experimento AutoML usando a API:
-
Crie um Notebook e anexe-o a um clustering que esteja executando Databricks Runtime ML.
-
Identifique qual tabela o senhor deseja usar da fonte de dados existente ou upload um arquivo de dados para DBFS e crie uma tabela.
-
Para começar uma execução do AutoML, use a função
automl.regress()
,automl.classify()
ouautoml.forecast()
e passe a tabela, juntamente com quaisquer outros parâmetros de treinamento. Para ver todas as funções e parâmetros, consulte a referência da API do AutoML Python.
A função automl.forecast()
só está disponível para previsão no site clássico compute.
Por exemplo:
# Regression example
summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
# Classification example
summary = automl.classification(dataset=train_pdf, target_col="col_to_predict")
# Forecasting example
summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
-
Quando a execução do AutoML começa, um URL de experimento do MLflow é exibido no console. Use esse URL para monitorar o progresso da execução. Atualize o experimento MLflow para ver as tentativas à medida que são concluídas.
-
Após a conclusão da execução do AutoML:
- Use os links no resumo dos resultados para navegar até o experimento MLflow ou o Notebook que gerou os melhores resultados.
- Use o link para o Data Exploration Notebook para obter percepções sobre os dados passados para AutoML. O senhor também pode anexar esse Notebook ao mesmo clustering e reexecutá-lo para reproduzir os resultados ou fazer análises adicionais dos dados.
- Use o objeto de resumo retornado da chamada AutoML para explorar mais detalhes sobre as tentativas ou para carregar um modelo treinado por uma determinada tentativa. Saiba mais sobre o objeto AutomlSummary.
- Clone qualquer Notebook gerado a partir dos testes e reexecute-o anexando-o ao mesmo clustering para reproduzir os resultados. O senhor também pode fazer as edições necessárias, reexecutá-las para treinar modelos adicionais e log no mesmo experimento.
Importar um Notebook
Para importar um Notebook salvo como um artefato MLflow, use o databricks.automl.import_notebook
Python API. Para obter mais informações, consulte Import Notebook
registro e implantação de um modelo
O senhor pode registrar e implantar seu modelo treinado em AutoML como qualquer modelo registrado no MLflow registro de modelo; consulte registrar, carregar e registrar modelos MLflow.
Nenhum módulo nomeado pandas.core.indexes.numeric
Ao servir um modelo criado usando AutoML com servindo modelo, o senhor pode receber o erro: No module named pandas.core.indexes.numeric
.
Isso se deve a uma versão pandas
incompatível entre AutoML e o ambiente servindo modelo endpoint. Para resolver o erro:
- Faça o download do script add-pandas-dependency.py. O script edita os sites
requirements.txt
econda.yaml
para o seu modelo registrado para incluir a versão de dependênciapandas
apropriada:pandas==1.5.3
. - Modifique o script para incluir o
run_id
da execução MLflow em que seu modelo foi registrado. - Registre novamente o modelo no site MLflow registro de modelo.
- Tente usar a nova versão do modelo MLflow.
Notebook exemplo
O Notebook a seguir mostra como fazer a regressão com AutoML.