modelos de ML ensinados com Databricks AutoML Python API

Este artigo demonstra como ensinar um modelo com Databricks AutoML usando o AutoML Python API. Consulte a referência da API do Databricks AutoML Python para obter mais detalhes.

O site API fornece funções para iniciar a classificação, a regressão e a previsão AutoML execução. Cada chamada de função ensina um conjunto de modelos e gera uma tentativa Notebook para cada modelo.

Consulte Requisitos para experimentos do AutoML.

Configurar um experimento usando a API AutoML

Os passos a seguir descrevem, de modo geral, como configurar um experimento AutoML usando o API:

  1. Crie um Notebook e anexe-o a um clusters executando o Databricks Runtime ML.

  2. Identifique qual tabela você deseja usar de sua fonte de dados existente ou upload um arquivo de dados para DBFS e crie uma tabela.

  3. Para começar uma execução do AutoML, use a função automl.regress() ou automl.classify() e passe a tabela, juntamente com quaisquer outros parâmetros de treinamento. Para ver todas as funções e parâmetros, consulte a referência da API do Databricks AutoML Python.

    Por exemplo:

    summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
    
  4. Quando a execução do AutoML começa, um URL de experimento do MLflow é exibido no console. Use esse URL para monitorar o progresso da execução. refresh o experimento MLflow para ver os testes à medida que são concluídos.

  5. Depois que a execução do AutoML for concluída:

  • Use os links no resumo dos resultados para navegar até o experimento MLflow ou o Notebook que gerou os melhores resultados.

  • Use o link para a exploração de dados Notebook para obter percepções sobre os dados passados para AutoML. O senhor também pode anexar esse Notebook ao mesmo cluster e reexecutá-lo para reproduzir os resultados ou fazer análises de dados adicionais.

  • Use o objeto de resumo retornado da chamada AutoML para explorar mais detalhes sobre as tentativas ou para carregar um modelo treinado por uma determinada tentativa. Saiba mais sobre o objeto AutoMLSummary.

  • Clone qualquer Notebook gerado a partir dos testes e reexecute-o anexando-o ao mesmo cluster para reproduzir os resultados. O senhor também pode fazer as edições necessárias, reexecutá-las para ensinar modelos adicionais e log incluí-los no mesmo experimento.

Importar um Notebook

Para importar um Notebook salvo como um artefato MLflow, use o databricks.automl.import_notebook Python API. Para obter mais informações, consulte Import Notebook

registrar e aprimorar um modelo

O senhor pode registrar e implantar seu modelo treinado em AutoML como qualquer modelo registrado no MLflow registro de modelo; consulte log, carregar, registrar e implantar modelos MLflow .

Nenhum módulo chamado pandas.core.indexes.numeric

Ao exibir um modelo criado usando o AutoML com Model Serving, você pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso ocorre devido a uma versão pandas incompatível entre o AutoML e o modelo que atende ao ambiente de endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita o requirements.txt e o conda.yaml dos logs de seus modelos para incluir a versão de dependência pandas apropriada: pandas==1.5.3.

  1. Modifique o script para incluir o run_id da execução do MLflow em que seu modelo foi logs.

  2. Registrando novamente o modelo no MLflow Model Registry.

  3. Tente servir a nova versão do modelo MLflow.

exemplos Notebook

Revise este Notebook para começar a usar o AutoML.

O Notebook a seguir mostra como fazer classificação com AutoML.

Notebook de exemplo de classificação do AutoML

Abra o bloco de anotações em outra guia

O Notebook a seguir mostra como fazer regressão com AutoML.

Notebook de exemplo de regressão do AutoML

Abra o bloco de anotações em outra guia

O Notebook a seguir mostra como fazer previsões com o AutoML.

Notebookexemplo de previsão do AutoML

Abra o bloco de anotações em outra guia