Pular para o conteúdo principal

Regressão com AutoML

Use o AutoML para encontrar automaticamente o melhor algoritmo de regressão e a melhor configuração de hiperparâmetro para prever valores numéricos contínuos.

Configure o experimento de regressão com a interface

O senhor pode configurar um problema de regressão usando a AutoML UI com as seguintes etapas:

  1. Na barra lateral, selecione Experimentos .

  2. No cartão Regressão , selecione começar treinamento .

    A página Configurar experimento AutoML é exibida. Nessa página, o senhor configura o processo AutoML, especificando o dataset, o tipo de problema, a coluna de destino ou rótulo a ser prevista, as métricas a serem usadas para avaliar e pontuar a execução do experimento e as condições de interrupção.

  3. No campo computação , selecione um clustering em execução Databricks Runtime ML.

  4. Em dataset , selecione Browse .

  5. Navegue até a tabela que você deseja usar e clique em Selecionar . O esquema da tabela é exibido.

nota

Se o senhor especificar um método de imputação que não seja odefault, o AutoML não realizará a detecção do tipo semântico.

  1. Clique no campo Prediction target (Alvo de previsão ). Uma lista suspensa aparece listando as colunas mostradas no esquema. Selecione a coluna que você deseja que o modelo preveja.

  2. O campo Nome do experimento mostra o nome default. Para alterá-lo, digite o novo nome no campo.

Você também pode:

Configurações avançadas

Abra a seção Configuração avançada (opcional) para acessar esses parâmetros.

  • As métricas de avaliação são as principais métricas usadas para pontuar a execução.

  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode excluir as estruturas de treinamento da consideração. Em default, AutoML treina modelos usando as estruturas listadas nos algoritmos deAutoML.

  • Você pode editar as condições de parada. As condições de parada padrão são:

    • Para prever experimentos, pare após 120 minutos.
    • No Databricks Runtime 10.4 LTS ML e abaixo, para experimentos de classificação e regressão, pare após 60 minutos ou após completar 200 tentativas, o que ocorrer primeiro. Para Databricks Runtime 11.0 ML e acima, o número de tentativas não é usado como uma condição de parada.
    • Em Databricks Runtime 10.4 LTS ML e acima, para experimentos de classificação e regressão, AutoML incorpora a parada antecipada; ele interrompe o treinamento e o ajuste dos modelos se as métricas de validação não estiverem mais melhorando.
  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode selecionar time column para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se somente à classificação e à regressão).

  • A Databricks recomenda não preencher o campo Data directory (Diretório de dados ). Isso aciona o comportamento default de armazenar com segurança o dataset como um artefato MLflow. A DBFS pode ser especificado, mas, nesse caso, o dataset não herda as permissões de acesso do experimento AutoML.

executar o experimento e monitorar os resultados

Para começar o experimento AutoML, clique em começar AutoML . O experimento começa a ser executado, e a página AutoML treinamento é exibida. Para acessar refresh a tabela de execução, clique em botão de atualização.

visualizar o progresso do experimento

Nessa página, você pode:

  • Pare o experimento a qualquer momento.
  • Abra o Notebook de exploração de dados.
  • Monitorar a execução.
  • Navegue até a página de execução de qualquer execução.

Com o Databricks Runtime 10.1 MLe acima, o AutoML exibe avisos para possíveis problemas com o dataset, como tipos de coluna sem suporte ou colunas de alta cardinalidade.

nota

A Databricks faz o possível para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e pode não capturar os problemas ou erros que você pode estar procurando.

Para ver os avisos do site dataset, clique em Warnings (Avisos ) tab na página de treinamento ou na página do experimento após a conclusão do experimento.

Avisos do AutoML

ver resultados

Quando o experimento for concluído, você poderá:

  • registro e implantado um dos modelos com MLflow.
  • Selecione view Notebook for best model para revisar e editar o Notebook que criou o melhor modelo.
  • Selecione view Notebook de exploração de dados para abrir o Notebook de exploração de dados.
  • O senhor pode pesquisar, filtrar e classificar a execução na tabela de execução.
  • Veja os detalhes para qualquer execução:
    • O Notebook gerado contendo o código-fonte de uma execução de teste pode ser encontrado clicando no endereço MLflow execução. O Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.
    • Para view os resultados da execução, clique na coluna Models ou na coluna Come Time . A página de execução é exibida, mostrando informações sobre a execução do teste (como parâmetros, métricas e tags) e artefatos criados pela execução, incluindo o modelo. Essa página também inclui trechos de código que você pode usar para fazer previsões com o modelo.

Para retornar a esse experimento do AutoML posteriormente, localize-o na tabela da página Experimentos. Os resultados de cada experimento do AutoML, inclusive a exploração de dados e o treinamento do Notebook, são armazenados em uma pasta databricks_automl na pasta home do usuário que executou o experimento.

registro e implantação de um modelo

O senhor pode registrar e implantar seu modelo com a UI AutoML:

  1. Selecione o link na coluna Models (Modelos ) para o modelo a ser registrado. Quando uma execução é concluída, a linha superior é o melhor modelo (com base nas métricas primárias).
  2. Selecione botão do modelo de registro para registrar o modelo em Model Registry.
  3. Selecione Ícone de modelos Models na barra lateral para navegar até o Model Registry.
  4. Selecione o nome do seu modelo na tabela de modelos.
  5. Na página do modelo registrado, o senhor pode servir o modelo com servindo modelo.

Nenhum módulo chamado 'pandas.core.indexes.numeric'

Ao servir um modelo criado usando AutoML com servindo modelo, o senhor pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso se deve a uma versão pandas incompatível entre AutoML e o ambiente servindo modelo endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita requirements.txt e conda.yaml para o seu modelo registrado para incluir a versão apropriada da dependência pandas: pandas==1.5.3

  1. Modifique o script para incluir o run_id da execução MLflow em que seu modelo foi registrado.
  2. Registrando novamente o modelo no MLflow Model Registry.
  3. Tente usar a nova versão do modelo MLflow.

Próximas etapas