Pular para o conteúdo principal

Previsão com AutoML (clássico compute)

Use o AutoML para encontrar automaticamente o melhor algoritmo de previsão e a melhor configuração de hiperparâmetro para prever valores com base em dados de séries temporais.

A previsão de séries temporais está disponível apenas para Databricks Runtime 10.0 ML ou acima.

Configure o experimento de previsão com a interface do usuário

Você pode configurar um problema de previsão usando a IU do AutoML com as seguintes passos:

  1. Na barra lateral, selecione Experimentos .
  2. No cartão Forecasting , selecione começar treinamento .

A UI de previsão tem como padrão serverless forecasting. Para acessar a previsão com seu próprio compute, selecione reverter para a experiência antiga .

Configurar o experimento AutoML

  1. A página Configurar experimento AutoML é exibida. Nessa página, o senhor configura o processo AutoML, especificando o dataset, o tipo de problema, a coluna de destino ou rótulo a ser prevista, as métricas a serem usadas para avaliar e pontuar a execução do experimento e as condições de interrupção.

  2. No campo compute , selecione um clusters executando Databricks Runtime 10,0 ML ouacima.

  3. Em dataset , clique em Browse . Navegue até a tabela que você deseja usar e clique em Selecionar . O esquema da tabela é exibido.

  4. Clique no campo Prediction target (Alvo de previsão ). O menu dropdown é exibido, listando as colunas mostradas no esquema. Selecione a coluna que você deseja que o modelo preveja.

  5. Clique no campo da coluna Hora . Aparece um menu suspenso mostrando as colunas do site dataset que são do tipo timestamp ou date. Selecione a coluna contendo os períodos da série temporal.

  6. Para previsão de várias séries, selecione as colunas que identificam as séries temporais individuais no menu suspenso Identificadores de séries temporais . O AutoML agrupa os dados por essas colunas como séries temporais diferentes e treina um modelo para cada série de forma independente. Se o senhor deixar esse campo em branco, o site AutoML presumirá que o dataset contém uma única série temporal.

  7. Nos campos Horizonte de previsão e frequência , especifique o número de períodos de tempo no futuro para os quais o AutoML deve calcular os valores previstos. Na caixa à esquerda, insira o número inteiro de períodos a serem previstos. Na caixa à direita, selecione as unidades.

nota

Para usar o Auto-ARIMA, a série temporal deve ter uma frequência regular, em que o intervalo entre dois pontos quaisquer deve ser o mesmo em toda a série temporal. A frequência deve corresponder à unidade de frequência especificada na chamada de API ou na UI do AutoML. O AutoML lida com as etapas de tempo ausentes preenchendo esses valores com o valor anterior.

  1. Em Databricks Runtime 11.3 LTS ML e acima, o senhor pode salvar os resultados da previsão. Para fazer isso, especifique um banco de dados no campo Banco de dados de saída . Clique em Procurar e selecione um banco de dados na caixa de diálogo. O AutoML grava os resultados da previsão em uma tabela nesse banco de dados.

  2. O campo Nome do experimento mostra o nome default. Para alterá-lo, digite o novo nome no campo.

Você também pode:

Configurações avançadas

Abra a seção Configuração avançada (opcional) para acessar esses parâmetros.

  • As métricas de avaliação são as principais métricas usadas para pontuar a execução.

  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode excluir as estruturas de treinamento da consideração. Em default, AutoML treina modelos usando as estruturas listadas nos algoritmos deAutoML.

  • Você pode editar as condições de parada. As condições de parada padrão são:

    • Para prever experimentos, pare após 120 minutos.
    • No Databricks Runtime 10.4 LTS ML e abaixo, para experimentos de classificação e regressão, pare após 60 minutos ou após completar 200 tentativas, o que ocorrer primeiro. Para Databricks Runtime 11.0 ML e acima, o número de tentativas não é usado como uma condição de parada.
    • Em Databricks Runtime 10.4 LTS ML e acima, para experimentos de classificação e regressão, AutoML incorpora a parada antecipada; ele interrompe o treinamento e o ajuste dos modelos se as métricas de validação não estiverem mais melhorando.
  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode selecionar time column para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se somente à classificação e à regressão).

  • A Databricks recomenda não preencher o campo Data directory (Diretório de dados ). Isso aciona o comportamento default de armazenar com segurança o dataset como um artefato MLflow. A DBFS pode ser especificado, mas, nesse caso, o dataset não herda as permissões de acesso do experimento AutoML.

executar o experimento e monitorar os resultados

Para começar o experimento AutoML, clique em começar AutoML . O experimento começa a ser executado, e a página AutoML treinamento é exibida. Para acessar refresh a tabela de execução, clique em botão de atualização.

visualizar o progresso do experimento

Nessa página, você pode:

  • Pare o experimento a qualquer momento.
  • Abra o Notebook de exploração de dados.
  • Monitorar a execução.
  • Navegue até a página de execução de qualquer execução.

Com o Databricks Runtime 10.1 MLe acima, o AutoML exibe avisos para possíveis problemas com o dataset, como tipos de coluna sem suporte ou colunas de alta cardinalidade.

nota

A Databricks faz o possível para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e pode não capturar os problemas ou erros que você pode estar procurando.

Para ver os avisos do site dataset, clique em Warnings (Avisos ) tab na página de treinamento ou na página do experimento após a conclusão do experimento.

Avisos do AutoML

ver resultados

Quando o experimento for concluído, você poderá:

  • registro e implantado um dos modelos com MLflow.
  • Selecione view Notebook for best model para revisar e editar o Notebook que criou o melhor modelo.
  • Selecione view Notebook de exploração de dados para abrir o Notebook de exploração de dados.
  • O senhor pode pesquisar, filtrar e classificar a execução na tabela de execução.
  • Veja os detalhes para qualquer execução:
    • O Notebook gerado contendo o código-fonte de uma execução de teste pode ser encontrado clicando no endereço MLflow execução. O Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.
    • Para view os resultados da execução, clique na coluna Models ou na coluna Come Time . A página de execução é exibida, mostrando informações sobre a execução do teste (como parâmetros, métricas e tags) e artefatos criados pela execução, incluindo o modelo. Essa página também inclui trechos de código que você pode usar para fazer previsões com o modelo.

Para retornar a esse experimento do AutoML posteriormente, localize-o na tabela da página Experimentos. Os resultados de cada experimento do AutoML, inclusive a exploração de dados e o treinamento do Notebook, são armazenados em uma pasta databricks_automl na pasta home do usuário que executou o experimento.

registro e implantação de um modelo

O senhor pode registrar e implantar seu modelo com a UI AutoML:

  1. Selecione o link na coluna Models (Modelos ) para o modelo a ser registrado. Quando uma execução é concluída, a linha superior é o melhor modelo (com base nas métricas primárias).
  2. Selecione botão do modelo de registro para registrar o modelo em Model Registry.
  3. Selecione Ícone de modelos Models na barra lateral para navegar até o Model Registry.
  4. Selecione o nome do seu modelo na tabela de modelos.
  5. Na página do modelo registrado, o senhor pode servir o modelo com servindo modelo.

Nenhum módulo chamado 'pandas.core.indexes.numeric'

Ao servir um modelo criado usando AutoML com servindo modelo, o senhor pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso se deve a uma versão pandas incompatível entre AutoML e o ambiente servindo modelo endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita requirements.txt e conda.yaml para o seu modelo registrado para incluir a versão apropriada da dependência pandas: pandas==1.5.3

  1. Modifique o script para incluir o run_id da execução MLflow em que seu modelo foi registrado.
  2. Registrando novamente o modelo no MLflow Model Registry.
  3. Tente usar a nova versão do modelo MLflow.

Próximas etapas