Previsão com AutoML

Use o AutoML para encontrar automaticamente o melhor algoritmo de previsão e a melhor configuração de hiperparâmetro para prever valores com base em dados de séries temporais.

A previsão de séries temporais está disponível apenas para Databricks Runtime 10.0 ML ou acima.

Configure o experimento de previsão com a interface do usuário

Você pode configurar um problema de previsão usando a IU do AutoML com as seguintes passos:

  1. Na barra lateral, selecione Experimentos.

  2. No cartão Forecasting, selecione começar treinamento.

Configurar o experimento AutoML

  1. A página Configurar experimento AutoML é exibida. Nessa página, o senhor configura o processo AutoML, especificando o dataset, o tipo de problema, a coluna de destino ou rótulo a ser prevista, as métricas a serem usadas para avaliar e pontuar a execução do experimento e as condições de interrupção.

  2. No campo compute , selecione um clusters executando Databricks Runtime 10,0 ML ouacima.

  3. Em dataset, clique em Browse. Navegue até a tabela que você deseja usar e clique em Selecionar. O esquema da tabela é exibido.

  4. Clique no campo Prediction target (Alvo de previsão ). O menu dropdown é exibido, listando as colunas mostradas no esquema. Selecione a coluna que você deseja que o modelo preveja.

  5. Clique no campo da coluna Hora. Aparece um menu suspenso mostrando as colunas do site dataset que são do tipo timestamp ou date. Selecione a coluna contendo os períodos da série temporal.

  6. Para previsão de várias séries, selecione as colunas que identificam as séries temporais individuais no menu suspenso Identificadores de séries temporais. AutoML agrupa os dados por essas colunas como séries temporais diferentes e ensina um modelo para cada série de forma independente. Se o senhor deixar esse campo em branco, o site AutoML presumirá que o dataset contém uma única série temporal.

  7. Nos campos Horizonte de previsão e frequência , especifique o número de períodos de tempo no futuro para os quais o AutoML deve calcular os valores previstos. Na caixa à esquerda, insira o número inteiro de períodos a serem previstos. Na caixa à direita, selecione as unidades.

    Observação

    Para usar o Auto-ARIMA, a série temporal deve ter uma frequência regular, em que o intervalo entre dois pontos quaisquer deve ser o mesmo em toda a série temporal. A frequência deve corresponder à unidade de frequência especificada na chamada de API ou na UI do AutoML. AutoML lida com os passos de tempo ausentes preenchendo esses valores com o valor anterior.

  8. Em Databricks Runtime 11.3 LTS ML e acima, o senhor pode salvar os resultados da previsão. Para fazer isso, especifique um banco de dados no campo Banco de dados de saída. Clique em Procurar e selecione um banco de dados na caixa de diálogo. O AutoML grava os resultados da previsão em uma tabela nesse banco de dados.

  9. O campo Nome do experimento mostra o nome default. Para alterá-lo, digite o novo nome no campo.

Você também pode:

Configurações avançadas

Abra a seção Configuração avançada (opcional) para acessar esses parâmetros.

  • As métricas de avaliação são as principais métricas usadas para pontuar a execução.

  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode excluir as estruturas de treinamento da consideração. Por default, AutoML ensinar modelos usando estruturas listadas em AutoML algoritmos.

  • Você pode editar as condições de parada. As condições de parada padrão são:

    • Para prever experimentos, pare após 120 minutos.

    • No Databricks Runtime 10.4 LTS ML e abaixo, para experimentos de classificação e regressão, pare após 60 minutos ou após completar 200 tentativas, o que ocorrer primeiro. Para Databricks Runtime 11.0 ML e acima, o número de tentativas não é usado como uma condição de parada.

    • Em Databricks Runtime 10.4 LTS ML e acima, para experimentos de classificação e regressão, AutoML incorpora a parada antecipada; ele interrompe o treinamento e o ajuste dos modelos se as métricas de validação não estiverem mais melhorando.

  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode selecionar time column para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se somente à classificação e à regressão).

  • A Databricks recomenda não preencher o campo Data directory (Diretório de dados ). Isso aciona o comportamento default de armazenar com segurança o dataset como um artefato MLflow. A DBFS pode ser especificado, mas, nesse caso, o dataset não herda as permissões de acesso do experimento AutoML.

executar o experimento e monitorar os resultados

Para começar o experimento AutoML, clique em começar AutoML. O experimento começa a ser executado, e a página AutoML treinamento é exibida. Para acessar refresh a tabela de execução, clique em botão de atualização.

Visualizar o progresso do experimento

Nessa página, você pode:

  • Pare o experimento a qualquer momento.

  • Abra o Notebook de exploração de dados.

  • Monitorar a execução.

  • Navegue até a página de execução de qualquer execução.

Com o Databricks Runtime 10.1 MLe acima, o AutoML exibe avisos para possíveis problemas com o dataset, como tipos de coluna sem suporte ou colunas de alta cardinalidade.

Observação

A Databricks faz o possível para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e pode não capturar os problemas ou erros que você pode estar procurando.

Para ver os avisos do site dataset, clique em Warnings (Avisos ) tab na página de treinamento ou na página do experimento após a conclusão do experimento.

Avisos do AutoML

Ver resultados

Quando o experimento for concluído, você poderá:

  • registro e implantado um dos modelos com MLflow.

  • Selecione view Notebook for best model para revisar e editar o Notebook que criou o melhor modelo.

  • Selecione view Notebook de exploração de dados para abrir o Notebook de exploração de dados.

  • O senhor pode pesquisar, filtrar e classificar a execução na tabela de execução.

  • Veja os detalhes para qualquer execução:

    • O Notebook gerado contendo o código-fonte de uma execução de teste pode ser encontrado clicando no endereço MLflow execução. O Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.

    • Para view os resultados da execução, clique na coluna Models ou na coluna Come Time. A página de execução é exibida, mostrando informações sobre a execução da tentativa (como parâmetros, métricas e tags) e artefatos criados pela execução, incluindo o modelo. Essa página também inclui trechos de código que você pode usar para fazer previsões com o modelo.

Para retornar a esse experimento do AutoML posteriormente, localize-o na tabela da página Experimentos. Os resultados de cada experimento do AutoML, inclusive a exploração de dados e o treinamento do Notebook, são armazenados em uma pasta databricks_automl na pasta home do usuário que executou o experimento.

registro e implantação de um modelo

O senhor pode registrar e implantar seu modelo com a UI AutoML:

  1. Selecione o link na coluna Models (Modelos ) para o modelo a ser registrado. Quando uma execução é concluída, a linha superior é o melhor modelo (com base nas métricas primárias).

  2. Selecione botão do modelo de registro para registrar um modelo no Model Registry.

  3. Selecione Ícone de modelos Models na barra lateral para navegar até o Model Registry.

  4. Selecione o nome do seu modelo na tabela de modelos.

  5. Na página do modelo registrado, o senhor pode servir o modelo com servindo modelo.

Nenhum módulo chamado 'pandas.core.indexes.numeric'

Ao servir um modelo criado usando AutoML com servindo modelo, o senhor pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso se deve a uma versão pandas incompatível entre AutoML e o ambiente servindo modelo endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita requirements.txt e conda.yaml para o seu modelo registrado para incluir a versão apropriada da dependência pandas: pandas==1.5.3

  1. Modifique o script para incluir o run_id da execução MLflow em que seu modelo foi registrado.

  2. Registrando novamente o modelo no MLflow Model Registry.

  3. Tente usar a nova versão do modelo MLflow.