Previsão com AutoML (clássico compute)
Use o AutoML para encontrar automaticamente o melhor algoritmo de previsão e a melhor configuração de hiperparâmetro para prever valores com base em dados de séries temporais.
A previsão de séries temporais está disponível apenas para Databricks Runtime 10.0 ML ou acima.
Configure o experimento de previsão com a interface do usuário
Você pode configurar um problema de previsão usando a IU do AutoML com as seguintes passos:
- Na barra lateral, selecione Experimentos .
- No cartão Forecasting , selecione começar treinamento .
A UI de previsão tem como padrão serverless forecasting. Para acessar a previsão com seu próprio compute, selecione reverter para a experiência antiga .
Configurar o experimento AutoML
-
A página Configurar experimento AutoML é exibida. Nessa página, o senhor configura o processo AutoML, especificando o dataset, o tipo de problema, a coluna de destino ou rótulo a ser prevista, as métricas a serem usadas para avaliar e pontuar a execução do experimento e as condições de interrupção.
-
No campo compute , selecione um clusters executando Databricks Runtime 10,0 ML ouacima.
-
Em dataset , clique em Browse . Navegue até a tabela que você deseja usar e clique em Selecionar . O esquema da tabela é exibido.
-
Clique no campo Prediction target (Alvo de previsão ). O menu dropdown é exibido, listando as colunas mostradas no esquema. Selecione a coluna que você deseja que o modelo preveja.
-
Clique no campo da coluna Hora . Aparece um menu suspenso mostrando as colunas do site dataset que são do tipo
timestamp
oudate
. Selecione a coluna contendo os períodos da série temporal. -
Para previsão de várias séries, selecione as colunas que identificam as séries temporais individuais no menu suspenso Identificadores de séries temporais . O AutoML agrupa os dados por essas colunas como séries temporais diferentes e treina um modelo para cada série de forma independente. Se o senhor deixar esse campo em branco, o site AutoML presumirá que o dataset contém uma única série temporal.
-
Nos campos Horizonte de previsão e frequência , especifique o número de períodos de tempo no futuro para os quais o AutoML deve calcular os valores previstos. Na caixa à esquerda, insira o número inteiro de períodos a serem previstos. Na caixa à direita, selecione as unidades.
Para usar o Auto-ARIMA, a série temporal deve ter uma frequência regular, em que o intervalo entre dois pontos quaisquer deve ser o mesmo em toda a série temporal. A frequência deve corresponder à unidade de frequência especificada na chamada de API ou na UI do AutoML. O AutoML lida com as etapas de tempo ausentes preenchendo esses valores com o valor anterior.
-
Em Databricks Runtime 11.3 LTS ML e acima, o senhor pode salvar os resultados da previsão. Para fazer isso, especifique um banco de dados no campo Banco de dados de saída . Clique em Procurar e selecione um banco de dados na caixa de diálogo. O AutoML grava os resultados da previsão em uma tabela nesse banco de dados.
-
O campo Nome do experimento mostra o nome default. Para alterá-lo, digite o novo nome no campo.
Você também pode:
- Especifique opções de configuração adicionais.
- Use as tabelas de recursos existentes no recurso Store para aumentar a entrada original dataset.
Configurações avançadas
Abra a seção Configuração avançada (opcional) para acessar esses parâmetros.
-
As métricas de avaliação são as principais métricas usadas para pontuar a execução.
-
Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode excluir as estruturas de treinamento da consideração. Em default, AutoML treina modelos usando as estruturas listadas nos algoritmos deAutoML.
-
Você pode editar as condições de parada. As condições de parada padrão são:
- Para prever experimentos, pare após 120 minutos.
- No Databricks Runtime 10.4 LTS ML e abaixo, para experimentos de classificação e regressão, pare após 60 minutos ou após completar 200 tentativas, o que ocorrer primeiro. Para Databricks Runtime 11.0 ML e acima, o número de tentativas não é usado como uma condição de parada.
- Em Databricks Runtime 10.4 LTS ML e acima, para experimentos de classificação e regressão, AutoML incorpora a parada antecipada; ele interrompe o treinamento e o ajuste dos modelos se as métricas de validação não estiverem mais melhorando.
-
Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode selecionar
time column
para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se somente à classificação e à regressão). -
A Databricks recomenda não preencher o campo Data directory (Diretório de dados ). Isso aciona o comportamento default de armazenar com segurança o dataset como um artefato MLflow. A DBFS pode ser especificado, mas, nesse caso, o dataset não herda as permissões de acesso do experimento AutoML.
executar o experimento e monitorar os resultados
Para começar o experimento AutoML, clique em começar AutoML . O experimento começa a ser executado, e a página AutoML treinamento é exibida. Para acessar refresh a tabela de execução, clique em .
visualizar o progresso do experimento
Nessa página, você pode:
- Pare o experimento a qualquer momento.
- Abra o Notebook de exploração de dados.
- Monitorar a execução.
- Navegue até a página de execução de qualquer execução.
Com o Databricks Runtime 10.1 MLe acima, o AutoML exibe avisos para possíveis problemas com o dataset, como tipos de coluna sem suporte ou colunas de alta cardinalidade.
A Databricks faz o possível para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e pode não capturar os problemas ou erros que você pode estar procurando.
Para ver os avisos do site dataset, clique em Warnings (Avisos ) tab na página de treinamento ou na página do experimento após a conclusão do experimento.
ver resultados
Quando o experimento for concluído, você poderá:
- registro e implantado um dos modelos com MLflow.
- Selecione view Notebook for best model para revisar e editar o Notebook que criou o melhor modelo.
- Selecione view Notebook de exploração de dados para abrir o Notebook de exploração de dados.
- O senhor pode pesquisar, filtrar e classificar a execução na tabela de execução.
- Veja os detalhes para qualquer execução:
- O Notebook gerado contendo o código-fonte de uma execução de teste pode ser encontrado clicando no endereço MLflow execução. O Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.
- Para view os resultados da execução, clique na coluna Models ou na coluna Come Time . A página de execução é exibida, mostrando informações sobre a execução do teste (como parâmetros, métricas e tags) e artefatos criados pela execução, incluindo o modelo. Essa página também inclui trechos de código que você pode usar para fazer previsões com o modelo.
Para retornar a esse experimento do AutoML posteriormente, localize-o na tabela da página Experimentos. Os resultados de cada experimento do AutoML, inclusive a exploração de dados e o treinamento do Notebook, são armazenados em uma pasta databricks_automl
na pasta home do usuário que executou o experimento.
registro e implantação de um modelo
O senhor pode registrar e implantar seu modelo com a UI AutoML:
- Selecione o link na coluna Models (Modelos ) para o modelo a ser registrado. Quando uma execução é concluída, a linha superior é o melhor modelo (com base nas métricas primárias).
- Selecione
para registrar o modelo em Model Registry.
- Selecione
Models na barra lateral para navegar até o Model Registry.
- Selecione o nome do seu modelo na tabela de modelos.
- Na página do modelo registrado, o senhor pode servir o modelo com servindo modelo.
Nenhum módulo chamado 'pandas.core.indexes.numeric'
Ao servir um modelo criado usando AutoML com servindo modelo, o senhor pode receber o erro: No module named 'pandas.core.indexes.numeric
.
Isso se deve a uma versão pandas
incompatível entre AutoML e o ambiente servindo modelo endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita requirements.txt
e conda.yaml
para o seu modelo registrado para incluir a versão apropriada da dependência pandas
: pandas==1.5.3
- Modifique o script para incluir o
run_id
da execução MLflow em que seu modelo foi registrado. - Registrando novamente o modelo no MLflow Model Registry.
- Tente usar a nova versão do modelo MLflow.