modelos de ML ensinados com a interface do usuário do Databricks AutoML

Este artigo demonstra como ensinar a versão do machine learning usando AutoML e a interface do usuário do Databricks Machine Learning. A IU do AutoML orienta você no processo de treinamento de um modelo de classificação, regressão ou previsão em um dataset.

Para acessar a IU:

  1. Na barra lateral, selecione Novo > AutoML Experiment.

    Você também pode criar um novo experimento do AutoML na página Experimentos.

    A página Configurar experimento do AutoML é exibida. Nesta página, você configura o processo AutoML, especificando o dataset, tipo de problema, destino ou coluna de rótulo para prever, métricas a serem usadas para avaliar e pontuar a execução do experimento e condições de parada.

Requisitos

Consulte Requisitos para experimentos do AutoML.

Configurar problemas de classificação ou regressão

Você pode configurar um problema de classificação ou regressão usando a IU do AutoML com as seguintes passos:

  1. No campo compute , selecione um clusters executando Databricks Runtime ML.

  2. No menu suspenso do tipo de problema de ML , selecione Regressão ou Classificação. Se estiver tentando prever um valor numérico contínuo para cada observação, como renda anual, selecione regressão. Se você estiver tentando atribuir cada observação a um conjunto discreto de classes, como risco de crédito bom ou risco de crédito ruim, selecione a classificação.

  3. Em dataset, selecione Procurar.

  4. Navegue até a tabela que deseja usar e clique em Selecionar. O esquema da tabela é exibido.

    Somente para problemas de classificação e regressão, você pode especificar quais colunas incluir no treinamento e selecionar métodos de imputação personalizados.

  5. Clique no campo Alvo de previsão . Um menu suspenso aparece listando as colunas mostradas no esquema. Selecione a coluna que deseja que o modelo preveja.

  6. O campo Nome do experimento mostra o nome default . Para alterá-lo, digite o novo nome no campo.

Você também pode:

Configurar problemas de previsão

Você pode configurar um problema de previsão usando a IU do AutoML com as seguintes passos:

  1. No campo compute , selecione um clusters executando Databricks Runtime 10,0 ML ouacima.

  2. No menu suspenso do tipo de problema de ML , selecione Previsão.

  3. Em dataset, clique em Procurar. Navegue até a tabela que deseja usar e clique em Selecionar. O esquema da tabela é exibido.

  4. Clique no campo Alvo de previsão . Um menu dropdown aparece listando as colunas mostradas no esquema. Selecione a coluna que deseja que o modelo preveja.

  5. Clique no campo da coluna Hora . Um menu suspenso aparece mostrando as colunas dataset que são do tipo timestamp ou date. Selecione a coluna que contém os períodos de tempo para a série temporal.

  6. Para previsão de várias séries, selecione a(s) coluna(s) que identifica(m) a série temporal individual na lista suspensa Identificadores de série temporal . O AutoML agrupa os dados por essas colunas como diferentes séries temporais e ensina um modelo para cada série de forma independente. Se você deixar esse campo em branco, o AutoML presumirá que o dataset contém uma única série temporal.

  7. Nos campos Horizonte de previsão e frequência , especifique o número de períodos de tempo no futuro para os quais o AutoML deve calcular os valores previstos. Na caixa à esquerda, insira o número inteiro de períodos a serem previstos. Na caixa à direita, selecione as unidades. .. obs:: Para usar o Auto-ARIMA, a série temporal deve ter uma frequência regular (ou seja, o intervalo entre quaisquer dois pontos deve ser o mesmo ao longo da série temporal). A frequência deve corresponder à unidade de frequência especificada na chamada de API ou na IU do AutoML. O AutoML lida com passos de tempo ausentes preenchendo esses valores com o valor anterior.

  8. No Databricks Runtime 10,5 MLe acima, você pode salvar os resultados da previsão. Para fazer isso, especifique um banco de dados no campo Banco de dados de saída . Clique em Procurar e selecione um banco de dados na caixa de diálogo. O AutoML grava os resultados da previsão em uma tabela neste banco de dados.

  9. O campo Nome do experimento mostra o nome default . Para alterá-lo, digite o novo nome no campo.

Você também pode:

Use tabelas de recursos existentes do Databricks Feature Store

No Databricks Runtime 11.3 LTS MLe acima, você pode usar tabelas de recursos no Databricks Feature Store para expandir o dataset de treinamento de entrada para seus problemas de classificação e regressão.

No Databricks Runtime 12.2 LTS MLe acima, você pode usar tabelas de recursos no Databricks Feature Store para expandir o dataset de treinamento de entrada para todos os seus problemas de AutoML: classificação, regressão e previsão.

Para criar uma tabela de recursos, consulte Criar uma tabela de recursos no Unity Catalog ou Criar uma tabela de recursos no Databricks recurso Store.

Depois de terminar de configurar seu experimento do AutoML, você pode selecionar uma tabela de recursos com as seguintes passos:

  1. Clique em recursosjoin (opcional).

    Selecione o botão de recursos join
  2. Na página Recursos Adicionaisjoin , selecione uma tabela de recursos no campo Tabela de Recursos .

  3. Para cada keyprimária da tabela de recursos, selecione a key de pesquisa correspondente. A key de pesquisa deve ser uma coluna no dataset de treinamento fornecido para seu experimento do AutoML.

  4. Para tabelas de recursos de séries temporais, selecione a key de pesquisa de carimbo de data/hora correspondente. Da mesma forma, a key de pesquisa de carimbo de data/hora deve ser uma coluna no dataset de treinamento que você forneceu para seu experimento do AutoML.

    Selecione key primária e as tabelas de pesquisa
  5. Para adicionar mais tabelas de recursos, clique em Adicionar outra tabela e repita os passos acima.

Configurações avançadas

Abra a seção Configuração avançada (opcional) para acessar esses parâmetros.

  • As métricas de avaliação são as métricas primárias usadas para pontuar a execução.

  • No Databricks Runtime 10.3 MLe acima, você pode excluir as estruturas de treinamento da consideração. Por default, o AutoML ensina modelos usando estruturas listadas em algoritmos do AutoML.

  • Você pode editar as condições de parada. as condições de parada default são:

    • Para experimentos de previsão, pare após 120 minutos.

    • No Databricks Runtime 10,5 ML e abaixo, para experimentos de classificação e regressão, pare após 60 minutos ou após concluir 200 tentativas, o que ocorrer primeiro. Para Databricks Runtime 11,0 MLe acima, o número de tentativas não é usado como uma condição de parada.

    • No Databricks Runtime 10.1 MLe acima, para experimentos de classificação e regressão, o AutoML incorpora a parada antecipada; interrompe os modelos de treinamento e tuning se os indicadores de validação não estiverem mais melhorando.

  • No Databricks Runtime 10.1 MLe acima, você pode selecionar uma coluna de tempo para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se somente à classificação e regressão).

  • A Databricks recomenda não preencher o campo Diretório de dados . Fazer isso aciona o comportamento default que é armazenar com segurança o dataset como um artefato MLflow. Um caminho DBFS pode ser especificado, mas, nesse caso, o dataset não herda as permissões de acesso do experimento AutoML.

Seleção de coluna

Observação

Esta funcionalidade está disponível apenas para problemas de classificação e regressão

No Databricks Runtime 10.3 MLe acima, você pode especificar quais colunas o AutoML deve usar para treinamento. Para excluir uma coluna, desmarque-a na coluna Incluir .

Você não pode descartar a coluna selecionada como o Alvo de previsão ou como a coluna de tempo para dividir os dados.

Por default, todas as colunas são incluídas.

Imputação de valores ausentes

No Databricks Runtime 10.4 LTS ML e acima, você pode especificar como os valores nulos são imputados. Na IU, selecione um método no menu suspenso na coluna Imputar com no esquema da tabela.

Por default, o AutoML seleciona um método de imputação com base no tipo e no conteúdo da coluna.

Observação

Se você especificar um método de imputação nãodefault , o AutoML não executará a detecção de tipo semântico.

executar o experimento e monitorar os resultados

Para começar a experiência do AutoML, clique em começar AutoML. O experimento começa a ser executado e a página de treinamento do AutoML aparece. Para atualizar a tabela de execução, clique em botão refresh.

A partir desta página, você pode:

  • Interrompa o experimento a qualquer momento.

  • Abra o Notebook de exploração de dados.

  • Monitore a execução.

  • Navegue até a página de execução de qualquer execução.

Com o Databricks Runtime 10.1 MLe acima, o AutoML exibe avisos para possíveis problemas com o dataset, como tipos de coluna sem suporte ou colunas de alta cardinalidade.

Observação

O Databricks faz o possível para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e não capturar problemas ou erros que você possa estar procurando. Por favor, certifique-se de conduzir suas próprias revisões também.

Para ver os avisos do dataset, clique na tab Avisos na página de treinamento ou na página da experiência após a conclusão da experiência.

Avisos do AutoML

Quando o experimento for concluído, você poderá:

  • registro e aprimoramento de um dos modelos com MLflow.

  • Selecione view Notebook para o melhor modelo para revisar e editar o Notebook que criou o melhor modelo.

  • Selecione view Notebook de exploração de dados para abrir o Notebook de exploração de dados.

  • Pesquise, filtre e classifique a execução na tabela de execução.

  • Veja os detalhes de qualquer execução:

    • O Notebook gerado contendo o código-fonte para uma execução de teste pode ser encontrado clicando na execução do MLflow. O Notebook é salvo na seção Artefatos da página de execução. Você pode downloads deste Notebook e importá-lo para o workspace, se os artefatos downloads estiverem habilitados pelos administradores workspace .

    • Para view os resultados da corrida, clique na coluna Modelos ou na coluna Começar Tempo . A página de execução aparece mostrando informações sobre a execução de teste (como parâmetros, métricas e tags) e artefatos criados pela execução, incluindo o modelo. Esta página também inclui trechos de código que você pode usar para fazer previsões com o modelo.

Para retornar a esse experimento do AutoML mais tarde, localize-o na tabela da página Experimentos. Os resultados de cada experimento AutoML, incluindo a exploração de dados e Notebook de treinamento, são armazenados em uma pasta databricks_automl na pasta <span texecuçãoslate="no">1<span texecuçãoslate="no">2home <span texecuçãoslate="no">3<span texecuçãoslate="no">4do usuário que executa o experimento.

registrar e aprimorar um modelo

Você pode registrar e aprimorar seu modelo com a IU do AutoML:

  1. Selecione o link na coluna Modelos para o modelo a ser registrado. Quando uma execução é concluída, o melhor modelo (com base nos indicadores primários) é a linha superior.

  2. Selecione botão modelo de registro para registrar um modelo no Model Registry.

  3. Selecione ícone de modelos Models na barra lateral para navegar até o Model Registry.

  4. Selecione o nome do seu modelo na tabela de modelos.

  5. Na página do modelo cadastrado, você pode atender o modelo com modelo instalado.

Nenhum módulo chamado 'pandas.core.indexes.numeric

Ao exibir um modelo criado usando o AutoML com Model Serving, você pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso ocorre devido a uma versão pandas incompatível entre o AutoML e o modelo que atende ao ambiente de endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita requirements.txt e conda.yaml para seus logs de modelos para incluir a versão de dependência pandas apropriada: pandas==1.5.3

  1. Modifique o script para incluir o run_id da execução do MLflow em que seu modelo foi logs.

  2. Registrando novamente o modelo no MLflow Model Registry.

  3. Tente servir a nova versão do modelo MLflow.