Pular para o conteúdo principal

Classificação com AutoML

Use o AutoML para encontrar automaticamente o melhor algoritmo de classificação e a melhor configuração de hiperparâmetro para prever o rótulo ou a categoria de uma determinada entrada.

Configure o experimento de classificação com a interface do usuário

O senhor pode configurar um problema de classificação usando a AutoML UI com as seguintes etapas:

  1. Na barra lateral, selecione Experimentos .

  2. No cartão de classificação , selecione começar treinamento .

    A página Configurar experimento AutoML é exibida. Nessa página, o senhor configura o processo AutoML, especificando o dataset, o tipo de problema, a coluna de destino ou rótulo a ser prevista, as métricas a serem usadas para avaliar e pontuar a execução do experimento e as condições de interrupção.

  3. No campo computação , selecione um clustering em execução Databricks Runtime ML.

  4. Em dataset , selecione Browse .

  5. Navegue até a tabela que você deseja usar e clique em Selecionar . O esquema da tabela é exibido.

nota

Se o senhor especificar um método de imputação que não seja odefault, o AutoML não realizará a detecção do tipo semântico.

  1. Clique no campo Prediction target (Alvo de previsão ). Uma lista suspensa aparece listando as colunas mostradas no esquema. Selecione a coluna que você deseja que o modelo preveja.

  2. O campo Nome do experimento mostra o nome default. Para alterá-lo, digite o novo nome no campo.

Você também pode:

Configurações avançadas

Abra a seção Configuração avançada (opcional) para acessar esses parâmetros.

  • As métricas de avaliação são as principais métricas usadas para pontuar a execução.

  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode excluir as estruturas de treinamento da consideração. Em default, AutoML treina modelos usando as estruturas listadas nos algoritmos deAutoML.

  • Você pode editar as condições de parada. As condições de parada padrão são:

    • Para prever experimentos, pare após 120 minutos.
    • No Databricks Runtime 10.4 LTS ML e abaixo, para experimentos de classificação e regressão, pare após 60 minutos ou após completar 200 tentativas, o que ocorrer primeiro. Para Databricks Runtime 11.0 ML e acima, o número de tentativas não é usado como uma condição de parada.
    • Em Databricks Runtime 10.4 LTS ML e acima, para experimentos de classificação e regressão, AutoML incorpora a parada antecipada; ele interrompe o treinamento e o ajuste dos modelos se as métricas de validação não estiverem mais melhorando.
  • Em Databricks Runtime 10.4 LTS ML e acima, o senhor pode selecionar time column para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se somente à classificação e à regressão).

  • A Databricks recomenda deixar o campo Diretório de dados vazio. Não preencher este campo aciona o comportamento " default " (Não armazenar em cache), que armazena o dataset de forma segura como um artefato MLflow. É possível especificar um caminho, mas, nesse caso, o DBFS caminho pode ser especificado, mas, nesse caso, o dataset não herda as permissões de acesso do experimento AutoML.

executar o experimento e monitorar os resultados

Para começar o experimento AutoML, clique em começar AutoML . O experimento começa a ser executado, e a página AutoML treinamento é exibida. Para acessar refresh a tabela de execução, clique em botão de atualização.

visualizar o progresso do experimento

Nessa página, você pode:

  • Pare o experimento a qualquer momento.
  • Abra o Notebook de exploração de dados.
  • Monitorar a execução.
  • Navegue até a página de execução de qualquer execução.

Com o Databricks Runtime 10.1 MLe acima, o AutoML exibe avisos para possíveis problemas com o dataset, como tipos de coluna sem suporte ou colunas de alta cardinalidade.

nota

A Databricks faz o possível para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e pode não capturar os problemas ou erros que você pode estar procurando.

Para ver os avisos do site dataset, clique em Warnings (Avisos ) tab na página de treinamento ou na página do experimento após a conclusão do experimento.

Avisos do AutoML

ver resultados

Quando o experimento for concluído, você poderá:

  • registro e implantado um dos modelos com MLflow.
  • Selecione view Notebook for best model para revisar e editar o Notebook que criou o melhor modelo.
  • Selecione view Notebook de exploração de dados para abrir o Notebook de exploração de dados.
  • O senhor pode pesquisar, filtrar e classificar a execução na tabela de execução.
  • Veja os detalhes para qualquer execução:
    • O Notebook gerado contendo o código-fonte de uma execução de teste pode ser encontrado clicando no endereço MLflow execução. O Notebook é salvo na seção Artifacts (Artefatos ) da página de execução. O senhor pode download esse Notebook e importá-lo para o workspace, se os downloads de artefatos estiverem ativados pelos administradores do workspace.
    • Para view os resultados da execução, clique na coluna Models ou na coluna Come Time . A página de execução é exibida, mostrando informações sobre a execução do teste (como parâmetros, métricas e tags) e artefatos criados pela execução, incluindo o modelo. Essa página também inclui trechos de código que você pode usar para fazer previsões com o modelo.

Para retornar a esse experimento do AutoML posteriormente, localize-o na tabela da página Experimentos. Os resultados de cada experimento do AutoML, inclusive a exploração de dados e o treinamento do Notebook, são armazenados em uma pasta databricks_automl na pasta home do usuário que executou o experimento.

registro e implantação de um modelo

Registre e implante seu modelo utilizando a interface do usuário AutoML. Quando a execução é concluída, a linha superior exibe o melhor modelo com base nas métricas primárias.

  1. Selecione o link na coluna Modelos para o modelo que deseja registrar.

  2. Selecione “ botão do modelo de registro ” para registrá-lo em Unity Catalog ou Model Registry.

nota

Databricks Recomendamos que registre os modelos em Unity Catalog para obter os recursos mais recentes.

  1. Após o registro, é possível implantar o modelo em um modelo personalizado, utilizando o link endpoint.

Nenhum módulo chamado 'pandas.core.indexes.numeric'

Ao servir um modelo criado usando AutoML com servindo modelo, o senhor pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso se deve a uma versão pandas incompatível entre AutoML e o ambiente servindo modelo endpoint. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita requirements.txt e conda.yaml para o seu modelo registrado para incluir a versão apropriada da dependência pandas: pandas==1.5.3

  1. Modifique o script para incluir o run_id da execução MLflow em que seu modelo foi registrado.
  2. Registre novamente o modelo em Unity Catalog ou no registro de modelo.
  3. Tente usar a nova versão do modelo MLflow.

Próximas etapas