Ajuste de hiperparâmetros

O Databricks Runtime para Machine Learning incorpora o Hyperopt, uma ferramenta de código aberto que automatiza o processo de seleção de modelo e ajuste de hiperparâmetros.

Ajuste de hiperparâmetros com Ray

O Databricks Runtime ML inclui o Ray, uma estrutura de código aberto especializada em processamento compute paralelo para dimensionar o fluxo de trabalho de ML e aplicativos de IA. Consulte Usar Ray em Databricks.

Ajuste de hiperparâmetros com Hyperopt

Databricks Runtime ML inclui Hyperopt, uma biblioteca Python que facilita o ajuste de hiperparâmetro distribuído e a seleção de modelo. Com o Hyperopt, você pode escanear um conjunto de modelos Python enquanto varia algoritmos e hiperparâmetros nos espaços que você definir. O Hyperopt funciona com algoritmos de ML distribuídos, como Apache Spark MLlib e Horovod, bem como com modelos de ML de máquina única, como Scikit-Learn e TensorFlow.

Os passos básicos ao usar o Hyperopt são:

  1. Defina uma função objetivo para minimizar. Normalmente, esta é a perda de treinamento ou validação.

  2. Defina o espaço de pesquisa de hiperparâmetros. O Hyperopt fornece um espaço de pesquisa condicional, que permite comparar diferentes algoritmos de ML na mesma execução.

  3. Especifique o algoritmo de pesquisa. O Hyperopt usa algoritmos de ajuste estocástico que realizam uma pesquisa mais eficiente do espaço de hiperparâmetros do que uma pesquisa de grade determinística.

  4. execução da função Hyperopt fmin(). fmin() pega os itens que você definiu nos passos anteriores e identifica o conjunto de hiperparâmetros que minimiza a função objetivo.

Para começar rapidamente a usar o Hyperopt com algoritmos Scikit-Learn , consulte:

Para obter mais detalhes sobre como o Hyperopt funciona e para exemplos adicionais, consulte:

Acompanhamento automatizado de MLflow

Observação

O acompanhamento de MLflow automatizado de MLlib foi preterido em clusters que executam Databricks Runtime 10.1 MLe acima e está desabilitado por default em clusters que executam Databricks Runtime 10.2 MLe acima. Em vez disso, use o log automático do MLflow PySpark ML chamando mlflow.pyspark.ml.autolog(), que é habilitado por default com Databricks Autologging.

Para usar o antigo acompanhamento de MLflow automatizado MLlib no Databricks Runtime 10.2 MLe acima, habilite-o definindo as configurações do Spark spark.databricks.mlflow.trackMLlib.enabled true e spark.databricks.mlflow.autologging.enabled false.