Ajuste de hiperparâmetros

O Databricks Runtime para Machine Learning incorpora o Hyperopt, uma ferramenta de código aberto que automatiza o processo de seleção de modelo e ajuste de hiperparâmetros.

Ajuste de hiperparâmetros com Ray

O Databricks Runtime ML inclui o Ray, uma estrutura de código aberto especializada em processamento compute paralelo para dimensionar o fluxo de trabalho de ML e aplicativos de IA. Consulte Usar Ray em Databricks.

Ajuste de hiperparâmetros com Hyperopt

Databricks Runtime ML inclui Hyperopt, uma biblioteca Python que facilita o ajuste de hiperparâmetro distribuído e a seleção de modelo. Com o Hyperopt, você pode escanear um conjunto de modelos Python enquanto varia algoritmos e hiperparâmetros nos espaços que você definir. O Hyperopt funciona com algoritmos de ML distribuídos, como Apache Spark MLlib e Horovod, bem como com modelos de ML de máquina única, como Scikit-Learn e TensorFlow.

Os passos básicos ao usar o Hyperopt são:

  1. Defina uma função objetivo para minimizar. Normalmente, esta é a perda de treinamento ou validação.

  2. Defina o espaço de pesquisa de hiperparâmetros. O Hyperopt fornece um espaço de pesquisa condicional, que permite comparar diferentes algoritmos de ML na mesma execução.

  3. Especifique o algoritmo de pesquisa. O Hyperopt usa algoritmos de ajuste estocástico que realizam uma pesquisa mais eficiente do espaço de hiperparâmetros do que uma pesquisa de grade determinística.

  4. execução da função Hyperopt fmin(). fmin() pega os itens que você definiu nos passos anteriores e identifica o conjunto de hiperparâmetros que minimiza a função objetivo.

Para começar rapidamente a usar o Hyperopt com algoritmos Scikit-Learn , consulte:

Para obter mais detalhes sobre como o Hyperopt funciona e para exemplos adicionais, consulte:

Acompanhamento automatizado de MLflow

Observação

MLlib O acompanhamento automatizado MLflow está obsoleto e desativado por default em clusters que executa Databricks Runtime 10.4 LTS ML e acima. Em vez disso, use MLflow PySpark ML autologging chamando mlflow.pyspark.ml.autolog(), que é ativado por default com Databricks Autologging.

Para usar o antigo MLlib automatizado MLflow acompanhamento em Databricks Runtime 10.4 LTS ML e acima, habilite-o definindo as configuraçõesSpark spark.databricks.mlflow.trackMLlib.enabled true e spark.databricks.mlflow.autologging.enabled false.