Ajuste de hiperparâmetros
Python Biblioteca como Optuna, Ray Tune e Hyperopt simplificam e automatizam o ajuste de hiperparâmetros para encontrar com eficiência um conjunto ideal de hiperparâmetros para o modelo de aprendizado de máquina. Essas bibliotecas escalonam em vários computadores para encontrar rapidamente hiperparâmetros com requisitos mínimos de configuração e orquestração manual.
Optuna
O Optuna é uma estrutura leve que facilita a definição de um espaço de busca dinâmico para ajuste de hiperparâmetros e seleção de modelos. O Optuna inclui alguns dos mais recentes algoritmos de otimização e aprendizado de máquina.
O Optuna pode ser facilmente paralelizado com o Joblib para escalonar as cargas de trabalho e integrado ao Mlflow para rastrear hiperparâmetros e métricas entre os testes.
Para começar a usar o Optuna, consulte Ajuste de hiperparâmetros com o Optuna.
Ray Tune
Databricks Runtime ML inclui o Ray, uma estrutura de código aberto usada para processamento paralelo do compute. O Ray Tune é uma biblioteca de ajuste de hiperparâmetros que vem com o Ray e usa o Ray como backend para computação distribuída.
Para obter detalhes sobre como executar o Ray em Databricks, consulte O que é o Ray em Databricks? Para obter exemplos do Ray Tune, consulte a documentação do Ray Tune.
Hyperopt
A versão de código aberto do Hyperopt não está mais sendo mantida.
O Hyperopt será removido na próxima versão principal do DBR ML. A Databricks recomenda o uso do Optuna para otimização de nó único ou do RayTune para obter uma experiência semelhante à funcionalidade de ajuste de hiperparâmetro distribuído Hyperopt, que foi descontinuada. Saiba mais sobre o uso do RayTune no Databricks.
Hyperopt é uma biblioteca Python usada para ajuste de hiperparâmetros distribuídos e seleção de modelos. O Hyperopt funciona com algoritmos de ML distribuídos, como Apache Spark MLlib e Horovod, bem como com modelos de ML de máquina única, como scikit-learn e TensorFlow.
Para começar a usar o Hyperopt, consulte Usar algoritmos de treinamento distribuído com o Hyperopt.
MLlib automatizado acompanhamento MLflow
MLlib O acompanhamento automatizado MLflow está obsoleto e desativado pelo default em clusters que executam Databricks Runtime 10.4 LTS ML e acima.
Em vez disso, use MLflow PySpark ML autologging chamando mlflow.pyspark.ml.autolog()
, que é ativado por default com Databricks Autologging.
Com o MLlib MLflow acompanhamento automatizado, quando o senhor executa o código de ajuste que usa o CrossValidator ou o TrainValidationSplit. Os hiperparâmetros e as métricas de avaliação são registrados automaticamente em MLflow.