Exemplos de treinamento de modelos
Esta seção inclui exemplos que mostram como treinar o modelo de aprendizado de máquina em Databricks usando muitos códigos abertos populares da biblioteca.
O senhor também pode usar o AutoMLque prepara automaticamente um dataset para treinamento de modelos, executa um conjunto de testes usando códigos abertos de biblioteca, como scikit-learn e XGBoost, e cria um Python Notebook com o código-fonte de cada execução de teste para que o senhor possa revisar, reproduzir e modificar o código.
Exemplos de aprendizado de máquina
Pacote | Notebook(s) | Recursos |
|---|---|---|
scikit-learn | Unity Catalog, modelo de classificação, MLflow, ajuste automatizado de hiperparâmetros com Hyperopt e MLflow | |
scikit-learn | Unity Catalog, modelo de classificação, MLflow, ajuste automatizado de hiperparâmetros com Hyperopt e MLflow, XGBoost | |
MLlib | Classificação binária, árvores de decisão, regressão GBT, Structured Streaming, transformador personalizado | |
xgboost | Python, PySpark e Scala, workloads de nó único e treinamento distribuído |
Exemplos de ajuste de hiperparâmetros
Para obter informações gerais sobre o ajuste de hiperparâmetros em Databricks, consulte Hyperparameter tuning (Ajuste de hiperparâmetros).
A versão de código aberto do Hyperopt não está mais sendo mantida.
O Hyperopt não está incluído no Databricks Runtime for Machine Learning após a versão 16.4 LTS ML. A Databricks recomenda o uso do Optuna para otimização de nó único ou do RayTune para uma experiência semelhante à funcionalidade de ajuste de hiperparâmetros distribuídos do Hyperopt, que foi descontinuada. Saiba mais sobre como usar o RayTune no Databricks.
Pacote | Notebook | Recursos |
|---|---|---|
Optuna | Optuna, Optuna distribuído, scikit-learn, MLflow | |
Hyperopt | Hyperopt distribuído, scikit-learn, MLflow | |
Hyperopt | Utilize o hyperopt distribuído para buscar o espaço de hiperparâmetros para diferentes tipos de modelos simultaneamente. | |
Hyperopt | Hyperopt, MLlib | |
Hyperopt | Práticas recomendadas para conjuntos de dados de tamanhos diferentes |