Experimento MLflow

A fonte de dados do experimento MLflow fornece uma API padrão para carregar dados de execução do experimento MLflow. Você pode carregar dados do experimentoNotebook ou usar o nome ou o ID do experimento do MLflow.

Requisitos

Databricks Runtime 6.0 ML ouacima.

Carregar dados do experimento do Notebook

Para carregar dados do experimento Notebook , use load().

df = spark.read.format("mlflow-experiment").load()
display(df)
val df = spark.read.format("mlflow-experiment").load()
display(df)

Carregar IDs de experimentos de uso de dados

Para carregar dados de um ou mais experimentos de workspace, especifique os IDs dos experimentos conforme mostrado.

df = spark.read.format("mlflow-experiment").load("3270527066281272")
display(df)
val df = spark.read.format("mlflow-experiment").load("3270527066281272,953590262154175")
display(df)

Carregar nome do experimento de uso de dados

Você também pode passar o nome do experimento para o método load() .

expId = mlflow.get_experiment_by_name("/Shared/diabetes_experiment/").experiment_id
df = spark.read.format("mlflow-experiment").load(expId)
display(df)
val expId = mlflow.getExperimentByName("/Shared/diabetes_experiment/").get.getExperimentId
val df = spark.read.format("mlflow-experiment").load(expId)
display(df)

Filtre dados com base em métricas e parâmetros

Os exemplos nesta seção mostram como você pode filtrar dados depois de carregá-los de um experimento.

df = spark.read.format("mlflow-experiment").load("3270527066281272")
filtered_df = df.filter("metrics.loss < 0.01 AND params.learning_rate > '0.001'")
display(filtered_df)
val df = spark.read.format("mlflow-experiment").load("3270527066281272")
val filtered_df = df.filter("metrics.loss < 1.85 AND params.num_epochs > '30'")
display(filtered_df)

Esquema

O esquema do DataFrame retornado pela fonte de dados é:

root
|-- run_id: string
|-- experiment_id: string
|-- metrics: map
|    |-- key: string
|    |-- value: double
|-- params: map
|    |-- key: string
|    |-- value: string
|-- tags: map
|    |-- key: string
|    |-- value: string
|-- start_time: timestamp
|-- end_time: timestamp
|-- status: string
|-- artifact_uri: string