Implantações expressas para endpoint de modelo de operação

Este artigo descreve como usar implantações do Express no endpoint do seu modelo de serviço . As implantações expressas reduzem drasticamente os tempos de implantação e mantêm o ambiente do modelo de serviço igual ao ambiente do modelo de treinamento.

nota

As implantações do Express eram anteriormente chamadas de implantações otimizadas para serverless .

O que são implantações expressas?

As implementações Express aproveitam o empacotamento e o armazenamento temporário de artefatos do modelo em ambientes Notebook serverless durante o registro do modelo, resultando em uma implantação endpoint acelerada e ambientes consistentes entre o treinamento e a disponibilização.

Isso difere das implantações não expressas, onde os artefatos e ambientes do modelo são empacotados em contêineres no momento da implantação. Nesses casos, o ambiente de serviço pode não corresponder ao utilizado durante o treinamento do modelo.

Requisitos

O endpoint de implantação do Express tem os mesmos requisitos que endpoint do modelo de serviço (consulte Requisitos). Além disso:

O modelo deve ser um modelo personalizado (não FMAPI).
O modelo deve ser registrado em um Notebooksem servidor usando a versão 3 ou 4.
O modelo deve ser registrado em Logs com mlflow>=3.1 e databricks-sdk>=0.102.0
O modelo deve ser registrado no Unity Catalog. O compute de serviço deve corresponder ao compute do qual o modelo foi registrado. Você pode registro de um Notebooks Serverless regular para servir na CPU, ou de um compute de GPU Serverless para servir na GPU.
O tamanho máximo do ambiente do modelo é 200GB

Utilizando implantações expressas

Ao registrar e registrar um modelo, use um Notebook sem servidor com cliente 3 ou 4 e mlflow>=3.1.

Para ajustar a versão do cliente do ambiente serverless , consulte Configurar o ambiente serverless.

Em seguida, ao registrar um modelo, defina o parâmetro env_pack com os valores desejados.

Python
import mlflow
from mlflow.utils.env_pack import EnvPackConfig

mlflow.register_model(
    model_info.model_uri,
    model_name,
    env_pack=EnvPackConfig(name="databricks_model_serving")
)

Adicionar o parâmetro env_pack fará com que a função empacote e prepare os artefatos do modelo e o ambiente Notebook serverless durante o registro do modelo, para prepará-lo para uso durante a implantação. Isso pode levar mais tempo em comparação com o registro do modelo sem env_pack.

EnvPackConfig possui um parâmetro install_dependencies (True por default) que determina se as dependências do modelo estão instaladas no ambiente atual para confirmar se o ambiente é válido. Se você quiser pular essa etapa, defina o valor para False.

nota

O endpoint em um espaço de trabalho sem acesso à internet ou um endpoint com dependências em uma biblioteca personalizada pode falhar se install_dependencies for definido como True. Nesses casos, defina install_dependencies como False.

Você também pode substituir EnvPackConfig(...) por "databricks_model_serving" como uma forma abreviada. Isto é equivalente a EnvPackConfig(name="databricks_model_serving", install_dependencies = True).

Após o registro do modelo estar concluído, você pode implantá-lo no servidor de modelos. Observe que o tempo de implantação foi reduzido e os logs de eventos não indicam mais a criação de contêineres.

O que são implantações expressas?​

Requisitos​

Utilizando implantações expressas​

O que são implantações expressas?

Requisitos

Utilizando implantações expressas