Migrar para o modelo servindo
Este artigo demonstra como habilitar o servindo modelo em seu workspace e alternar seus modelos para a Mosaic AI Model Serving experiência criada em serverless compute.
A partir de 22 de agosto de 2025, os clientes não poderão mais criar novos pontos de extremidade de serviço usando a experiência do modelo de serviço Legacy MLflow. Em 15 de setembro de 2025, a experiência legada chegará ao fim da vida útil e todos os terminais existentes que utilizam este serviço não poderão mais ser utilizados.
Requisitos
- Modelo registrado no MLflow Model Registry.
 - Permissões nos modelos registrados, conforme descrito no guia de controle de acesso.
 - Habilite o serverless compute em seu workspace.
 
Mudanças significativas
- No modelo servindo, o formato da solicitação para o endpoint e a resposta do endpoint são ligeiramente diferentes do modelo servindo Legacy MLflow. Consulte Pontuação de um endpoint de modelo para obter detalhes sobre o novo protocolo de formato.
 - No modelo servindo, o URL endpoint inclui 
serving-endpointsem vez demodel. - O modelo servindo inclui suporte completo para o gerenciamento de recursos com API fluxo de trabalho.
 - A servindo modelo está pronta para a produção e conta com o apoio do site Databricks SLA.
 
Identifique o endpoint de serviço que utiliza o modelo de serviço Legacy MLflow.
Para identificar o endpoint do modelo de serviço que utiliza o modelo de serviço Legacy MLflow:
- Navegue até a interface do usuário Models (Modelos) em workspace.
 - Selecione o filtro Workspace Model Registry filtro.
 - Selecione o filtro Legacy Serving Only ativado .
 
Migrar o legado MLflow servindo modelo modelos servidos para servindo modelo
O senhor pode criar um servindo modelo endpoint e fazer uma transição flexível do servindo modelo fluxo de trabalho sem desativar o Legacy MLflow servindo modelo.
As passos a seguir mostram como fazer isso com a IU. Para cada modelo no qual você tem Legacy MLflow Model Serving ativado:
- registre seu modelo em Unity Catalog.
 - Navegue até o endpoint Serving na barra lateral do seu aprendizado de máquina workspace.
 - Siga o fluxo de trabalho descrito em Criar endpoint de modelo de serviço personalizado sobre como criar um serviço endpoint com seu modelo.
 - Faça a transição do seu aplicativo para usar a nova URL fornecida pelo endpoint de atendimento para consultar o modelo, juntamente com o novo formato de pontuação.
 - Quando os modelos forem transferidos, o senhor poderá navegar para Models (Modelos ) na barra lateral do aprendizado de máquina workspace.
 - Selecione o modelo para o qual o senhor deseja desativar o Legacy MLflow servindo modelo.
 - No site Serving tab, selecione Stop (Parar ).
 - Uma mensagem aparece para confirmar. Selecione Parar de servir .
 
Migrar versões do modelo implantado para o modelo em funcionamento
Nas versões anteriores da funcionalidade servindo modelo, o serviço endpoint era criado com base no estágio da versão do modelo registrado: Staging ou Production. Para migrar seus modelos servidos dessa experiência, o senhor pode replicar esse comportamento na nova experiência servindo modelo.
Esta seção demonstra como criar endpoints de serviço de modelo separados para Staging versões de modelo e Production versões de modelo. As passos a seguir mostram como fazer isso com a API de endpoints de serviço para cada um de seus modelos atendidos.
No exemplo, o nome do modelo registrado modelA tem a versão 1 no estágio de modelo Production e a versão 2 no estágio de modelo Staging.
- 
Crie dois endpoints para o seu modelo registrado, um para as versões do modelo
Staginge outro para as versões do modeloProduction.Para as versões do modelo
Staging:BashPOST /api/2.0/serving-endpoints
{
"name":"modelA-Staging"
"config":
{
"served_entities":
[
{
"entity_name":"model-A",
"entity_version":"2", // Staging Model Version
"workload_size":"Small",
"scale_to_zero_enabled":true
},
],
},
}Para as versões do modelo
Production:BashPOST /api/2.0/serving-endpoints
{
"name":"modelA-Production"
"config":
{
"served_entities":
[
{
"entity_name":"model-A",
"entity_version":"1", // Production Model Version
"workload_size":"Small",
"scale_to_zero_enabled":true
},
],
},
} - 
Verifique o status do ponto de extremidade.
Para Staging endpoint:
GET /api/2.0/serving-endpoints/modelA-StagingPara o endpoint de produção:
GET /api/2.0/serving-endpoints/modelA-Production - 
Quando o endpoint estiver pronto, consulte o site endpoint usando:
Para Staging endpoint:
POST /serving-endpoints/modelA-Staging/invocationsPara o endpoint de produção:
POST /serving-endpoints/modelA-Production/invocations - 
Atualizar o endpoint com base nas transições de versão do modelo.
No cenário em que um novo modelo versão 3 é criado, você pode fazer a transição da versão 2 do modelo para
Production, enquanto a versão do modelo 3 pode fazer a transição paraStaginge a versão 1 do modelo éArchived. Essas alterações podem ser refletidas em um endpoint de modelo de serviço separado da seguinte forma:Para o endpoint
Staging, atualize o endpoint para usar a nova versão do modelo emStaging.BashPUT /api/2.0/serving-endpoints/modelA-Staging/config
{
"served_entities":
[
{
"entity_name":"model-A",
"entity_version":"3", // New Staging model version
"workload_size":"Small",
"scale_to_zero_enabled":true
},
],
}Para o endpoint
Production, atualize o endpoint para usar a nova versão do modelo emProduction.BashPUT /api/2.0/serving-endpoints/modelA-Production/config
{
"served_entities":
[
{
"entity_name":"model-A",
"entity_version":"2", // New Production model version
"workload_size":"Small",
"scale_to_zero_enabled":true
},
],
}