Criar e gerenciar serviços de modelo
Beta
Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Pré-visualizações do console da conta. Consulte Gerenciar pré-visualizações do Databricks.
Esta página descreve como criar, compartilhar e gerenciar serviços de modelo no Unity Catalog.
Requisitos
- Prévia do Unity AI Gateway ativada para sua account. Consulte Gerenciar prévias do Databricks.
- Um workspace do Databricks em uma região suportada pelo Unity AI Gateway.
- Unity Catalog habilitado para seu workspace. Consulte Ativar um workspace para o Unity Catalog.
- Para criar um serviço de modelo, você deve ter:
USE CATALOG,USE SCHEMAeCREATE SERVICEno catálogo e esquema onde você cria o serviço de modelo.EXECUTEem cada modelo que o serviço de modelo referencia como destino.USE CATALOG,USE SCHEMA, eCREATE TABLEno catálogo e esquema onde a tabela de inferência é criada, se você habilitar o log de inferência.
Criar um serviço de modelo
Você pode criar um serviço de modelo na UI do Unity AI Gateway, no Catalog Explorer ou com a API REST do Unity Catalog.
Use a IU
-
Siga um destes procedimentos:
- Na barra lateral do workspace, clique em AI Gateway e, em seguida, em Criar .
- No Catalog Explorer, vá para o esquema onde deseja criar o serviço de modelo, então clique em Criar > Serviço de modelo .
-
Insira um nome para o serviço de modelo e selecione o catálogo e o esquema para criá-lo. Se você começar do Catalog Explorer, o Catalog Explorer preencherá automaticamente o catálogo e o esquema.
-
Selecione o modelo principal a ser servido, entre os modelos hospedados pelo Databricks que você tem
EXECUTEe que o Unity AI Gateway pode servir. -
Clique em Criar .
Após criar o serviço de modelo, o Databricks abrirá sua página de visão geral, onde você poderá começar ou configurar recursos adicionais, como o registro de inferência.
Use a API REST
Envie uma solicitação POST para o endpoint model-services da API REST do Unity Catalog. O exemplo a seguir cria um serviço de modelo que roteia para um modelo primário e recorre a um segundo modelo, com registro de inferência e limites de taxa ativados:
curl https://<workspace-url>/api/2.2/unity-catalog/model-services \
-X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $DATABRICKS_TOKEN" \
-H "x-databricks-workspace-id: <workspace-id>" \
-d '{
"catalog_name": "main",
"schema_name": "default",
"name": "team-chat",
"comment": "Shared chat endpoint with fallback.",
"destinations": [
{ "name": "primary", "model": "system.ai.databricks-claude-opus-4-6" },
{ "name": "fallback", "model": "system.ai.databricks-gpt-5-2" }
],
"routes": {
"strategy": "fallback",
"destinations": ["primary", "fallback"]
},
"inference_table": "main.logging.team_chat_payload",
"rate_limits": {
"tpm": 10000,
"qpm": 1000
}
}'
Substitua o seguinte:
<workspace-url>: Seu URL do workspace do Databricks.<workspace-id>: O ID do workspace ao qual associar a solicitação. Este workspace é cobrado pelo uso de pagamento por tokens.
Conceder acesso a um serviço de modelo
Para permitir que outros consultem um serviço de modelo, conceda a eles EXECUTE no serviço de modelo e USE CATALOG e USE SCHEMA em seu catálogo e esquema. Se o serviço de modelo fizer log em uma tabela de inferência, conceda SELECT na tabela para permitir que leiam as solicitações e respostas registradas.
GRANT USE CATALOG ON CATALOG main TO ai_team;
GRANT USE SCHEMA ON SCHEMA main.default TO ai_team;
GRANT EXECUTE ON MODEL SERVICE main.default.team_chat TO ai_team;
-- Optional: grant access to the inference table
GRANT SELECT ON TABLE main.logging.team_chat_payload TO ai_team;
Para obter mais informações sobre a concessão e descoberta de acesso, consulte governar serviços de modelo.
Configurar recursos em um serviço de modelo
O usuário configura recursos como limites de taxa, log de inferência e guardrails no serviço de modelo da interface do usuário do Unity AI Gateway, da mesma forma que os configura em um endpoint do Unity AI Gateway. Consulte:
- Configure os endpoints do Unity AI Gateway (legado)
- Configurar limites de taxa para serviço de AI usando o Unity AI Gateway
- Monitorar serviços de modelo usando tabelas de inferência
Log de inferência
Ao habilitar o registro de inferência, a Databricks cria uma nova tabela vazia do Unity Catalog com um esquema predefinido no local que você especificar. Observe o seguinte:
- Você deve ter
USE CATALOG,USE SCHEMAeCREATE TABLEno catálogo e esquema de destino. - O criador do serviço de modelo é o proprietário da tabela de inferência. Nenhum outro usuário tem acesso, a menos que você o conceda.
- Se uma tabela já existir no local especificado, a criação do serviço de modelo falhará.
- A tabela de inferência tem um ciclo de vida independente do serviço de modelo. Se você remover a tabela, o serviço de modelo continua funcionando, mas para de registrar.
Para saber mais sobre tabelas de inferência, consulte Monitorar serviços de modelo usando tabelas de inferência.
Excluir um Serviço de Modelo
Para excluir um serviço de modelo, é necessário ter pelo menos o privilégio MANAGE sobre ele. O proprietário tem um superconjunto de MANAGE.
DROP MODEL SERVICE main.default.team_chat;
Serviços de modelo fornecidos pelo sistema em system.ai não podem ser excluídos.