Criar e gerenciar serviços de modelo

info

Beta

Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Pré-visualizações do console da conta. Consulte Gerenciar pré-visualizações do Databricks.

Esta página descreve como criar, compartilhar e gerenciar serviços de modelo no Unity Catalog.

Requisitos

Prévia do Unity AI Gateway ativada para sua account. Consulte Gerenciar prévias do Databricks.
Um workspace do Databricks em uma região suportada pelo Unity AI Gateway.
Unity Catalog habilitado para seu workspace. Consulte Ativar um workspace para o Unity Catalog.
Para criar um serviço de modelo, você deve ter:
- USE CATALOG, USE SCHEMA e CREATE SERVICE no catálogo e esquema onde você cria o serviço de modelo.
- EXECUTE em cada modelo que o serviço de modelo referencia como destino.
- USE CATALOG, USE SCHEMA, e CREATE TABLE no catálogo e esquema onde a tabela de inferência é criada, se você habilitar o log de inferência.

Criar um serviço de modelo

Você pode criar um serviço de modelo na UI do Unity AI Gateway, no Catalog Explorer ou com a API REST do Unity Catalog.

Use a IU

Siga um destes procedimentos:
- Na barra lateral do workspace, clique em AI Gateway e, em seguida, em Criar .
- No Catalog Explorer, vá para o esquema onde deseja criar o serviço de modelo, então clique em Criar > Serviço de modelo .
Insira um nome para o serviço de modelo e selecione o catálogo e o esquema para criá-lo. Se você começar do Catalog Explorer, o Catalog Explorer preencherá automaticamente o catálogo e o esquema.
Selecione o modelo principal a ser servido, entre os modelos hospedados pelo Databricks que você tem EXECUTE e que o Unity AI Gateway pode servir.
Clique em Criar .

Após criar o serviço de modelo, o Databricks abrirá sua página de visão geral, onde você poderá começar ou configurar recursos adicionais, como o registro de inferência.

Use a API REST

Envie uma solicitação POST para o endpoint model-services da API REST do Unity Catalog. O exemplo a seguir cria um serviço de modelo que roteia para um modelo primário e recorre a um segundo modelo, com registro de inferência e limites de taxa ativados:

Bash
curl https://<workspace-url>/api/2.2/unity-catalog/model-services \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $DATABRICKS_TOKEN" \
  -H "x-databricks-workspace-id: <workspace-id>" \
  -d '{
    "catalog_name": "main",
    "schema_name": "default",
    "name": "team-chat",
    "comment": "Shared chat endpoint with fallback.",
    "destinations": [
      { "name": "primary", "model": "system.ai.databricks-claude-opus-4-6" },
      { "name": "fallback", "model": "system.ai.databricks-gpt-5-2" }
    ],
    "routes": {
      "strategy": "fallback",
      "destinations": ["primary", "fallback"]
    },
    "inference_table": "main.logging.team_chat_payload",
    "rate_limits": {
      "tpm": 10000,
      "qpm": 1000
    }
  }'

Substitua o seguinte:

<workspace-url>: Seu URL do workspace do Databricks.
<workspace-id>: O ID do workspace ao qual associar a solicitação. Este workspace é cobrado pelo uso de pagamento por tokens.

Conceder acesso a um serviço de modelo

Para permitir que outros consultem um serviço de modelo, conceda a eles EXECUTE no serviço de modelo e USE CATALOG e USE SCHEMA em seu catálogo e esquema. Se o serviço de modelo fizer log em uma tabela de inferência, conceda SELECT na tabela para permitir que leiam as solicitações e respostas registradas.

SQL
GRANT USE CATALOG ON CATALOG main TO ai_team;
GRANT USE SCHEMA ON SCHEMA main.default TO ai_team;
GRANT EXECUTE ON MODEL SERVICE main.default.team_chat TO ai_team;

-- Optional: grant access to the inference table
GRANT SELECT ON TABLE main.logging.team_chat_payload TO ai_team;

Para obter mais informações sobre a concessão e descoberta de acesso, consulte governar serviços de modelo.

Configurar recursos em um serviço de modelo

O usuário configura recursos como limites de taxa, log de inferência e guardrails no serviço de modelo da interface do usuário do Unity AI Gateway, da mesma forma que os configura em um endpoint do Unity AI Gateway. Consulte:

Log de inferência

Ao habilitar o registro de inferência, a Databricks cria uma nova tabela vazia do Unity Catalog com um esquema predefinido no local que você especificar. Observe o seguinte:

Você deve ter USE CATALOG, USE SCHEMA e CREATE TABLE no catálogo e esquema de destino.
O criador do serviço de modelo é o proprietário da tabela de inferência. Nenhum outro usuário tem acesso, a menos que você o conceda.
Se uma tabela já existir no local especificado, a criação do serviço de modelo falhará.
A tabela de inferência tem um ciclo de vida independente do serviço de modelo. Se você remover a tabela, o serviço de modelo continua funcionando, mas para de registrar.

Para saber mais sobre tabelas de inferência, consulte Monitorar serviços de modelo usando tabelas de inferência.

Excluir um Serviço de Modelo

Para excluir um serviço de modelo, é necessário ter pelo menos o privilégio MANAGE sobre ele. O proprietário tem um superconjunto de MANAGE.

SQL
DROP MODEL SERVICE main.default.team_chat;

Serviços de modelo fornecidos pelo sistema em system.ai não podem ser excluídos.

Requisitos​

Criar um serviço de modelo​

Use a IU​

Use a API REST​

Conceder acesso a um serviço de modelo​

Configurar recursos em um serviço de modelo​

Log de inferência​

Excluir um Serviço de Modelo​

Próximos os passos​