Pular para o conteúdo principal

Otimização de rota no endpoint de atendimento

Este artigo descreve como ativar a otimização de rota em seu modelo de serviço ou Feature Serving endpoint. O endpoint de atendimento otimizado para rota reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência suportada pelo seu endpoint.

Os endpoints otimizados para rotas são consultados de forma diferente dos endpoints não otimizados para rotas, incluindo o uso de uma URL diferente e autenticação por meio de tokens OAuth . Consulte a seção "Ponto de extremidade de serviço otimizado para rotas de consulta" para obter detalhes.

O que é otimização de rotas?

Quando o senhor ativa a otimização de rota em um endpoint, o Databricks servindo modelo melhora o caminho da rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre o cliente e o modelo. Esse roteamento otimizado desbloqueia consultas mais altas por segundo (QPS) em comparação com o endpoint não otimizado e fornece latências mais estáveis e mais baixas para seus aplicativos.

Requisitos

Ativar a otimização de rota em um modelo de serviço endpoint

O senhor pode ativar a otimização de rotas ao criar um modelo de serviço endpoint usando a Serving UI. O senhor só pode ativar a otimização de rota durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que seja otimizado.

  1. Na barra lateral, clique em Serving para exibir a interface de usuário do Serving.
  2. Clique em Criar endpoint de serviço .
  3. Na seção Otimização de rota , selecione Ativar otimização de rota.
  4. Depois que o endpoint é criado, a Databricks envia ao senhor uma notificação sobre o que é necessário para consultar um endpoint otimizado para rota.

Criar um modelo de serviço endpoint

Habilite a otimização de rotas em um site Feature Serving endpoint

Para usar a otimização de rota para recurso e Function Serving, especifique o nome completo da especificação de recurso no campo entity_name para atender às solicitações de criação do endpoint. O entity_version não é necessário para FeatureSpecs.

Bash

POST /api/2.0/serving-endpoints

{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}

Limitações

  • A otimização de rotas só está disponível para o ponto de extremidade de modelo de serviço personalizado e para o ponto de extremidade Feature Serving. Não há suporte para endpoints de atendimento que usam o Foundation Model APIs ou modelos externos.
  • Os tokens OAuth internos da Databricks são a única autenticação compatível com a otimização de rotas. Não há suporte para tokens de acesso pessoal.

Recurso adicional