Pular para o conteúdo principal

Otimização de rota no endpoint de atendimento

Este artigo descreve como ativar a otimização de rota em seu modelo de serviço ou Feature Serving endpoint. O endpoint de atendimento otimizado para rota reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência suportada pelo seu endpoint.

A otimização da rota é recomendada para cargas de trabalho com alta taxa de transferência ou sensíveis à latência.

O que é otimização de rotas?

Quando o senhor ativa a otimização de rota em um endpoint, o Databricks servindo modelo melhora o caminho da rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre o cliente e o modelo. Esse roteamento otimizado desbloqueia consultas mais altas por segundo (QPS) em comparação com o endpoint não otimizado e fornece latências mais estáveis e mais baixas para seus aplicativos.

Para aproveitar os benefícios do endpoint com otimização de rota, o senhor deve fazer as seguintes alterações no seu cliente:

  • Use o URL com otimização de rota: Cada rota otimizada endpoint tem um URL exclusivo. Você deve enviar solicitações de inferência para esse URL específico.
  • Autenticar usando OAuth tokens: O ponto de extremidade otimizado por rota suporta apenas OAuth tokens para autenticação. Outros mecanismos de autenticação não são suportados.

Requisitos

  • Para otimização de rotas em um modelo de serviço endpoint, consulte Requisitos.
  • Para otimização de rota em um Feature Serving endpoint, consulte Requisitos.

Ativar a otimização de rota em um modelo de serviço endpoint

O senhor pode ativar a otimização de rotas ao criar um modelo de serviço endpoint usando a Serving UI. O senhor só pode ativar a otimização de rota durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que seja otimizado.

  1. Na barra lateral, clique em Serving para exibir a interface de usuário do Serving.
  2. Clique em Criar endpoint de serviço .
  3. Na seção Otimização de rota , selecione Ativar otimização de rota.
  4. Depois que o endpoint é criado, a Databricks envia ao senhor uma notificação sobre o que é necessário para consultar um endpoint otimizado para rota.

Criar um modelo de serviço endpoint

Habilite a otimização de rotas em um site Feature Serving endpoint

Para usar a otimização de rota para recurso e Function Serving, especifique o nome completo da especificação de recurso no campo entity_name para atender às solicitações de criação do endpoint. O entity_version não é necessário para FeatureSpecs.

Bash

POST /api/2.0/serving-endpoints

{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}

Limitações

  • A otimização de rotas só está disponível para o ponto de extremidade de modelo de serviço personalizado e para o ponto de extremidade Feature Serving. Não há suporte para APIs de modelo básico e modelos externos.
  • Os tokens OAuth internos da Databricks são a única autenticação compatível com a otimização de rotas. Não há suporte para tokens de acesso pessoal.

Recurso adicional