Pular para o conteúdo principal

Otimização de rota no endpoint de atendimento

Este artigo descreve como ativar a otimização de rota em seu endpoint modelo servindo. O ponto final de atendimento otimizado para rota reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência suportada pelo seu endpoint.

Os endpoints otimizados para rotas são consultados de forma diferente dos endpoints não otimizados para rotas, incluindo o uso de uma URL diferente e autenticação por meio de tokens OAuth . Consulte a seção "Ponto de extremidade de serviço otimizado para rotas de consulta" para obter detalhes.

O que é otimização de rotas?

Quando o senhor ativa a otimização de rota em um endpoint, o Databricks servindo modelo melhora o caminho da rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre o cliente e o modelo. Esse roteamento otimizado desbloqueia consultas mais altas por segundo (QPS) em comparação com o endpoint não otimizado e fornece latências mais estáveis e mais baixas para seus aplicativos.

Requisitos

Ativar a otimização de rota em um modelo de serviço endpoint

O senhor pode ativar a otimização de rotas ao criar um modelo de serviço endpoint usando a Serving UI. O senhor só pode ativar a otimização de rota durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que seja otimizado.

  1. Na barra lateral, clique em Serving para exibir a interface de usuário do Serving.
  2. Clique em Criar endpoint de serviço .
  3. Na seção Otimização de rota , selecione Ativar otimização de rota.
  4. Depois que o endpoint é criado, a Databricks envia ao senhor uma notificação sobre o que é necessário para consultar um endpoint otimizado para rota.

Criar um modelo de serviço endpoint

Limitações

  • A otimização de rotas só está disponível para o endpoint de modelo de serviço personalizado. Não há suporte para endpoints de atendimento que usam o Foundation Model APIs ou modelos externos.
  • Os tokens OAuth internos da Databricks são a única autenticação compatível com a otimização de rotas. Não há suporte para tokens de acesso pessoal.

Recurso adicional