Pular para o conteúdo principal

Otimização de rota no endpoint de atendimento

Este artigo descreve como ativar a otimização de rota em seu endpoint modelo servindo. O ponto final de atendimento otimizado para rota reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência suportada pelo seu endpoint.

A otimização da rota é recomendada para cargas de trabalho com alta taxa de transferência ou sensíveis à latência.

O que é otimização de rotas?

Quando o senhor ativa a otimização de rota em um endpoint, o Databricks servindo modelo melhora o caminho da rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre o cliente e o modelo. Esse roteamento otimizado desbloqueia consultas mais altas por segundo (QPS) em comparação com o endpoint não otimizado e fornece latências mais estáveis e mais baixas para seus aplicativos.

Para aproveitar os benefícios do endpoint com otimização de rota, o senhor deve fazer as seguintes alterações no seu cliente:

  • Use o URL com otimização de rota: Cada rota otimizada endpoint tem um URL exclusivo. Você deve enviar solicitações de inferência para esse URL específico.
  • Autenticar usando OAuth tokens: O ponto de extremidade otimizado por rota suporta apenas OAuth tokens para autenticação. Outros mecanismos de autenticação não são suportados.

Requisitos

Para otimização de rotas em um modelo de serviço endpoint, consulte Requisitos.

Ativar a otimização de rota em um modelo de serviço endpoint

O senhor pode ativar a otimização de rotas ao criar um modelo de serviço endpoint usando a Serving UI. O senhor só pode ativar a otimização de rota durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que seja otimizado.

  1. Na barra lateral, clique em Serving para exibir a interface de usuário do Serving.
  2. Clique em Criar endpoint de serviço .
  3. Na seção Otimização de rota , selecione Ativar otimização de rota.
  4. Depois que o endpoint é criado, a Databricks envia ao senhor uma notificação sobre o que é necessário para consultar um endpoint otimizado para rota.

Criar um modelo de serviço endpoint

Limitações

  • A otimização de rotas só está disponível para o endpoint de modelo de serviço personalizado. Não há suporte para endpoints de atendimento que usam o Foundation Model APIs ou modelos externos.
  • Os tokens OAuth internos da Databricks são a única autenticação compatível com a otimização de rotas. Não há suporte para tokens de acesso pessoal.

Recurso adicional