Otimização de rota no endpoint de atendimento
Este artigo descreve como ativar a otimização de rota em seu endpoint modelo servindo. O ponto final de atendimento otimizado para rota reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência suportada pelo seu endpoint.
Os endpoints otimizados para rotas são consultados de forma diferente dos endpoints não otimizados para rotas, incluindo o uso de uma URL diferente e autenticação por meio de tokens OAuth . Consulte a seção "Ponto de extremidade de serviço otimizado para rotas de consulta" para obter detalhes.
O que é otimização de rotas?
Quando o senhor ativa a otimização de rota em um endpoint, o Databricks servindo modelo melhora o caminho da rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre o cliente e o modelo. Esse roteamento otimizado desbloqueia consultas mais altas por segundo (QPS) em comparação com o endpoint não otimizado e fornece latências mais estáveis e mais baixas para seus aplicativos.
Requisitos
- A otimização de rotas no endpoint do Servindo Modelo tem os mesmos requisitos que o endpoint do Servindo Modelo sem otimização de rotas.
Ativar a otimização de rota em um modelo de serviço endpoint
- Serving UI
- REST API
- Python
- Databricks SDK
O senhor pode ativar a otimização de rotas ao criar um modelo de serviço endpoint usando a Serving UI. O senhor só pode ativar a otimização de rota durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que seja otimizado.
- Na barra lateral, clique em Serving para exibir a interface de usuário do Serving.
- Clique em Criar endpoint de serviço .
- Na seção Otimização de rota , selecione Ativar otimização de rota.
- Depois que o endpoint é criado, a Databricks envia ao senhor uma notificação sobre o que é necessário para consultar um endpoint otimizado para rota.

Para configurar seu serviço endpoint para otimização de rota usando o parâmetro REST API, especifique o parâmetro route_optimized durante a criação do modelo de serviço endpoint. O senhor só pode especificar esse parâmetro durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que ele seja otimizado para a rota.
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[{
"entity_name": "ads1",
"entity_version": "1",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true,
}],
},
"route_optimized": true
}
Se o senhor usar o site Python, poderá usar o seguinte Notebook para criar uma rota otimizada que atenda ao site endpoint.
Criar um serviço otimizado de rota endpoint usando o Python Notebook
Para configurar seu endpoint de serviço para otimização de rotas usando o SDK Databricks , especifique o parâmetro route_optimized durante a criação endpoint do modelo de serviço. Você só pode especificar esse parâmetro durante a criação endpoint ; não é possível atualizar um endpoint existente para que ele seja otimizado para roteamento.
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput
workspace = WorkspaceClient()
workspace.serving_endpoints.create(
name="my-serving-endpoint",
config = EndpointCoreConfigInput(
served_entities=[
ServedEntityInput(
entity_name="main.default.my-served-entity",
scale_to_zero_enabled=True,
workload_size="Small"
)
]
),
route_optimized=True
)
Limitações
- A otimização de rotas só está disponível para o endpoint de modelo de serviço personalizado. Não há suporte para endpoints de atendimento que usam o Foundation Model APIs ou modelos externos.
- Os tokens OAuth internos da Databricks são a única autenticação compatível com a otimização de rotas. Não há suporte para tokens de acesso pessoal.