Otimização de rota no endpoint de atendimento
Este artigo descreve como ativar a otimização de rota em seu modelo de serviço ou Feature Serving endpoint. O endpoint de atendimento otimizado para rota reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência suportada pelo seu endpoint.
A otimização da rota é recomendada para cargas de trabalho com alta taxa de transferência ou sensíveis à latência.
O que é otimização de rotas?
Quando o senhor ativa a otimização de rota em um endpoint, o Databricks servindo modelo melhora o caminho da rede para solicitações de inferência, resultando em uma comunicação mais rápida e direta entre o cliente e o modelo. Esse roteamento otimizado desbloqueia consultas mais altas por segundo (QPS) em comparação com o endpoint não otimizado e fornece latências mais estáveis e mais baixas para seus aplicativos.
Para aproveitar os benefícios do endpoint com otimização de rota, o senhor deve fazer as seguintes alterações no seu cliente:
- Use o URL com otimização de rota: Cada rota otimizada endpoint tem um URL exclusivo. Você deve enviar solicitações de inferência para esse URL específico.
- Autenticar usando OAuth tokens: O ponto de extremidade otimizado por rota suporta apenas OAuth tokens para autenticação. Outros mecanismos de autenticação não são suportados.
Requisitos
- Para otimização de rotas em um modelo de serviço endpoint, consulte Requisitos.
- Para otimização de rota em um Feature Serving endpoint, consulte Requisitos.
Ativar a otimização de rota em um modelo de serviço endpoint
- Serving UI
- REST API
- Python
O senhor pode ativar a otimização de rotas ao criar um modelo de serviço endpoint usando a Serving UI. O senhor só pode ativar a otimização de rota durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que seja otimizado.
- Na barra lateral, clique em Serving para exibir a interface de usuário do Serving.
- Clique em Criar endpoint de serviço .
- Na seção Otimização de rota , selecione Ativar otimização de rota.
- Depois que o endpoint é criado, a Databricks envia ao senhor uma notificação sobre o que é necessário para consultar um endpoint otimizado para rota.
Para configurar seu serviço endpoint para otimização de rota usando o parâmetro REST API, especifique o parâmetro route_optimized
durante a criação do modelo de serviço endpoint. O senhor só pode especificar esse parâmetro durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que ele seja otimizado para a rota.
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[{
"entity_name": "ads1",
"entity_version": "1",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true,
}],
},
"route_optimized": true
}
Se o senhor usar o site Python, poderá usar o seguinte Notebook para criar uma rota otimizada que atenda ao site endpoint.
Criar um serviço otimizado de rota endpoint usando o Python Notebook
Habilite a otimização de rotas em um site Feature Serving endpoint
Para usar a otimização de rota para recurso e Function Serving, especifique o nome completo da especificação de recurso no campo entity_name
para atender às solicitações de criação do endpoint. O entity_version
não é necessário para FeatureSpecs
.
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}
Limitações
- A otimização de rotas só está disponível para o ponto de extremidade de modelo de serviço personalizado e para o ponto de extremidade Feature Serving. Não há suporte para APIs de modelo básico e modelos externos.
- Os tokens OAuth internos da Databricks são a única autenticação compatível com a otimização de rotas. Não há suporte para tokens de acesso pessoal.