Configurar a otimização de rota no ponto de extremidade de serviço

Este artigo descreve como configurar a otimização de rota em seu modelo de serviço ou endpoint e como consultá-los. Feature Serving e como consultá-los. O ponto final de atendimento otimizado para rota reduz drasticamente a latência de sobrecarga e permite melhorias substanciais na taxa de transferência suportada pelo seu endpoint.

A otimização da rota é recomendada para cargas de trabalho com alta taxa de transferência ou sensíveis à latência.

Requisitos

  • Para otimização de rotas em um modelo de serviço endpoint, consulte Requisitos.

  • Para otimização de rota em um Feature Serving, consulte Requisitos.

Ativar a otimização de rota em um modelo de serviço endpoint

Especifique o parâmetro route_optimized durante a criação do modelo endpoint para configurar seu endpoint para otimização de rota. O senhor só pode especificar esse parâmetro durante a criação do site endpoint. Não é possível atualizar o endpoint existente para que ele seja otimizado para a rota.

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":{
    "served_entities": [{
      "entity_name": "ads1",
      "entity_version": "1",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

Se preferir usar Python, o senhor pode criar uma rota otimizada para atender a endpoint usando o seguinte Notebook.

Criar uma rota otimizada para atender a endpoint usando Python Notebook

Abra o bloco de anotações em outra guia

Habilite a otimização de rotas em um site Feature Serving endpoint

Para usar a otimização de rota para recurso e Function Serving, especifique o nome completo da especificação de recurso no campo entity_name para atender às solicitações de criação do endpoint. O entity_version não é necessário para o FeatureSpecs.

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":{
    "served_entities": [{
      "entity_name": "catalog_name.schema_name.feature_spec_name",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

Rota de consulta otimizada servindo o modelo de endpoint

Os passos a seguir mostram como testar a consulta de uma rota otimizada servindo o modelo endpoint.

Para uso em produção, como usar a rota otimizada endpoint em um aplicativo, o senhor deve criar um token OAuth. Para obter tokens OAuth programaticamente, o senhor pode seguir as orientações em OAuth machine-to-machine (M2M) authentication.

  1. Obtenha um OAuth tokens da UI de serviço do seu workspace.

    1. Clique em Serving na barra lateral para exibir a interface de usuário Serving.

    2. Na página Serving endpoint, selecione sua rota otimizada endpoint para ver os detalhes de endpoint.

    3. Na página de detalhes do endpoint, clique no botão Query endpoint (Consultar endpoint ).

    4. Selecione Fetch tokens tab.

    5. Selecione o botão Fetch OAuth tokens. Esses tokens são válidos por 1 hora. Obtenha novos tokens se os tokens atuais expirarem.

  2. Obtenha o URL do modelo de serviço endpoint na página de detalhes endpoint da UI de serviço.

  3. Use os tokens OAuth do passo 1 e o URL endpoint do passo 2 para preencher o seguinte código de exemplo que consulta a rota otimizada endpoint.

url="your-endpoint-url"
OAUTH_TOKEN=xxxxxxx

curl -X POST -H 'Content-Type: application/json' -H "Authorization: Bearer $OAUTH_TOKEN" -d@data.json $url

Para que a Python SDK consulte uma rota otimizada endpoint, entre em contato com sua equipe Databricks account .

Limitações

  • Os tokens OAuth são a única autenticação compatível com a otimização de rotas. Não há suporte para o site pessoal access tokens.

  • A otimização de rotas não impõe restrições de rede que o senhor possa ter configurado no site Databricks workspace , como listas de controle de acesso a IP ou PrivateLink. Não ative a otimização de rotas se o senhor precisar que o tráfego do modelo servindo seja limitado por esses controles. Se o senhor tiver esses requisitos de rede e ainda quiser experimentar o modelo de serviço otimizado por rota, entre em contato com a equipe Databricks account .