Configurar o endpoint do AI Gateway
Beta
Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.
Esta página descreve como configurar o endpoint AI Gateway (Beta) .
Requisitos
- A versão beta (prévia) AI Gateway está ativada para sua account. Veja as prévias do Gerenciador Databricks.
- Um workspace Databricks em uma região compatível com oAI Gateway (Beta).
- Unity Catalog está habilitado para seu workspace. Consulte Ativar um workspace para Unity Catalog.
Criar um endpointde gateway AI
Para criar um endpoint do AI Gateway:
- Na barra lateral, clique em AI Gateway .
- Clique em Criar ponto de extremidade do Gateway AI .
- Configure o nome do seu endpoint e o modelo principal.
- Clique em Criar .
Configure o recurso em um endpoint
Você pode atualizar o endpoint AI Gateway para habilitar e desabilitar o recurso. As atualizações nas configurações do AI Gateway podem levar até 1 minuto para entrar em vigor.
Para atualizar o recurso do AI Gateway em um endpoint existente:
- Clique no seu endpoint na página do AI Gateway.
- Na barra lateral Detalhes do ponto de extremidade do Gateway, clique no ícone de edição ao lado do recurso que deseja atualizar.
- Faça as alterações e clique em Salvar .

A tabela a seguir resume os recursos disponíveis AI Gateway e como configurá-los:
Recurso | Como configurar | Detalhes |
|---|---|---|
Ativado por default. |
| |
Selecione Ativar tabelas de inferência para log solicitações e respostas. |
| |
Limites de taxa | Selecione os limites de taxa para configurar consultas por minuto (QPM) ou tokens por minuto (TPM). |
|
Fallbacks | Selecione Adicionar modelo fallback para configurar os modelos fallback . |
|
O diagrama a seguir mostra um exemplo de fallback em que três modelos estão registrados como destinos de um endpoint do AI Gateway:
- A solicitação é originalmente encaminhada para o Modelo 1.
- Se a solicitação retornar uma resposta 200, significa que a solicitação foi bem-sucedida no Modelo 1 e a solicitação e sua resposta são registradas nas tabelas de acompanhamento e inferência de uso.
- Se a solicitação retornar um erro
429ou5XXno Modelo 1, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 2. - Se a solicitação retornar um erro
429ou5XXno Modelo 2, a solicitação recorrerá ao próximo modelo no endpoint, o Modelo 3. - Se a solicitação retornar um erro
429ou5XXno Modelo 3, a solicitação falhará, pois todos os modelos de fallback foram tentados. A solicitação com falha e o erro de resposta são registros nas tabelas de acompanhamento e inferência de uso.
