Consultar o endpoint do Unity AI Gateway
Beta
Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.
Esta página descreve como consultar o endpoint do Unity AI Gateway usando APIs compatíveis.
Requisitos
- A pré-visualização do Unity AI Gateway foi ativada para sua account. Veja as prévias do Gerenciador Databricks.
- Um workspace Databricks em uma região compatível com o Unity AI Gateway.
- Unity Catalog está habilitado para seu workspace. Consulte Ativar um workspace para Unity Catalog.
APIs e integrações suportadas
O Unity AI Gateway oferece suporte às seguintes APIs e integrações:
-
APIs unificadas : interfaces compatíveis com OpenAI para consultar modelos no Databricks. Alterne facilmente entre modelos de diferentes fornecedores sem alterar a forma como consulta cada modelo.
-
APIsnativas : Interfaces específicas do provedor para acessar o modelo mais recente e os recursos específicos do provedor.
-
Agentes de codificação : Integre seus agentes de codificação com o Unity AI Gateway para adicionar governança e monitoramento centralizados ao seu fluxo de trabalho de desenvolvimento assistido AI . Consulte Integrar com agentes de codificação.
-
Agentes em Databricks Apps : Crie e implante agentes AI em Databricks Apps que roteiam o tráfego LLM por meio do Unity AI Gateway. Veja o passo 4. Governe o uso LLM de seus agentes em Databricks Apps com o Unity AI Gateway.
-
ai_query: Useai_querypara consultar o endpoint Unity AI Gateway fornecido Databricksa partir de SQL ou Python para inferência de lotes. Consulte o endpoint de consulta comai_query.
Endpoint de consulta com ai_query
Você pode usar a função ai_query para consultar o endpoint do Unity AI Gateway fornecido pelo Databricksdiretamente de SQL ou Python. Isso permite capturar informações de acompanhamento de uso para suas cargas de trabalho de inferência de lotes.
ai_queryO suporte para Unity AI Gateway está disponível apenas para endpoints fornecidos pela Databricks(por exemplo,databricks-gpt-5-4oudatabricks-claude-sonnet-4). Os endpoints que você cria no Unity AI Gateway ainda não são suportados.- Apenas o acompanhamento de uso se aplica a cargas de trabalho de inferência de
ai_querylotes. Outros recursos do Unity AI Gateway, como limites de taxa, restrições, tabelas de inferência e alternativas, não se aplicam.
Para começar:
- Ative a pré-visualização do Unity AI Gateway para sua account. Veja as prévias do Gerenciador Databricks.
- Consultar um endpoint fornecido pelo Databricks usando
ai_query:
SELECT ai_query(
'databricks-gpt-5-4',
'Summarize the following text: ' || text_column
) AS summary
FROM my_table
LIMIT 10
As solicitações feitas através de ai_query para o endpoint fornecido pelo Databrickssão capturadas na tabela de acompanhamento de uso do sistema (system.ai_gateway.usage). Essas solicitações também aparecem no painel de controle de uso integrado.
Para a sintaxe completa ai_query e referência de parâmetros, veja a funçãoai_query. Para melhores práticas e modelos suportados, consulte Usar ai_query.
Endpoint de consulta com APIsunificadas
As APIs unificadas oferecem uma interface compatível com OpenAI para consultar modelos no Databricks. Utilize APIs unificadas para alternar facilmente entre modelos de diferentes fornecedores sem alterar seu código.
API de conclusões de bate-papo do MLflow
API de conclusões de bate-papo do MLflow
- Python
- REST API
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
chat_completion = client.chat.completions.create(
messages=[
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"},
],
model="<ai-gateway-endpoint>",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"max_tokens": 256,
"messages": [
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions
Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.
API de Embeddings do MLflow
API de Embeddings do MLflow
- Python
- REST API
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
embeddings = client.embeddings.create(
input="What is Databricks?",
model="<ai-gateway-endpoint>"
)
print(embeddings.data[0].embedding)
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"input": "What is Databricks?"
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/embeddings
Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.
API do Supervisor
API do Supervisor
A API Supervisor (/mlflow/v1/responses) é uma API compatível com OpenResponsese agnóstica de provedor para a criação de agentes em Beta. Os administradores da conta podem habilitar o acesso a partir da página de Pré-visualizações . Veja as prévias do Gerenciador Databricks. Escolha o modelo mais adequado para o seu caso de uso de agente entre os diferentes fornecedores, sem precisar alterar o seu código.
- Python
- REST API
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
response = client.responses.create(
model="<ai-gateway-endpoint>",
input=[{"role": "user", "content": "What is Databricks?"}]
)
print(response.output_text)
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"input": [
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/responses
Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.
Endpoint de consulta com APIsnativas
As APIs nativas oferecem interfaces específicas do provedor para consultar modelos no Databricks. Utilize APIs nativas para acessar o recurso mais recente específico do provedor.
API de Respostas da OpenAI
API de Respostas da OpenAI
- Python
- REST API
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/openai/v1"
)
response = client.responses.create(
model="<ai-gateway-endpoint>",
max_output_tokens=256,
input=[
{
"role": "user",
"content": [{"type": "input_text", "text": "Hello!"}]
},
{
"role": "assistant",
"content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
},
{
"role": "user",
"content": [{"type": "input_text", "text": "What is Databricks?"}]
}
]
)
print(response.output)
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"max_output_tokens": 256,
"input": [
{
"role": "user",
"content": [{"type": "input_text", "text": "Hello!"}]
},
{
"role": "assistant",
"content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
},
{
"role": "user",
"content": [{"type": "input_text", "text": "What is Databricks?"}]
}
]
}' \
https://<workspace-url>/ai-gateway/openai/v1/responses
Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.
APIde Mensagens Anthropic
APIde MensagensAnthropic
- Python
- REST API
import anthropic
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = anthropic.Anthropic(
api_key="unused",
base_url="https://<workspace-url>/ai-gateway/anthropic",
default_headers={
"Authorization": f"Bearer {DATABRICKS_TOKEN}",
},
)
message = client.messages.create(
model="<ai-gateway-endpoint>",
max_tokens=256,
messages=[
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"},
],
)
print(message.content[0].text)
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"max_tokens": 256,
"messages": [
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/anthropic/v1/messages
Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.
API Gemini do Google
API Gemini do Google
- Python
- REST API
from google import genai
from google.genai import types
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = genai.Client(
api_key="databricks",
http_options=types.HttpOptions(
base_url="https://<workspace-url>/ai-gateway/gemini",
headers={
"Authorization": f"Bearer {DATABRICKS_TOKEN}",
},
),
)
response = client.models.generate_content(
model="<ai-gateway-endpoint>",
contents=[
types.Content(
role="user",
parts=[types.Part(text="Hello!")],
),
types.Content(
role="model",
parts=[types.Part(text="Hello! How can I assist you today?")],
),
types.Content(
role="user",
parts=[types.Part(text="What is Databricks?")],
),
],
config=types.GenerateContentConfig(
max_output_tokens=256,
),
)
print(response.text)
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [
{
"role": "user",
"parts": [{"text": "Hello!"}]
},
{
"role": "model",
"parts": [{"text": "Hello! How can I assist you today?"}]
},
{
"role": "user",
"parts": [{"text": "What is Databricks?"}]
}
],
"generationConfig": {
"maxOutputTokens": 256
}
}' \
https://<workspace-url>/ai-gateway/gemini/v1beta/models/<ai-gateway-endpoint>:generateContent
Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.
solicitações de tags para acompanhamento de uso
Você pode anexar tags personalizadas key-valor a solicitações individuais usando o cabeçalho HTTP Databricks-Ai-Gateway-Request-Tags . tags de solicitação são registros na coluna request_tags tanto na tabela de acompanhamento de uso do sistema quanto nas tabelas de inferência, permitindo rastrear custos, uso de atributos e filtrar análises por projeto, equipe, ambiente ou qualquer outra dimensão.
O valor do cabeçalho deve ser um objeto JSON que mapeia chaves do tipo string para valores do tipo string. Por exemplo:
{ "project": "chatbot", "team": "ml-platform", "environment": "production" }
Use o parâmetro extra_headers (Python) ou passe o cabeçalho diretamente (API REST) para adicionar tags a uma solicitação:
- Python (OpenAI SDK)
- Python (Anthropic SDK)
- REST API
from openai import OpenAI
import json
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
request_tags = {"project": "chatbot", "team": "ml-platform"}
chat_completion = client.chat.completions.create(
messages=[
{"role": "user", "content": "What is Databricks?"},
],
model="<ai-gateway-endpoint>",
max_tokens=256,
extra_headers={
"Databricks-Ai-Gateway-Request-Tags": json.dumps(request_tags)
}
)
import anthropic
import json
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
request_tags = {"project": "chatbot", "team": "ml-platform"}
client = anthropic.Anthropic(
api_key="unused",
base_url="https://<workspace-url>/ai-gateway/anthropic",
default_headers={
"Authorization": f"Bearer {DATABRICKS_TOKEN}",
"Databricks-Ai-Gateway-Request-Tags": json.dumps(request_tags),
},
)
message = client.messages.create(
model="<ai-gateway-endpoint>",
max_tokens=256,
messages=[
{"role": "user", "content": "What is Databricks?"},
],
)
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-H 'Databricks-Ai-Gateway-Request-Tags: {"project": "chatbot", "team": "ml-platform"}' \
-d '{
"model": "<ai-gateway-endpoint>",
"max_tokens": 256,
"messages": [
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions
Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.
Próximos passos
-
API Supervisor (Beta) — execução de fluxo de trabalho de agente multiturno com ferramentas hospedadas via
/mlflow/v1/responses -
Passo 4. Controle o uso LLM pelos seus agentes no Databricks Apps com o Unity AI Gateway — direcione as chamadas LLM dos agentes no Databricks Apps através do Unity AI Gateway.
-
Configure os limites de taxa para o endpoint do Unity AI Gateway.