Consultar o endpoint do Unity AI Gateway

info

Beta

Este recurso está em versão Beta. Os administradores da conta podem controlar o acesso a este recurso na página de pré-visualizações do console account . Veja as prévias do Gerenciador Databricks.

Esta página descreve como consultar o endpoint do Unity AI Gateway usando APIs compatíveis.

Requisitos

A pré-visualização do Unity AI Gateway foi ativada para sua account. Veja as prévias do Gerenciador Databricks.
Um workspace Databricks em uma região compatível com o Unity AI Gateway.
Unity Catalog está habilitado para seu workspace. Consulte Ativar um workspace para Unity Catalog.

APIs e integrações suportadas

O Unity AI Gateway oferece suporte às seguintes APIs e integrações:

APIs unificadas : interfaces compatíveis com OpenAI para consultar modelos no Databricks. Alterne facilmente entre modelos de diferentes fornecedores sem alterar a forma como consulta cada modelo.
APIsnativas : Interfaces específicas do provedor para acessar o modelo mais recente e os recursos específicos do provedor.
Agentes de codificação : Integre seus agentes de codificação com o Unity AI Gateway para adicionar governança e monitoramento centralizados ao seu fluxo de trabalho de desenvolvimento assistido AI . Consulte Integrar com agentes de codificação.
Agentes em Databricks Apps : Crie e implante agentes AI em Databricks Apps que roteiam o tráfego LLM por meio do Unity AI Gateway. Veja o passo 4. Governe o uso LLM de seus agentes em Databricks Apps com o Unity AI Gateway.
ai_query : Use ai_query para consultar o endpoint Unity AI Gateway fornecido Databricksa partir de SQL ou Python para inferência de lotes. Consulte o endpoint de consulta com ai_query.

Endpoint de consulta com `ai_query`

Você pode usar a função ai_query para consultar o endpoint do Unity AI Gateway fornecido pelo Databricksdiretamente de SQL ou Python. Isso permite capturar informações de acompanhamento de uso para suas cargas de trabalho de inferência de lotes.

nota

ai_query O suporte para Unity AI Gateway está disponível apenas para endpoints fornecidos pela Databricks(por exemplo, databricks-gpt-5-4 ou databricks-claude-sonnet-4). Os endpoints que você cria no Unity AI Gateway ainda não são suportados.
Apenas o acompanhamento de uso se aplica a cargas de trabalho de inferência de ai_query lotes. Outros recursos do Unity AI Gateway, como limites de taxa, restrições, tabelas de inferência e alternativas, não se aplicam.

Para começar:

Ative a pré-visualização do Unity AI Gateway para sua account. Veja as prévias do Gerenciador Databricks.
Consultar um endpoint fornecido pelo Databricks usando ai_query:

SQL
SELECT ai_query(
  'databricks-gpt-5-4',
  'Summarize the following text: ' || text_column
) AS summary
FROM my_table
LIMIT 10

As solicitações feitas através de ai_query para o endpoint fornecido pelo Databrickssão capturadas na tabela de acompanhamento de uso do sistema (system.ai_gateway.usage). Essas solicitações também aparecem no painel de controle de uso integrado.

Para a sintaxe completa ai_query e referência de parâmetros, veja a funçãoai_query. Para melhores práticas e modelos suportados, consulte Usar ai_query.

Endpoint de consulta com APIsunificadas

As APIs unificadas oferecem uma interface compatível com OpenAI para consultar modelos no Databricks. Utilize APIs unificadas para alternar facilmente entre modelos de diferentes fornecedores sem alterar seu código.

API de conclusões de bate-papo do MLflow

API de conclusões de bate-papo do MLflow

Python
REST API

Python
from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

chat_completion = client.chat.completions.create(
  messages=[
    {"role": "user", "content": "Hello!"},
    {"role": "assistant", "content": "Hello! How can I assist you today?"},
    {"role": "user", "content": "What is Databricks?"},
  ],
  model="<ai-gateway-endpoint>",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Bash
curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_tokens": 256,
    "messages": [
      {"role": "user", "content": "Hello!"},
      {"role": "assistant", "content": "Hello! How can I assist you today?"},
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions

Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.

API de Embeddings do MLflow

API de Embeddings do MLflow

Python
REST API

Python
from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

embeddings = client.embeddings.create(
  input="What is Databricks?",
  model="<ai-gateway-endpoint>"
)

print(embeddings.data[0].embedding)

Bash
curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "input": "What is Databricks?"
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/embeddings

Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.

API do Supervisor

API do Supervisor

A API Supervisor (/mlflow/v1/responses) é uma API compatível com OpenResponsese agnóstica de provedor para a criação de agentes em Beta. Os administradores da conta podem habilitar o acesso a partir da página de Pré-visualizações . Veja as prévias do Gerenciador Databricks. Escolha o modelo mais adequado para o seu caso de uso de agente entre os diferentes fornecedores, sem precisar alterar o seu código.

Python
REST API

Python
from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

response = client.responses.create(
  model="<ai-gateway-endpoint>",
  input=[{"role": "user", "content": "What is Databricks?"}]
)

print(response.output_text)

Bash
curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "input": [
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/responses

Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.

Endpoint de consulta com APIsnativas

As APIs nativas oferecem interfaces específicas do provedor para consultar modelos no Databricks. Utilize APIs nativas para acessar o recurso mais recente específico do provedor.

API de Respostas da OpenAI

API de Respostas da OpenAI

Python
REST API

Python
from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/openai/v1"
)

response = client.responses.create(
  model="<ai-gateway-endpoint>",
  max_output_tokens=256,
  input=[
    {
      "role": "user",
      "content": [{"type": "input_text", "text": "Hello!"}]
    },
    {
      "role": "assistant",
      "content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
    },
    {
      "role": "user",
      "content": [{"type": "input_text", "text": "What is Databricks?"}]
    }
  ]
)

print(response.output)

Bash
curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_output_tokens": 256,
    "input": [
      {
        "role": "user",
        "content": [{"type": "input_text", "text": "Hello!"}]
      },
      {
        "role": "assistant",
        "content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
      },
      {
        "role": "user",
        "content": [{"type": "input_text", "text": "What is Databricks?"}]
      }
    ]
  }' \
  https://<workspace-url>/ai-gateway/openai/v1/responses

Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.

APIde Mensagens Anthropic

APIde MensagensAnthropic

Python
REST API

Python
import anthropic
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = anthropic.Anthropic(
  api_key="unused",
  base_url="https://<workspace-url>/ai-gateway/anthropic",
  default_headers={
    &quot;Authorization&quot;: f&quot;Bearer {DATABRICKS_TOKEN}&quot;,
  },
)

message = client.messages.create(
  model="<ai-gateway-endpoint>",
  max_tokens=256,
  messages=[
    {"role": "user", "content": "Hello!"},
    {"role": "assistant", "content": "Hello! How can I assist you today?"},
    {"role": "user", "content": "What is Databricks?"},
  ],
)

print(message.content[0].text)

Bash
curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_tokens": 256,
    "messages": [
      {"role": "user", "content": "Hello!"},
      {"role": "assistant", "content": "Hello! How can I assist you today?"},
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/anthropic/v1/messages

Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.

API Gemini do Google

API Gemini do Google

Python
REST API

Python
from google import genai
from google.genai import types
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = genai.Client(
  api_key="databricks",
  http_options=types.HttpOptions(
    base_url="https://<workspace-url>/ai-gateway/gemini",
    headers={
      &quot;Authorization&quot;: f&quot;Bearer {DATABRICKS_TOKEN}&quot;,
    },
  ),
)

response = client.models.generate_content(
  model="<ai-gateway-endpoint>",
  contents=[
    types.Content(
      role="user",
      parts=[types.Part(text="Hello!")],
    ),
    types.Content(
      role="model",
      parts=[types.Part(text="Hello! How can I assist you today?")],
    ),
    types.Content(
      role="user",
      parts=[types.Part(text="What is Databricks?")],
    ),
  ],
  config=types.GenerateContentConfig(
    max_output_tokens=256,
  ),
)

print(response.text)

Bash
curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [{"text": "Hello!"}]
      },
      {
        "role": "model",
        "parts": [{"text": "Hello! How can I assist you today?"}]
      },
      {
        "role": "user",
        "parts": [{"text": "What is Databricks?"}]
      }
    ],
    "generationConfig": {
      "maxOutputTokens": 256
    }
  }' \
  https://<workspace-url>/ai-gateway/gemini/v1beta/models/<ai-gateway-endpoint>:generateContent

Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.

solicitações de tags para acompanhamento de uso

Você pode anexar tags personalizadas key-valor a solicitações individuais usando o cabeçalho HTTP Databricks-Ai-Gateway-Request-Tags . tags de solicitação são registros na coluna request_tags tanto na tabela de acompanhamento de uso do sistema quanto nas tabelas de inferência, permitindo rastrear custos, uso de atributos e filtrar análises por projeto, equipe, ambiente ou qualquer outra dimensão.

O valor do cabeçalho deve ser um objeto JSON que mapeia chaves do tipo string para valores do tipo string. Por exemplo:

JSON
{ "project": "chatbot", "team": "ml-platform", "environment": "production" }

Use o parâmetro extra_headers (Python) ou passe o cabeçalho diretamente (API REST) para adicionar tags a uma solicitação:

Python (OpenAI SDK)
Python (Anthropic SDK)
REST API

Python
from openai import OpenAI
import json
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

request_tags = {"project": "chatbot", "team": "ml-platform"}

chat_completion = client.chat.completions.create(
  messages=[
    {"role": "user", "content": "What is Databricks?"},
  ],
  model="<ai-gateway-endpoint>",
  max_tokens=256,
  extra_headers={
    &quot;Databricks-Ai-Gateway-Request-Tags&quot;: json.dumps(request_tags)
  }
)

Python
import anthropic
import json
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

request_tags = {"project": "chatbot", "team": "ml-platform"}

client = anthropic.Anthropic(
  api_key="unused",
  base_url="https://<workspace-url>/ai-gateway/anthropic",
  default_headers={
    &quot;Authorization&quot;: f&quot;Bearer {DATABRICKS_TOKEN}&quot;,
    &quot;Databricks-Ai-Gateway-Request-Tags&quot;: json.dumps(request_tags),
  },
)

message = client.messages.create(
  model="<ai-gateway-endpoint>",
  max_tokens=256,
  messages=[
    {"role": "user", "content": "What is Databricks?"},
  ],
)

Bash
curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -H 'Databricks-Ai-Gateway-Request-Tags: {"project": "chatbot", "team": "ml-platform"}' \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_tokens": 256,
    "messages": [
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions

Substitua <workspace-url> pelo URL do seu workspace Databricks e <ai-gateway-endpoint> pelo nome endpoint do Unity AI Gateway.

Próximos passos

Portal AI Unity para agentes e LLMs
Configure o endpoint do Unity AI Gateway.
Integre com agentes de codificação
API Supervisor (Beta) — execução de fluxo de trabalho de agente multiturno com ferramentas hospedadas via /mlflow/v1/responses
Passo 4. Controle o uso LLM pelos seus agentes no Databricks Apps com o Unity AI Gateway — direcione as chamadas LLM dos agentes no Databricks Apps através do Unity AI Gateway.
Monitore o uso do endpoint do Unity AI Gateway.
Monitorar modelos usando tabelas de inferência
Configure os limites de taxa para o endpoint do Unity AI Gateway.

Requisitos​

APIs e integrações suportadas​

Endpoint de consulta com ai_query​

Endpoint de consulta com APIsunificadas​

API de conclusões de bate-papo do MLflow​

API de Embeddings do MLflow​

API do Supervisor​

Endpoint de consulta com APIsnativas​

API de Respostas da OpenAI​

APIde MensagensAnthropic​

API Gemini do Google​

solicitações de tags para acompanhamento de uso​

Próximos passos​

Requisitos

APIs e integrações suportadas

Endpoint de consulta com `ai_query`

Endpoint de consulta com APIsunificadas

API de conclusões de bate-papo do MLflow

API de Embeddings do MLflow

API do Supervisor

Endpoint de consulta com APIsnativas

API de Respostas da OpenAI

APIde MensagensAnthropic

API Gemini do Google

solicitações de tags para acompanhamento de uso

Próximos passos