Consulte modelos de visão
Experimente a nova Unity AI Gateway Beta
Uma nova experiência do Unity AI Gateway está disponível em Beta. O novo Unity AI Gateway é o plano de controle corporativo para governar o endpoint LLM e os agentes de codificação com recurso aprimorado. Consulte Unity AI Gateway.
Neste artigo, você aprende a escrever solicitações de consulta para modelos de fundação otimizados para tarefas de visão e servidos por Unity AI Gateway.
Genie Code (modo agente) pode fazer isso por você. Experimente este prompt de exemplo:
Query the databricks-claude-sonnet-4-5 model using the OpenAI client, sending a base64-encoded image from a URL alongside a text question, and print the response.
Servindo Modelo fornece uma API unificada para entender e analisar imagens usando uma variedade de modelos fundamentais, desbloqueando poderosas capacidades multimodais. Essa funcionalidade está disponível por meio de modelos selecionados hospedados Databrickscomo parte das APIsdo Foundation Model e do endpoint de serviço que atende a modelos externos.
Requisitos
- Consulte os requisitos.
- Instale o pacote apropriado para o seu clustering com base na opção de cliente de consulta escolhida.
Exemplos de consultas
Os exemplos a seguir são baseados em Unity AI Gateway e serviços de modelo. Se você usa endpoints de servindo modelo em vez de serviços de modelo, substitua o nome do serviço de modelo pelo nome de um endpoint. Consulte modelos de base hospedados pelo Databricks disponíveis nas APIs do Foundation Model para obter uma lista de modelos de base disponíveis e seus nomes de serviço de modelo e endpoint.
- OpenAI client
- SQL
Para usar o cliente OpenAI, especifique o nome do serviço de modelo como a entrada model.
from openai import OpenAI
import base64
import requests
# Get the workspace API URL and token from the notebook context
API_ROOT = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiUrl().get()
API_TOKEN = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiToken().get()
client = OpenAI(
api_key=API_TOKEN,
base_url=f"{API_ROOT}/ai-gateway/mlflow/v1",
)
# Download and encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
resp = requests.get(image_url)
resp.raise_for_status()
image_data = base64.b64encode(resp.content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="system.ai.claude-sonnet-4-5",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "what's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
O Chat Completions ( API ) suporta múltiplas entradas de imagens, permitindo que o modelo analise cada imagem e sintetize informações de todas as entradas para gerar uma resposta ao prompt.
from openai import OpenAI
import base64
import requests
# Get the workspace API URL and token from the notebook context
API_ROOT = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiUrl().get()
API_TOKEN = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiToken().get()
client = OpenAI(
api_key=API_TOKEN,
base_url=f"{API_ROOT}/ai-gateway/mlflow/v1",
)
# Download and encode multiple images
image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
resp1 = requests.get(image1_url)
resp1.raise_for_status()
image1_data = base64.b64encode(resp1.content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
resp2 = requests.get(image2_url)
resp2.raise_for_status()
image2_data = base64.b64encode(resp2.content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="system.ai.claude-sonnet-4-5",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What are in these images? Is there any difference between them?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
O exemplo a seguir usa a função SQL integrada, ai_query. Esta função está em versão pública e a definição pode mudar.
As consultas a seguir são um modelo de base suportado pelas APIs do Databricks Foundation Model para entrada multimodal usando a função AI ai_query().
> SELECT *, ai_query(
'system.ai.llama-4-maverick',
'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");
Modelos compatíveis
Consulte os tipos de modelo Foundation para ver os modelos de visão compatíveis.
Requisitos de entrada de imagem
Modelo | Formatos suportados | Várias imagens por solicitação | Limitações de tamanho de imagem | Recomendações de redimensionamento de imagem | Considerações sobre a qualidade da imagem |
|---|---|---|---|---|---|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 5 imagens para solicitações de API
| Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API | N/A | N/A |
|
| Até 5 imagens para solicitações de API
| Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API | N/A | N/A |
|
|
|
| Para obter um desempenho ideal, redimensione as imagens antes de enviá-las, caso sejam muito grandes.
|
|
Conversão de imagem em tokens
Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.
Cada imagem em uma solicitação para um modelo de fundação aumenta o uso de tokens. Veja a calculadora de preços para estimar os preços das imagens com base no uso dos tokens e no modelo que você está usando.
Limitações da compreensão da imagem
Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.
A seguir estão as limitações de compreensão de imagem para os modelos de base hospedados no Databricks:
Modelo | Limitações |
|---|---|
Os seguintes modelos Claude são suportados:
| A seguir estão os limites para modelos Claude no Databricks:
|