Pular para o conteúdo principal

Consulte modelos de visão

Neste artigo, você aprenderá a escrever solicitações de consulta para modelos básicos otimizados para tarefas de visão e enviá-las ao seu modelo em serviço endpoint.

O Mosaic AI Model Serving oferece uma API unificada para compreender e analisar imagens utilizando uma variedade de modelos básicos, desbloqueando poderosos recursos multimodais. Esta funcionalidade está disponível em modelos selecionados hospedados no Databrickscomo parte do Foundation Model APIs e do endpoint de serviço que atendem modelos externos.

Requisitos

Exemplos de consultas

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "what's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
},
],
}
],
)

print(completion.choices[0].message.content)

O Chat Completions ( API ) suporta múltiplas entradas de imagens, permitindo que o modelo analise cada imagem e sintetize informações de todas as entradas para gerar uma resposta ao prompt.

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# Encode multiple images

image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

# OpenAI request

completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What are in these images? Is there any difference between them?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
},
],
}
],
)

print(completion.choices[0].message.content)

Requisitos de entrada de imagem

Modelo

Formatos suportados

Várias imagens por solicitação

Limitações de tamanho de imagem

Recomendações de redimensionamento de imagem

Considerações sobre a qualidade da imagem

databricks-gpt-5

  • JPEG
  • PNG
  • WebP
  • GIF (Não animado GIF)

Até 500 entradas de imagens individuais por solicitação

Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação

N/A

  • Sem marcas d'água ou logotipos
  • Claro o suficiente para um humano entender

databricks-gpt-5-mini

  • JPEG
  • PNG
  • WebP
  • GIF (Não animado GIF)

Até 500 entradas de imagens individuais por solicitação

Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação

N/A

  • Sem marcas d'água ou logotipos
  • Claro o suficiente para um humano entender

databricks-gpt-5-nano

  • JPEG
  • PNG
  • WebP
  • GIF (Não animado GIF)

Até 500 entradas de imagens individuais por solicitação

Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação

N/A

  • Sem marcas d'água ou logotipos
  • Claro o suficiente para um humano entender

databricks-claude-3-7-sonnet

  • JPEG
  • PNG
  • GIF
  • WebP
  • Até 20 imagens para Claude.AI
  • Até 100 imagens para solicitações de API
  • Todas as imagens fornecidas são processadas em uma solicitação, o que é útil para compará-las ou contrastá-las.
  • Imagens maiores que 8000x8000 px serão rejeitadas.
  • Se mais de 20 imagens forem enviadas em uma solicitação de API, o tamanho máximo permitido por imagem é 2000 x 2000 px .

Para obter um desempenho ideal, redimensione as imagens antes de enviá-las, caso sejam muito grandes.

  • Se a borda longa de uma imagem exceder 1568 pixels ou seu tamanho exceder ~1.600 tokens , ela será automaticamente reduzida, preservando a proporção.
  • Imagens muito pequenas (menos de 200 pixels em qualquer lado ) podem prejudicar o desempenho .
  • Para reduzir a latência, mantenha as imagens dentro de 1,15 megapixels e no máximo 1568 pixels em ambas as dimensões.
  • Clareza: evite imagens borradas ou pixeladas.
  • Texto em imagens:
    • Certifique-se de que o texto esteja legível e não muito pequeno.
    • Evite cortar um contexto visual key apenas para ampliar o texto.

Conversão de imagem em tokens

Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.

Cada imagem em uma solicitação para um modelo de fundação aumenta o uso de tokens. Veja a calculadora de preços para estimar os preços das imagens com base no uso dos tokens e no modelo que você está usando.

Recurso adicional