Pular para o conteúdo principal

Consulte modelos de visão

Neste artigo, você aprenderá a escrever solicitações de consulta para modelos básicos otimizados para tarefas de visão e enviá-las ao seu modelo em serviço endpoint.

O Mosaic AI Model Serving oferece uma API unificada para compreender e analisar imagens utilizando uma variedade de modelos básicos, desbloqueando poderosos recursos multimodais. Esta funcionalidade está disponível em modelos selecionados hospedados no Databrickscomo parte do Foundation Model APIs e do endpoint de serviço que atendem modelos externos.

Requisitos

Exemplos de consultas

Para usar o cliente OpenAI , especifique o nome endpoint do modelo de abastecimento como a entrada model .

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "what's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
},
],
}
],
)

print(completion.choices[0].message.content)

O Chat Completions ( API ) suporta múltiplas entradas de imagens, permitindo que o modelo analise cada imagem e sintetize informações de todas as entradas para gerar uma resposta ao prompt.

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# Encode multiple images

image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

# OpenAI request

completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "What are in these images? Is there any difference between them?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
},
],
}
],
)

print(completion.choices[0].message.content)

Modelos compatíveis

Consulte os tipos de modelo Foundation para ver os modelos de visão compatíveis.

Requisitos de entrada de imagem

Modelo

Formatos suportados

Várias imagens por solicitação

Limitações de tamanho de imagem

Recomendações de redimensionamento de imagem

Considerações sobre a qualidade da imagem

databricks-gemma-3-12b

  • JPEG
  • PNG
  • WebP
  • GIF

Até 5 imagens para solicitações de API

  • Todas as imagens fornecidas são processadas em uma solicitação.

Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API

N/A

N/A

databricks-llama-4-maverick

  • JPEG
  • PNG
  • WebP
  • GIF

Até 5 imagens para solicitações de API

  • Todas as imagens fornecidas são processadas em uma solicitação.

Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API

N/A

N/A

databricks-gpt-5

  • JPEG
  • PNG
  • WebP
  • GIF (Não animado GIF)

Até 500 entradas de imagens individuais por solicitação

Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação

N/A

  • Sem marcas d'água ou logotipos
  • Claro o suficiente para um humano entender

databricks-gpt-5-mini

  • JPEG
  • PNG
  • WebP
  • GIF (Não animado GIF)

Até 500 entradas de imagens individuais por solicitação

Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação

N/A

  • Sem marcas d'água ou logotipos
  • Claro o suficiente para um humano entender

databricks-gpt-5-nano

  • JPEG
  • PNG
  • WebP
  • GIF (Não animado GIF)

Até 500 entradas de imagens individuais por solicitação

Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação

N/A

  • Sem marcas d'água ou logotipos
  • Claro o suficiente para um humano entender

databricks-claude-3-7-sonnet

  • JPEG
  • PNG
  • GIF
  • WebP
  • Até 20 imagens para Claude.AI
  • Até 100 imagens para solicitações de API
  • Todas as imagens fornecidas são processadas em uma solicitação, o que é útil para compará-las ou contrastá-las.
  • Imagens maiores que 8000x8000 px serão rejeitadas.
  • Se mais de 20 imagens forem enviadas em uma solicitação de API, o tamanho máximo permitido por imagem é 2000 x 2000 px .

Para obter um desempenho ideal, redimensione as imagens antes de enviá-las, caso sejam muito grandes.

  • Se a borda longa de uma imagem exceder 1568 pixels ou seu tamanho exceder ~1.600 tokens , ela será automaticamente reduzida, preservando a proporção.
  • Imagens muito pequenas (menos de 200 pixels em qualquer lado ) podem prejudicar o desempenho .
  • Para reduzir a latência, mantenha as imagens dentro de 1,15 megapixels e no máximo 1568 pixels em ambas as dimensões.
  • Clareza: evite imagens borradas ou pixeladas.
  • Texto em imagens:
    • Certifique-se de que o texto esteja legível e não muito pequeno.
    • Evite cortar um contexto visual key apenas para ampliar o texto.

Conversão de imagem em tokens

Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.

Cada imagem em uma solicitação para um modelo de fundação aumenta o uso de tokens. Veja a calculadora de preços para estimar os preços das imagens com base no uso dos tokens e no modelo que você está usando.

Limitações da compreensão da imagem

Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.

A seguir estão as limitações de compreensão de imagem para os modelos de base hospedados no Databricks:

Modelo

Limitações

databricks-claude-3-7-sonnet

A seguir estão os limites para modelos Claude no Databricks:

  • Evite usar Claude para tarefas que exijam precisão perfeita ou análises sensíveis sem supervisão humana.
  • Identificação de pessoas : não é possível identificar ou nomear pessoas nas imagens.
  • Precisão : Pode interpretar mal imagens de baixa qualidade, giradas ou muito pequenas (200 px).
  • Raciocínio espacial : Dificuldades com disposição precisa, como ler relógios analógicos ou posições no xadrez.
  • Contagem : fornece contagens aproximadas, mas pode ser imprecisa para muitos objetos pequenos.
  • AIImagens geradas por computador : Não é possível detectar com confiabilidade imagens sintéticas ou falsas.
  • Conteúdo impróprio : bloqueia imagens explícitas ou que violam políticas.
  • Saúde : Não é adequado para exames médicos complexos (por exemplo, tomografias computadorizadas e ressonâncias magnéticas). Não é uma ferramenta de diagnóstico.

Recurso adicional