Consulte modelos de visão

Neste artigo, você aprenderá a escrever solicitações de consulta para modelos básicos otimizados para tarefas de visão e enviá-las ao seu modelo em serviço endpoint.

O Mosaic AI Model Serving oferece uma API unificada para compreender e analisar imagens utilizando uma variedade de modelos básicos, desbloqueando poderosos recursos multimodais. Esta funcionalidade está disponível em modelos selecionados hospedados no Databrickscomo parte do Foundation Model APIs e do endpoint de serviço que atendem modelos externos.

Requisitos

Consulte os requisitos.
Instale o pacote apropriado para o seu clustering com base na opção de cliente de consulta escolhida.

Exemplos de consultas

OpenAI client
SQL

Para usar o cliente OpenAI , especifique o nome endpoint do modelo de abastecimento como a entrada model .

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "what's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
                },
            ],
        }
    ],
)

print(completion.choices[0].message.content)

O Chat Completions ( API ) suporta múltiplas entradas de imagens, permitindo que o modelo analise cada imagem e sintetize informações de todas as entradas para gerar uma resposta ao prompt.

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# Encode multiple images

image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

# OpenAI request

completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What are in these images? Is there any difference between them?"},
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
            },
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
            },
          ],
      }
  ],
)

print(completion.choices[0].message.content)

importante

O exemplo a seguir usa a função SQL integrada, ai_query. Esta função está em versão pública e a definição pode mudar.

As consultas a seguir são um modelo de base suportado pelas APIs do Databricks Foundation Model para entrada multimodal usando a função AI ai_query().

SQL

> SELECT *, ai_query(
  'databricks-llama-4-maverick',
 'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");

Modelos compatíveis

Consulte os tipos de modelo Foundation para ver os modelos de visão compatíveis.

Requisitos de entrada de imagem

Modelo	Formatos suportados	Várias imagens por solicitação	Limitações de tamanho de imagem	Recomendações de redimensionamento de imagem	Considerações sobre a qualidade da imagem
`databricks-gpt-5-2`	`JPEG` `PNG` `WebP` `GIF` (Não animado `GIF`)	Até 500 entradas de imagens individuais por solicitação	Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação	N/A	Sem marcas d'água ou logotipos Claro o suficiente para um humano entender
`databricks-gpt-5-1`	`JPEG` `PNG` `WebP` `GIF` (Não animado `GIF`)	Até 500 entradas de imagens individuais por solicitação	Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação	N/A	Sem marcas d'água ou logotipos Claro o suficiente para um humano entender
`databricks-gpt-5`	`JPEG` `PNG` `WebP` `GIF` (Não animado `GIF`)	Até 500 entradas de imagens individuais por solicitação	Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação	N/A	Sem marcas d'água ou logotipos Claro o suficiente para um humano entender
`databricks-gpt-5-mini`	`JPEG` `PNG` `WebP` `GIF` (Não animado `GIF`)	Até 500 entradas de imagens individuais por solicitação	Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação	N/A	Sem marcas d'água ou logotipos Claro o suficiente para um humano entender
`databricks-gpt-5-nano`	`JPEG` `PNG` `WebP` `GIF` (Não animado `GIF`)	Até 500 entradas de imagens individuais por solicitação	Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação	N/A	Sem marcas d'água ou logotipos Claro o suficiente para um humano entender
`databricks-gemini-3-pro`	`JPEG` `PNG` `WebP`	Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação.	Limite de tamanho de arquivo: 7 MB por imagem	N/A	N/A
`databricks-gemini-3-flash`	`JPEG` `PNG` `WebP`	Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação.	Limite de tamanho de arquivo: 7 MB por imagem	N/A	N/A
`databricks-gemini-2-5-pro`	`JPEG` `PNG` `WebP`	Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação.	Limite de tamanho de arquivo: 7 MB por imagem	N/A	N/A
`databricks-gemini-2-5-flash`	`JPEG` `PNG` `WebP`	Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação.	Limite de tamanho de arquivo: 7 MB por imagem	N/A	N/A
`databricks-gemma-3-12b`	`JPEG` `PNG` `WebP` `GIF`	Até 5 imagens para solicitações de API Todas as imagens fornecidas são processadas em uma solicitação.	Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API	N/A	N/A
`databricks-llama-4-maverick`	`JPEG` `PNG` `WebP` `GIF`	Até 5 imagens para solicitações de API Todas as imagens fornecidas são processadas em uma solicitação.	Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API	N/A	N/A
`databricks-claude-sonnet-4-5` `databricks-claude-haiku-4-5` `databricks-claude-opus-4-5` `databricks-claude-opus-4-1` `databricks-claude-sonnet-4` `databricks-claude-sonnet-4-5`	`JPEG` `PNG` `GIF` `WebP`	Até 20 imagens para Claude.AI Até 100 imagens para solicitações de API Todas as imagens fornecidas são processadas em uma solicitação, o que é útil para compará-las ou contrastá-las.	Imagens maiores que 8000x8000 px serão rejeitadas. Se mais de 20 imagens forem enviadas em uma solicitação de API, o tamanho máximo permitido por imagem é 2000 x 2000 px .	Para obter um desempenho ideal, redimensione as imagens antes de enviá-las, caso sejam muito grandes. Se a borda longa de uma imagem exceder 1568 pixels ou seu tamanho exceder ~1.600 tokens , ela será automaticamente reduzida, preservando a proporção. Imagens muito pequenas (menos de 200 pixels em qualquer lado ) podem prejudicar o desempenho . Para reduzir a latência, mantenha as imagens dentro de 1,15 megapixels e no máximo 1568 pixels em ambas as dimensões.	Clareza: evite imagens borradas ou pixeladas. Texto em imagens: Certifique-se de que o texto esteja legível e não muito pequeno. Evite cortar um contexto visual key apenas para ampliar o texto.

Conversão de imagem em tokens

Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.

Cada imagem em uma solicitação para um modelo de fundação aumenta o uso de tokens. Veja a calculadora de preços para estimar os preços das imagens com base no uso dos tokens e no modelo que você está usando.

Limitações da compreensão da imagem

Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.

A seguir estão as limitações de compreensão de imagem para os modelos de base hospedados no Databricks:

Modelo	Limitações
Os seguintes modelos Claude são suportados: `databricks-claude-sonnet-4-5` `databricks-claude-opus-4-1` `databricks-claude-sonnet-4` `databricks-claude-sonnet-4-5`	A seguir estão os limites para modelos Claude no Databricks: Evite usar Claude para tarefas que exijam precisão perfeita ou análises sensíveis sem supervisão humana. Identificação de pessoas : não é possível identificar ou nomear pessoas nas imagens. Precisão : Pode interpretar mal imagens de baixa qualidade, giradas ou muito pequenas (200 px). Raciocínio espacial : Dificuldades com disposição precisa, como ler relógios analógicos ou posições no xadrez. Contagem : fornece contagens aproximadas, mas pode ser imprecisa para muitos objetos pequenos. AIImagens geradas por computador : Não é possível detectar com confiabilidade imagens sintéticas ou falsas. Conteúdo impróprio : bloqueia imagens explícitas ou que violam políticas. Saúde : Não é adequado para exames médicos complexos (por exemplo, tomografias computadorizadas e ressonâncias magnéticas). Não é uma ferramenta de diagnóstico.

Modelo

Limitações

Os seguintes modelos Claude são suportados:

databricks-claude-sonnet-4-5
databricks-claude-opus-4-1
databricks-claude-sonnet-4
databricks-claude-sonnet-4-5

A seguir estão os limites para modelos Claude no Databricks:

Evite usar Claude para tarefas que exijam precisão perfeita ou análises sensíveis sem supervisão humana.
Identificação de pessoas : não é possível identificar ou nomear pessoas nas imagens.
Precisão : Pode interpretar mal imagens de baixa qualidade, giradas ou muito pequenas (200 px).
Raciocínio espacial : Dificuldades com disposição precisa, como ler relógios analógicos ou posições no xadrez.
Contagem : fornece contagens aproximadas, mas pode ser imprecisa para muitos objetos pequenos.
AIImagens geradas por computador : Não é possível detectar com confiabilidade imagens sintéticas ou falsas.
Conteúdo impróprio : bloqueia imagens explícitas ou que violam políticas.
Saúde : Não é adequado para exames médicos complexos (por exemplo, tomografias computadorizadas e ressonâncias magnéticas). Não é uma ferramenta de diagnóstico.

Requisitos​

Exemplos de consultas​

Modelos compatíveis​

Requisitos de entrada de imagem​

Conversão de imagem em tokens​

Limitações da compreensão da imagem​

Recurso adicional​