Consulte modelos de visão
Neste artigo, você aprenderá a escrever solicitações de consulta para modelos básicos otimizados para tarefas de visão e enviá-las ao seu modelo em serviço endpoint.
Servindo Modelo fornece uma API unificada para entender e analisar imagens usando uma variedade de modelos fundamentais, desbloqueando poderosas capacidades multimodais. Essa funcionalidade está disponível por meio de modelos selecionados hospedados Databrickscomo parte das APIsdo Foundation Model e do endpoint de serviço que atende a modelos externos.
Requisitos
- Consulte os requisitos.
- Instale o pacote apropriado para o seu clustering com base na opção de cliente de consulta escolhida.
Exemplos de consultas
- OpenAI client
- SQL
Para usar o cliente OpenAI , especifique o nome endpoint do modelo de abastecimento como a entrada model .
from openai import OpenAI
import base64
import requests
# Get the workspace API URL and token from the notebook context
API_ROOT = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiUrl().get()
API_TOKEN = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiToken().get()
client = OpenAI(
api_key=API_TOKEN,
base_url=f"{API_ROOT}/serving-endpoints",
)
# Download and encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
resp = requests.get(image_url)
resp.raise_for_status()
image_data = base64.b64encode(resp.content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-sonnet-4-5",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "what's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
O Chat Completions ( API ) suporta múltiplas entradas de imagens, permitindo que o modelo analise cada imagem e sintetize informações de todas as entradas para gerar uma resposta ao prompt.
from openai import OpenAI
import base64
import requests
# Get the workspace API URL and token from the notebook context
API_ROOT = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiUrl().get()
API_TOKEN = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiToken().get()
client = OpenAI(
api_key=API_TOKEN,
base_url=f"{API_ROOT}/serving-endpoints",
)
# Download and encode multiple images
image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
resp1 = requests.get(image1_url)
resp1.raise_for_status()
image1_data = base64.b64encode(resp1.content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
resp2 = requests.get(image2_url)
resp2.raise_for_status()
image2_data = base64.b64encode(resp2.content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-sonnet-4-5",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What are in these images? Is there any difference between them?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
O exemplo a seguir usa a função SQL integrada, ai_query. Esta função está em versão pública e a definição pode mudar.
As consultas a seguir são um modelo de base suportado pelas APIs do Databricks Foundation Model para entrada multimodal usando a função AI ai_query().
> SELECT *, ai_query(
'databricks-llama-4-maverick',
'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");
Modelos compatíveis
Consulte os tipos de modelo Foundation para ver os modelos de visão compatíveis.
Requisitos de entrada de imagem
Modelo | Formatos suportados | Várias imagens por solicitação | Limitações de tamanho de imagem | Recomendações de redimensionamento de imagem | Considerações sobre a qualidade da imagem |
|---|---|---|---|---|---|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 50 imagens por solicitação de API. Todas as imagens fornecidas são processadas mediante solicitação. | Limite de tamanho de arquivo: 7 MB por imagem | N/A | N/A |
|
| Até 5 imagens para solicitações de API
| Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API | N/A | N/A |
|
| Até 5 imagens para solicitações de API
| Limite de tamanho de arquivo: 10 MB no total em todas as imagens por solicitação de API | N/A | N/A |
|
|
|
| Para obter um desempenho ideal, redimensione as imagens antes de enviá-las, caso sejam muito grandes.
|
|
Conversão de imagem em tokens
Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.
Cada imagem em uma solicitação para um modelo de fundação aumenta o uso de tokens. Veja a calculadora de preços para estimar os preços das imagens com base no uso dos tokens e no modelo que você está usando.
Limitações da compreensão da imagem
Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.
A seguir estão as limitações de compreensão de imagem para os modelos de base hospedados no Databricks:
Modelo | Limitações |
|---|---|
Os seguintes modelos Claude são suportados:
| A seguir estão os limites para modelos Claude no Databricks:
|