Consulte modelos de visão
Neste artigo, você aprenderá a escrever solicitações de consulta para modelos básicos otimizados para tarefas de visão e enviá-las ao seu modelo em serviço endpoint.
O Mosaic AI Model Serving oferece uma API unificada para compreender e analisar imagens utilizando uma variedade de modelos básicos, desbloqueando poderosos recursos multimodais. Esta funcionalidade está disponível em modelos selecionados hospedados no Databrickscomo parte do Foundation Model APIs e do endpoint de serviço que atendem modelos externos.
Requisitos
- Consulte os requisitos.
- Instale o pacote apropriado para o seu clustering com base na opção de cliente de consulta escolhida.
Exemplos de consultas
from openai import OpenAI
import base64
import httpx
client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)
# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "what's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
O Chat Completions ( API ) suporta múltiplas entradas de imagens, permitindo que o modelo analise cada imagem e sintetize informações de todas as entradas para gerar uma resposta ao prompt.
from openai import OpenAI
import base64
import httpx
client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)
# Encode multiple images
image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What are in these images? Is there any difference between them?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
Requisitos de entrada de imagem
Modelo | Formatos suportados | Várias imagens por solicitação | Limitações de tamanho de imagem | Recomendações de redimensionamento de imagem | Considerações sobre a qualidade da imagem |
---|---|---|---|---|---|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
| Até 500 entradas de imagens individuais por solicitação | Limite de tamanho de arquivo: até 10 MB de tamanho total de carga útil por solicitação | N/A |
|
|
|
|
| Para obter um desempenho ideal, redimensione as imagens antes de enviá-las, caso sejam muito grandes.
|
|
Conversão de imagem em tokens
Esta seção se aplica apenas às APIs do Modelo Básico. Para modelos externos, consulte a documentação do fornecedor.
Cada imagem em uma solicitação para um modelo de fundação aumenta o uso de tokens. Veja a calculadora de preços para estimar os preços das imagens com base no uso dos tokens e no modelo que você está usando.