ビジョンモデルのクエリ

この記事では、ビジョンタスクに最適化された基盤モデルのクエリリクエストを作成し、モデルサービングエンドポイントに送信する方法について説明します。

Mosaic AI Model Serving は、さまざまな基盤モデルを使用して画像を理解および分析するための統合 API を提供し、強力なマルチモーダル機能のロックを解除します。この機能は、Databricks基盤モデルAPI の一部として、外部モデルを提供するサービスエンドポイントの一部として、選択したホストモデルを通じて使用できます。

必要条件

要件を参照してください。
選択したクエリクライアントオプションに基づいて、適切なパッケージをクラスターにインストールします。

クエリの例

OpenAI client
SQL

OpenAIクライアントを使用するには、モデルサービングエンドポイント名をmodel入力として指定します。

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "what's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
                },
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Chat Completions API は複数の画像入力をサポートしているため、モデルは各画像を分析し、すべての入力から情報を合成してプロンプトへの応答を生成できます。

Python

from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# Encode multiple images

image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

# OpenAI request

completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What are in these images? Is there any difference between them?"},
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
            },
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
            },
          ],
      }
  ],
)

print(completion.choices[0].message.content)

重要

次の例では、組み込み SQL 関数ai_query を使用します。この機能はパブリックプレビュー段階であり、定義が変更される場合があります。

次の例では、 AI関数ai_query()を使用して、マルチモーダル入力用のDatabricks基盤モデルAPIsでサポートされている基盤モデルをクエリします。

SQL

> SELECT *, ai_query(
  'databricks-llama-4-maverick',
 'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");

サポートされているモデル

サポートされているビジョンモデルについては、基盤モデルタイプを参照してください。

入力画像の要件

モデル	サポートされている形式	リクエストごとに複数の画像	画像サイズの制限	画像のサイズ変更の推奨事項	画像品質に関する考慮事項
`databricks-gpt-5-2`	`JPEG` `PNG` `WebP` `GIF` （非アニメーション`GIF` ）	リクエストごとに最大500枚の個別画像入力	ファイルサイズの制限: リクエストあたりのペイロードサイズは合計で最大 10 MB	N/A	透かしやロゴなし人間が理解できるほど明確
`databricks-gpt-5-1`	`JPEG` `PNG` `WebP` `GIF` （非アニメーション`GIF` ）	リクエストごとに最大500枚の個別画像入力	ファイルサイズの制限: リクエストあたりのペイロードサイズは合計で最大 10 MB	N/A	透かしやロゴなし人間が理解できるほど明確
`databricks-gpt-5`	`JPEG` `PNG` `WebP` `GIF` （非アニメーション`GIF` ）	リクエストごとに最大500枚の個別画像入力	ファイルサイズの制限: リクエストあたりのペイロードサイズは合計で最大 10 MB	N/A	透かしやロゴなし人間が理解できるほど明確
`databricks-gpt-5-mini`	`JPEG` `PNG` `WebP` `GIF` （非アニメーション`GIF` ）	リクエストごとに最大500枚の個別画像入力	ファイルサイズの制限: リクエストあたりのペイロードサイズは合計で最大 10 MB	N/A	透かしやロゴなし人間が理解できるほど明確
`databricks-gpt-5-nano`	`JPEG` `PNG` `WebP` `GIF` （非アニメーション`GIF` ）	リクエストごとに最大500枚の個別画像入力	ファイルサイズの制限: リクエストあたりのペイロードサイズは合計で最大 10 MB	N/A	透かしやロゴなし人間が理解できるほど明確
`databricks-gemini-3-1-pro`	`JPEG` `PNG` `WebP`	API リクエストでは最大 50 枚の画像。提供されたすべての画像はリクエストで処理されます。	ファイルサイズ制限: 各画像7 MB	N/A	N/A
`databricks-gemini-3-pro`	`JPEG` `PNG` `WebP`	API リクエストでは最大 50 枚の画像。提供されたすべての画像はリクエストで処理されます。	ファイルサイズ制限: 各画像7 MB	N/A	N/A
`databricks-gemini-3-flash`	`JPEG` `PNG` `WebP`	API リクエストでは最大 50 枚の画像。提供されたすべての画像はリクエストで処理されます。	ファイルサイズ制限: 各画像7 MB	N/A	N/A
`databricks-gemini-2-5-pro`	`JPEG` `PNG` `WebP`	API リクエストでは最大 50 枚の画像。提供されたすべての画像はリクエストで処理されます。	ファイルサイズ制限: 各画像7 MB	N/A	N/A
`databricks-gemini-2-5-flash`	`JPEG` `PNG` `WebP`	API リクエストでは最大 50 枚の画像。提供されたすべての画像はリクエストで処理されます。	ファイルサイズ制限: 各画像7 MB	N/A	N/A
`databricks-gemma-3-12b`	`JPEG` `PNG` `WebP` `GIF`	APIリクエストには最大5枚の画像提供されたすべての画像はリクエストで処理されます。	ファイルサイズの制限: API リクエストごとにすべての画像の合計 10 MB	N/A	N/A
`databricks-llama-4-maverick`	`JPEG` `PNG` `WebP` `GIF`	APIリクエストには最大5枚の画像提供されたすべての画像はリクエストで処理されます。	ファイルサイズの制限: API リクエストごとにすべての画像の合計 10 MB	N/A	N/A
`databricks-claude-sonnet-4-6` `databricks-claude-sonnet-4-5` `databricks-claude-haiku-4-5` `databricks-claude-opus-4-6` `databricks-claude-opus-4-5` `databricks-claude-opus-4-1` `databricks-claude-sonnet-4`	`JPEG` `PNG` `GIF` `WebP`	Claude.AIで最大20枚の画像 API リクエストの最大 100 枚の画像提供されたすべての画像はリクエストで処理されるため、それらを比較または対比するのに役立ちます。	8000x8000 ピクセルを超える画像は拒否されます。 1 つの API リクエストで 20 を超える画像が送信された場合、画像あたりの最大許容サイズは 2000 x 2000 px です。	最適なパフォーマンスを得るには、画像が大きすぎる場合は、アップロードする前にサイズを変更します。画像の長辺が 1568 ピクセルを超えるか、サイズが約 1,600 トークンを超える場合、アスペクト比を維持しながら自動的に縮小されます。非常に小さい画像 ( 任意のエッジで 200 ピクセル未満)は、パフォーマンスを低下させる可能性があります。レイテンシーを短縮するには、画像を 1.15 メガピクセル以内、両次元で最大 1568 ピクセルに保ちます。	鮮明さ: ぼやけた画像やピクセル化された画像は避けてください。画像内のテキスト: テキストが読みやすく、小さすぎないことを確認します。テキストを拡大するためだけに主要な視覚的コンテキストを切り取ることは避けてください。

画像からトークンへの変換

このセクションは、基盤モデル APIにのみ適用されます。外部モデルについては、プロバイダーのドキュメントを参照してください。

基盤モデルへのリクエスト内の各画像は、トークンの使用量に追加されます。価格計算ツールを参照して、使用している使用状況とモデルに基づいて画像の価格を見積もります。

画像理解の制限

このセクションは、基盤モデル APIにのみ適用されます。外部モデルについては、プロバイダーのドキュメントを参照してください。

以下は、サポートされている Databricks ホスト基盤モデルの画像理解の制限です。

モデル	制限事項
次の Claude モデルがサポートされています。 `databricks-claude-opus-4-6` `databricks-claude-opus-4-5` `databricks-claude-opus-4-1` `databricks-claude-sonnet-4-6` `databricks-claude-sonnet-4-5` `databricks-claude-sonnet-4`	Databricks 上の Claude モデルの制限は次のとおりです。完璧な精度や、人間の監視なしでの繊細な分析が必要なタスクには、Claude を使用しないでください。人物の識別 : 画像内で人物を特定したり、名前を付けたりすることはできません。精度 : 低品質、回転した、または非常に小さい画像 (200 ピクセル) は誤って解釈される可能性があります。空間的推論 : アナログ時計やチェスの位置を読み取るなど、正確なレイアウトに苦労しています。カウント : おおよそのカウントを提供しますが、多くの小さなオブジェクトでは不正確になる場合があります。 AI が生成した画像 : 合成画像や偽の画像を確実に検出することはできません。不適切なコンテンツ : 露骨な表現を含む画像やポリシー違反の画像をブロックします。ヘルスケア :複雑な医療スキャン(CTやMRIなど)には適していません。診断ツールではありません。

モデル

制限事項

次の Claude モデルがサポートされています。

databricks-claude-opus-4-6
databricks-claude-opus-4-5
databricks-claude-opus-4-1
databricks-claude-sonnet-4-6
databricks-claude-sonnet-4-5
databricks-claude-sonnet-4

Databricks 上の Claude モデルの制限は次のとおりです。

完璧な精度や、人間の監視なしでの繊細な分析が必要なタスクには、Claude を使用しないでください。
人物の識別 : 画像内で人物を特定したり、名前を付けたりすることはできません。
精度 : 低品質、回転した、または非常に小さい画像 (200 ピクセル) は誤って解釈される可能性があります。
空間的推論 : アナログ時計やチェスの位置を読み取るなど、正確なレイアウトに苦労しています。
カウント : おおよそのカウントを提供しますが、多くの小さなオブジェクトでは不正確になる場合があります。
AI が生成した画像 : 合成画像や偽の画像を確実に検出することはできません。
不適切なコンテンツ : 露骨な表現を含む画像やポリシー違反の画像をブロックします。
ヘルスケア :複雑な医療スキャン(CTやMRIなど)には適していません。診断ツールではありません。

必要条件​

クエリの例​

サポートされているモデル​

入力画像の要件​

画像からトークンへの変換​

画像理解の制限​

追加のリソース​