基盤モデルを使用する

この記事では、基盤モデルのクエリ要求を記述するために使用できるオプションと、それらをモデルサービングエンドポイントに送信する方法について説明します。 Databricks によってホストされている基盤モデルと、Databricks の外部でホストされている基盤モデルに対してクエリを実行できます。

従来の ML モデルまたは Python モデルのクエリ要求については、カスタムモデルのクエリサービングエンドポイントを参照してください。

Mosaic AI Model Serving は、基盤モデルにアクセスするための基盤モデル API と外部モデルをサポートしています。モデルサービングは、統一されたOpenAI互換の API とクエリ SDK を使用します。これにより、エクスペリメントを行い、サポートされているクラウドやプロバイダー間での本番運用のための基盤モデルをカスタマイズすることが可能になります。

クエリオプション

Mosaic AI Model Serving は、基盤モデルを提供するエンドポイントにクエリリクエストを送信するための次のオプションを提供します。

メソッド	詳細
OpenAIクライアント	OpenAI クライアントを使用して、 Mosaic AI Model Servingエンドポイントによってホストされているモデルをクエリします。 `model`入力としてモデルサーバーのエンドポイント名を指定します。基盤モデルAPIまたは外部モデルによって提供されるチャット、埋め込み、補完モデルがサポートされます。
AI関数	`ai_query` SQL 関数を使用して、SQL から直接モデル推論を呼び出します。例: 基盤モデルのクエリを参照してください。
サービングUI	サービングエンドポイントページからエンドポイントのクエリーを選択します。JSON形式のモデル入力データを挿入し、リクエストを送信をクリックします。モデルに入力例がログに記録されている場合は、例を表示を使用して読み込みます。
REST API	REST API を使用してモデルを呼び出し、クエリを実行します。詳細は POST /serving-endpoints/{name}/invocations を参照してください。複数のモデルを提供するエンドポイントへの要求のスコアリングについては、エンドポイントの背後にある個々のモデルのクエリを参照してください。
MLflow Deployments SDK	MLflow Deployments SDK の predict() 関数を使用して、モデルに対してクエリを実行します。
Databricks Python SDK	Databricks Python SDK は、REST API の上位にあるレイヤーです。認証などの低レベルの詳細を処理するため、モデルとの対話が容易になります。

必要条件

モデルサービングエンドポイント。
サポートされているリージョン内の Databricks ワークスペース。
- 基盤モデルAPIのリージョン
- 外部モデルのリージョン
OpenAI クライアント、REST API、または MLflow Deployment SDK を使用してスコアリング要求を送信するには、Databricks API トークンが必要です。

重要

本番運用シナリオのセキュリティのベストプラクティスとして、 Databricks では、本番運用中の認証にマシン間 OAuth トークンを使用することをお勧めします。

テストと開発のために、 Databricks ワークスペースユーザーではなく、サービスプリンシパルに属する個人用アクセストークンを使用することをお勧めします。サービスプリンシパルのトークンを作成するには、「サービスプリンシパルのトークンの管理」を参照してください。

パッケージのインストール

クエリ方法を選択したら、まず適切なパッケージをクラスターにインストールする必要があります。

OpenAI client
REST API
MLflow Deployments SDK
Databricks Python SDK

OpenAI クライアントを使用するには、 databricks-sdk[openai] パッケージをクラスターにインストールする必要があります。 Databricks SDK 、生成モデルのクエリを実行するように自動的に構成された承認を使用して OpenAI クライアントを構築するためのラッパーAI 提供されます。ノートブックまたはローカルターミナルで次のコマンドを実行します。

!pip install databricks-sdk[openai]>=0.35.0

以下は、パッケージを Databricks ノートブックにインストールする場合にのみ必要です

Python
dbutils.library.restartPython()

!pip install mlflow

以下は、パッケージを Databricks ノートブックにインストールする場合にのみ必要です

Python
dbutils.library.restartPython()

基盤モデル types

次の表は、タスクタイプに基づいてサポートされている基盤モデルをまとめたものです。

重要

Meta-Llama-3.1-405B-Instructは廃止されます。

2026 年 2 月 15 日から、VPN単位の従量課金ワークロードが開始されます。
プロビジョニングされたスループットワークロードについては、2026 年 5 月 15 日から開始されます。

推奨される代替モデルと廃止期間中の移行方法に関するガイダンスについては、「廃止されたモデル」を参照してください。

タスクのタイプ	説明	サポートされているモデル	いつ使うの?推奨される使用例
汎用	自然なマルチターンの会話を理解し、参加するように設計されたモデル。彼らは人間の対話の大規模なデータセットで微調整されているため、文脈的に関連性のある応答を生成し、会話の履歴を追跡し、さまざまなトピックにわたって一貫した人間のような対話を提供することができます。	Databricks でホストされる基盤モデルは次のとおりです。 `databricks-gpt-5-1` `databricks-gpt-5` `databricks-gpt-5-mini` `databricks-gpt-5-nano` `databricks-gemini-3-pro` `databricks-gemini-2-5-pro` `databricks-gemini-2-5-flash` `databricks-qwen3-next-80b-a3b-instruct` (ベータ版) `databricks-claude-sonnet-4-5` `databricks-gpt-oss-20b` `databricks-gpt-oss-120b` `databricks-gemma-3-12b` `databricks-claude-sonnet-4` `databricks-claude-opus-4-1` `databricks-llama-4-maverick` `databricks-claude-3.7-sonnet` `databricks-meta-llama-3-3-70b-instruct` `databricks-meta-llama-3-1-405b-instruct` `databricks-meta-llama-3-1-8b-instruct` サポートされている外部モデルは次のとおりです。 OpenAI GPTおよびoシリーズモデル Anthropic クロードモデル Google Geminiモデル	自然なマルチターンの対話と文脈の理解が必要なシナリオに推奨されます。バーチャルアシスタント顧客サポートボットインタラクティブな個別指導システム。
Embeddings	エンベッディングモデルは、テキスト、画像、オーディオなどの複雑なデータをエンベディングと呼ばれるコンパクトな数値ベクトルに変換する機械学習システムです。これらのベクトルは、データ内の重要な特徴と関係をキャプチャするため、効率的な比較、クラスタリング、およびセマンティック検索が可能になります。	Databricks でホストされる基盤モデルは次のとおりです。 `databricks-gte-large-en` `databricks-bge-large-en` サポートされている外部モデルは次のとおりです。 OpenAIテキストエンべディングモデル Cohere テキストエンべディングモデル Google テキストエンべディングモデル	セマンティックな理解、類似性の比較、複雑なデータの効率的な取得またはクラスタリングが不可欠なアプリケーションに推奨されます。セマンティック検索検索拡張生成（RAG）トピックのクラスタリング感情分析とテキストアナリティクス
ビジョン	画像やビデオなどの視覚データを処理、解釈、分析するように設計されたモデルにより、機械は視覚世界を「見て」理解できます。	Databricks でホストされる基盤モデルは次のとおりです。 `databricks-gpt-5-1` `databricks-gpt-5` `databricks-gpt-5-mini` `databricks-gpt-5-nano` `databricks-gemini-3-pro` `databricks-gemini-2-5-pro` `databricks-gemini-2-5-flash` `databricks-gemma-3-12b` `databricks-claude-sonnet-4-5` `databricks-claude-sonnet-4` `databricks-claude-opus-4-1` `databricks-claude-3.7-sonnet` `databricks-llama-4-maverick` サポートされている外部モデルは次のとおりです。ビジョン機能を備えたOpenAIGPTおよびoシリーズモデルビジョン機能を備えたAnthropic Claudeモデルビジョン機能を備えたGoogle Geminiモデル OpenAI APIと互換性のあるビジョン機能を備えた他の外部基盤モデルもサポートされています。	視覚情報の自動化、正確性、拡張性の向上が必要な場合に推奨されます。物体の検出と認識画像分類画像のセグメンテーションドキュメントの理解
推論	人間のような論理的思考をシミュレートするように設計された高度なAIシステム。推論モデルは、シンボリックロジック、確率的推論、ニューラルネットワークなどの手法を統合して、コンテキストを分析し、タスクを分解し、その意思決定を説明します。	Databricks でホストされる基盤モデルは次のとおりです。 `databricks-gpt-5-1` `databricks-gpt-5` `databricks-gpt-5-mini` `databricks-gpt-5-nano` `databricks-gemini-3-pro` `databricks-gemini-2-5-pro` `databricks-gemini-2-5-flash` `databricks-claude-sonnet-4-5` `databricks-gpt-oss-20b` `databricks-gpt-oss-120b` `databricks-claude-sonnet-4` `databricks-claude-opus-4-1` `databricks-claude-3.7-sonnet` サポートされている外部モデルは次のとおりです。推論機能を備えたOpenAIモデル Anthropic クロードは推論能力を持つモデルです推論機能を備えたGoogle Geminiモデル	視覚情報の自動化、正確性、拡張性の向上が必要な場合に推奨されます。コードの生成コンテンツの作成と要約エージェントのオーケストレーション

関数呼び出し

Databricks Function Calling は OpenAI と互換性があり、基盤モデル API の一部としてモデルサービング中のみ使用でき、外部モデルを提供するサービングエンドポイントを利用できます。詳細については、「 Databricks での関数呼び出し」を参照してください。

構造化された出力

Structured outputs は OpenAI と互換性があり、基盤モデル APIの一部としてモデルサービング中のみ使用できます。詳細については、「 Databricks での構造化出力」を参照してください。

プロンプトキャッシュ

プロンプトキャッシュは、 Databricksでホストされる Claude モデルに対して、インフラストラクチャモデルAPIsの一部としてサポートされています。

クエリリクエストでcache_control引数を指定して、次のものをキャッシュできます。

messages.content配列内のテキストコンテンツメッセージ。
messages.content配列内のメッセージコンテンツを検討しています。
messages.content配列内の画像コンテンツブロック。
ツールの使用、結果、および定義はtools配列内にあります。

「プラットフォームモデルREST APIリファレンス」を参照してください。

TextContent
ReasonContent
ImageContent
ToolCallContent

JSON
{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What's the date today?",
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

JSON
{
  "messages": [
    {
      "role": "assistant",
      "content": [
        {
          "type": "reasoning",
          "summary": [
            {
              "type": "summary_text",
              "text": "Thinking...",
              "signature": "[optional]"
            },
            {
              "type": "summary_encrypted_text",
              "data": "[encrypted text]"
            }
          ]
        }
      ]
    }
  ]
}

画像メッセージコンテンツは、エンコードされたデータをソースとして使用する必要があります。URL はサポートされていません。

JSON
{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,[content]"
          },
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

JSON
{
  "messages": [
    {
      "role": "assistant",
      "content": "Ok, let’s get the weather in New York.",
      "tool_calls": [
        {
          "type": "function",
          "id": "123",
          "function": {
            "name": "get_weather",
            "arguments": "{\"location\":\"New York, NY\"}"
          },
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

注記

Databricks REST API は OpenAI と互換性があり、Anthropic API とは異なります。これらの違いは、次のような応答オブジェクトにも影響します。

出力はchoicesフィールドに返されます。
ストリーミングチャンク形式。すべてのチャンクは同じ形式に準拠しており、 choicesには応答deltaが含まれ、使用状況はチャンクごとに返されます。
停止理由はfinish_reasonフィールドに返されます。
- Anthropic は、 end_turn 、 stop_sequence 、 max_tokens 、および tool_use
- それぞれ、Databricksはstop 、 stop 、 length 、および tool_calls

AI Playground を使用してサポートされている LLM とチャットする

サポートされている大規模言語モデルは、 AI Playgroundを使用して操作できます。 AI Playground は、Databricks ワークスペースから LLM をテスト、プロンプト、比較できるチャットのような環境です。

AI playground

クエリオプション​

必要条件​

パッケージのインストール​

基盤モデル types​

関数呼び出し​

構造化された出力​

プロンプトキャッシュ​

AI Playground を使用してサポートされている LLM とチャットする​

追加のリソース​