チャットモデルのクエリ

この記事では、チャットや汎用タスク用に最適化された基盤モデルのクエリリクエストを作成し、モデルサービングエンドポイントに送信する方法を学びます。

この記事の例は、次のいずれかを使用して使用可能になる基盤モデルのクエリに適用されます。

Databricksがホストする 基盤モデルAPI と呼ばれる基盤モデル。
Databricks の外部でホストされている基盤モデル と呼ばれる外部モデル。

必要条件

要件を参照してください。
選択したクエリクライアントオプションに基づいて、適切なパッケージをクラスターにインストールします。

クエリの例

このセクションの例では、さまざまなクライアントオプションを使用して、基盤モデルAPIs正式単位の従量課金エンドポイントdatabricks-gemini-2-5-proによって利用可能な Gemini 2.5 Pro モデルをクエリする方法を示します。

バッチ推論の例については、 Databricks AI Functionsを使用してデータにAIを適用する」を参照してください。

OpenAI クライアントを使用するには、 model 入力としてモデルサービングエンドポイント名を指定します。

Python

from databricks.sdk import WorkspaceClient

w = WorkspaceClient()
openai_client = w.serving_endpoints.get_open_ai_client()

response = openai_client.chat.completions.create(
    model="databricks-gemini-2-5-pro",
    messages=[
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is a mixture of experts model?",
      }
    ],
    max_tokens=256
)

ワークスペースの外部で基盤モデルをクエリするには、OpenAI クライアントを直接使用する必要があります。また、OpenAI クライアントを Databricks に接続するには、Databricks ワークスペースインスタンスも必要です。次の例では、 Databricks API トークンと openai がコンピュートにインストールされていることを前提としています。

Python

import os
import openai
from openai import OpenAI

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

response = client.chat.completions.create(
    model="databricks-gemini-2-5-pro",
    messages=[
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is a mixture of experts model?",
      }
    ],
    max_tokens=256
)

重要

次の例では、組み込み SQL 関数 ai_query を使用しています。この機能はパブリックプレビュー段階であり、定義は変更される可能性があります。

SQL
SELECT ai_query(
    "databricks-gemini-2-5-pro",
    "Can you explain AI in ten words?"
  )

重要

次の例では REST API 基盤モデルを提供する提供エンドポイントをクエリするためにパラメーターを使用します。これらのパラメーターはパブリックプレビュー段階であり、定義は変更される可能性があります。POST /serving-endpoints/{name}/invocationsを参照してください。

Bash
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": " What is a mixture of experts model?"
    }
  ]
}' \
https://<workspace_host>.databricks.com/serving-endpoints/databricks-gemini-2-5-pro/invocations \

重要

次の例では、MLflow Deployments SDK の predict() API を使用しています。

Python

import mlflow.deployments

# Only required when running this example outside of a Databricks Notebook
export DATABRICKS_HOST="https://<workspace_host>.databricks.com"
export DATABRICKS_TOKEN="dapi-your-databricks-token"

client = mlflow.deployments.get_deploy_client("databricks")

chat_response = client.predict(
    endpoint="databricks-gemini-2-5-pro",
    inputs={
        "messages": [
            {
              "role": "user",
              "content": "Hello!"
            },
            {
              "role": "assistant",
              "content": "Hello! How can I assist you today?"
            },
            {
              "role": "user",
              "content": "What is a mixture of experts model??"
            }
        ],
        "temperature": 0.1,
        "max_tokens": 20
    }
)

このコードは、ワークスペース内のノートブックで実行する必要があります。Databricks ノートブックから Databricks SDK for Python を使用するを参照してください。

Python
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import ChatMessage, ChatMessageRole

w = WorkspaceClient()
response = w.serving_endpoints.query(
    name="databricks-gemini-2-5-pro",
    messages=[
        ChatMessage(
            role=ChatMessageRole.SYSTEM, content="You are a helpful assistant."
        ),
        ChatMessage(
            role=ChatMessageRole.USER, content="What is a mixture of experts model?"
        ),
    ],
    max_tokens=128,
)
print(f"RESPONSE:\n{response.choices[0].message.content}")

LangChain を使用して基盤モデルのエンドポイントをクエリするには、ChatDatabricks ChatModel クラスを使用し、endpointを指定できます。

Bash
%pip install databricks-langchain

Python
from langchain_core.messages import HumanMessage, SystemMessage
from databricks_langchain import ChatDatabricks

messages = [
    SystemMessage(content="You're a helpful assistant"),
    HumanMessage(content="What is a mixture of experts model?"),
]

llm = ChatDatabricks(model="databricks-gemini-2-5-pro")
llm.invoke(messages)

例として、REST API を使用する場合のチャットモデルの想定されるリクエスト形式を次に示します。外部モデルの場合、特定のプロバイダーとエンドポイント構成に有効な追加のパラメーターを含めることができます。追加のクエリ・パラメーターを参照してください。

Bash
{
  "messages": [
    {
      "role": "user",
      "content": "What is a mixture of experts model?"
    }
  ],
  "max_tokens": 100,
  "temperature": 0.1
}

以下は、REST API を使用して行われたリクエストに対して想定されるレスポンス形式です。

JSON
{
  "model": "databricks-gemini-2-5-pro",
  "choices": [
    {
      "message": {},
      "index": 0,
      "finish_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 7,
    "completion_tokens": 74,
    "total_tokens": 81
  },
  "object": "chat.completion",
  "id": null,
  "created": 1698824353
}

サポートされているモデル

サポートされているチャットモデルについては、基盤モデルタイプを参照してください。

必要条件​

クエリの例​

サポートされているモデル​

追加のリソース​

必要条件

クエリの例

サポートされているモデル

追加のリソース