メインコンテンツまでスキップ

チャット モデルのクエリ

この記事では、チャット タスク用に最適化された基盤モデルのクエリ要求を作成し、モデルサービング エンドポイントに送信する方法について説明します。

この記事の例は、次のいずれかを使用して使用可能になる基盤モデルのクエリに適用されます。

  • Databricksがホストする 基盤モデルAPI と呼ばれる 基盤モデル 。
  • Databricks の外部でホストされている基盤モデル と呼ばれる外部モデル

必要条件

クエリの例

このセクションの例では、さまざまなクライアントオプションを使用して 、基盤APIのトークン単位の従量課金エンドポイントdatabricks-meta-llama-3-3-70b-instructで利用できる Meta Llama 3.3 70B Instructモデルをクエリする方法を示します。

バッチ推論の例については、 Databricks AI Functionsを使用してデータにAIを適用する」を参照してください。

OpenAI クライアントを使用するには、 model 入力としてモデルサービングエンドポイント名を指定します。

Python

from databricks.sdk import WorkspaceClient

w = WorkspaceClient()
openai_client = w.serving_endpoints.get_open_ai_client()

response = openai_client.chat.completions.create(
model="databricks-meta-llama-3-3-70b-instruct",
messages=[
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
max_tokens=256
)

ワークスペースの外部で基盤モデルをクエリするには、OpenAI クライアントを直接使用する必要があります。また、OpenAI クライアントを Databricks に接続するには、Databricks ワークスペース インスタンスも必要です。次の例では、 Databricks API トークンと openai がコンピュートにインストールされていることを前提としています。

Python

import os
import openai
from openai import OpenAI

client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

response = client.chat.completions.create(
model="databricks-meta-llama-3-3-70b-instruct",
messages=[
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
max_tokens=256
)

例として、REST API を使用する場合のチャットモデルの想定されるリクエスト形式を次に示します。外部モデルの場合、特定のプロバイダーとエンドポイント構成に有効な追加のパラメーターを含めることができます。追加のクエリ・パラメーターを参照してください。

Bash
{
"messages": [
{
"role": "user",
"content": "What is a mixture of experts model?"
}
],
"max_tokens": 100,
"temperature": 0.1
}

以下は、REST API を使用して行われたリクエストに対して想定されるレスポンス形式です。

JSON
{
"model": "databricks-meta-llama-3-3-70b-instruct",
"choices": [
{
"message": {},
"index": 0,
"finish_reason": null
}
],
"usage": {
"prompt_tokens": 7,
"completion_tokens": 74,
"total_tokens": 81
},
"object": "chat.completion",
"id": null,
"created": 1698824353
}

サポートされているモデル

サポートされているチャットモデル については、基盤モデルタイプ を参照してください。

追加のリソース