Databricks で LLM のクエリを開始する

この記事では、基盤モデルAPIを使用してDatabricksでLLMを提供およびクエリする方法について説明します。

Databricksで LLMモデルの提供とクエリを開始する最も簡単な方法は、トークン単位の従量課金ベースで基盤モデルAPI を使用することです。この API は、 Databricks ワークスペースのサービング UI で自動的に利用可能になるトークン単位の従量課金エンドポイントから一般的な基盤モデルへのアクセスを提供します。 Databricks 基盤モデルAPIのサポート対象モデルを参照してください。

また、 AI Playgroundを使用してトークン単位の従量課金モデルをテストしてチャットすることもできます。 LLM とのチャットおよびAI Playgroundを使用した生成AI アプリのプロトタイピングを参照してください。

本番運用ワークロード、特に微調整されたモデルを使用するワークロードやパフォーマンス保証が必要なワークロードの場合、Databricksはプロビジョン済みスループットエンドポイントで基盤モデルAPIを使用することをお勧めします。

必要条件

基盤モデルAPIのトークン単位の従量課金がサポートされているリージョンにあるDatabricks ワークスペース。
OpenAI クライアントを使用して Mosaic AI Model Serving エンドポイントをクエリおよびアクセスするための Databricks 個人用アクセストークン。

important

本番運用シナリオのセキュリティのベストプラクティスとして、 Databricks では、本番運用中の認証にマシン間 OAuth トークンを使用することをお勧めします。

テストと開発のために、 Databricks ワークスペースユーザーではなく、サービスプリンシパルに属する個人用アクセストークンを使用することをお勧めします。サービスプリンシパルのトークンを作成するには、「サービスプリンシパルのトークンの管理」を参照してください。

基盤モデル API の使用を開始する

次の例は、Databricks ノートブックで実行することを目的としています。このコード例では、トークン単位の従量課金エンドポイント databricks-meta-llama-3-1-405b-instructで提供される Meta Llama 3.1 405B Instruct モデルに対してクエリを実行します。

この例では、OpenAI クライアントを使用して、クエリを実行するモデルをホストするモデルサービングエンドポイントの名前を model フィールドに入力することで、モデルをクエリします。個人用アクセストークンを使用して DATABRICKS_TOKEN API と Databricks ワークスペースインスタンスを設定し、OpenAI クライアントを Databricks に接続します。

Python
from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

注記

メッセージ、 ImportError: cannot import name 'OpenAI' from 'openai' が表示された場合は、 !pip install -U openai を使用して openai のバージョンをアップグレードします。パッケージをインストールしたら、 dbutils.library.restartPython()　を実行します。

期待される出力:

Bash

{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

次のステップ

AI プレイグラウンドを使用して、使い慣れたチャットインターフェイスでさまざまなモデルを試してみてください。
基盤モデルを使用します。
外部モデルを使用して、Databricks の外部でホストされているモデルにアクセスします。
プロビジョニングされたスループットエンドポイントを使用して微調整されたモデルをデプロイする方法について説明します。
モデルの品質とエンドポイントの正常性を監視する方法を探索します。

必要条件​

基盤モデル API の使用を開始する​

次のステップ​

必要条件

基盤モデル API の使用を開始する

次のステップ