基盤モデルAPIで利用できるDatabricksがホストする基盤モデル
この記事では、Databricks 基盤モデル APIsでサポートされている最先端のオープン モデルについて説明します。
これらのモデルのリージョンの可用性とサポートされている機能領域については、Mosaic AI Model Servingでサポートされている基盤モデルを参照してください。
これらのモデルにクエリ要求を送信するには、 Databricks ワークスペースで使用可能なトークン単位の従量課金エンドポイントを使用します。 使用するモデル・エンドポイントの名前については、 基盤モデルの使用 および トークン単位の従量課金サポート・モデル表 を参照してください。
基盤モデル API は、トークン単位の従量課金モードでモデルをサポートするだけでなく、プロビジョン済みスループット モードも提供します。 Databricks では、本番運用ワークロードのプロビジョン済みスループットを推奨しています。 このモードは、トークン単位の従量課金モードでサポートされているファインチューンされたカスタムの事前トレーニング済みモデルを含む、モデル アーキテクチャ ファミリ (DBRX モデルなど) のすべてのモデルをサポートします。 サポートされているアーキテクチャの一覧については、 プロビジョン済みスループット 基盤モデル API を参照してください。
これらのサポートされているモデルは、 AI Playgroundを使用して操作できます。
OpenAI GPT-5
顧客は、OpenAI の利用規約の条項に確実に従う責任があります。
エンドポイント名 : databricks-gpt-5
GPT-5 は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、コーディング、チャット、推論、エージェント駆動型タスク用に構築されています。
他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks セキュリティ境界内で Databricks Inc. によってホストされています。
OpenAI GPT-5 mini
顧客は、OpenAI の利用規約の条項に確実に従う責任があります。
エンドポイント名 : databricks-gpt-5-mini
GPT-5 mini は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、推論とチャットのワークロードに対してコストが最適化されており、信頼性の高い推論、正確な言語、テキストと画像の迅速な出力を必要とする明確に定義されたタスクに優れています。
他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks セキュリティ境界内で Databricks Inc. によってホストされています。
OpenAI GPT-5 nano
顧客は、OpenAI の利用規約の条項に確実に従う責任があります。
エンドポイント名 : databricks-gpt-5-nano
GPT-5 nano は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、単純な指示の遵守や日常的なビジネス プロセスやモバイル アプリケーションの分類などの高スループット タスクに優れています。
他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成されることがあります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks セキュリティ境界内で Databricks Inc. によってホストされています。
Google Gemini 2.5 Pro
Gemini 2.5 Pro に適用されるモデル開発者ライセンスと条件を参照してください。
エンドポイント名 : databricks-gemini-2.5-pro
Gemini 2.5 Pro は、Google が開発およびトレーニングした 100 万トークンのコンテキスト ウィンドウを備えた最先端のハイブリッド推論モデルです。Gemini 2.5 Pro の「ディープ シンクMode 」と組み込みオーディオ出力により、エンタープライズ、研究、クリエイティブ アプリケーション向けの主要モデルとして際立っています。 幅広い入力とタスクにわたる複雑な推論、詳細な分析、マルチモーダル理解に優れた性能を発揮するように設計されています。Gemini 2.5 Pro の詳細をご覧ください。
他の大規模言語モデルと同様に、Gemini 2.5 Pro の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
Google Gemini 2.5 Flash
Gemini 2.5 Flash の適用可能なモデル開発者ライセンスと条件を参照してください。
エンドポイント名 : databricks-gemini-2.5-flash
Gemini 2.5 Flash は、Google によって開発およびトレーニングされた高速でコスト効率の高いマルチモーダル AI モデルです。これは、迅速でスケーラブルかつ手頃な価格の AI ソリューションを求める開発者や企業向けに設計された、Google 初の完全ハイブリッド推論モデルです。Gemini 2.5 Flash は、単一のコンテキストで最大 100 万個のトークンを処理できるため、非常に大きなドキュメントやデータセットを処理できます。Gemini 2.5 Flash は、チャットボット、データ抽出、翻訳、ドキュメント解析などのリアルタイムかつ大容量のアプリケーション向けに最適化されています。Gemini 2.5 Flash の詳細をご覧ください。
他の大規模言語モデルと同様に、Gemini 2.5 の Flash 出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
Alibaba Cloud Qwen3-Next 80B A3B Instruct
Qwen3-Next 80B A3B Instruct モデルはベータ版であり、 us-west-2およびap-northeast-1地域でのみ利用可能です。
- このモデルを有効にする方法については、 Databricks プレビューの管理を参照してください。
- Qwen3-Next 80B A3B Instruct は、 Apache 2.0 ライセンスに基づいて提供され、その条件に従います。Copyright (c) The Apache Software Foundation、All rights reserved。顧客は、該当するモデル ライセンスによるコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-qwen3-next-80b-a3b-instruct
Qwen3-Next-80B-A3B-Instruct は、Alibaba Cloudによって構築およびトレーニングされた、命令に従うタスク用に最適化された非常に効率的な大規模言語モデルです。 このモデルは、非常に長いコンテキストを処理するように設計されており、マルチステップのワークフロー、RAG、高スループットで確定的な出力を必要とするエンタープライズ アプリケーションに最適です。
他の大規模言語モデルと同様に、Qwen3-Next 80B A3B Instruct 出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
OpenAI GPT OSS 120B
OpenAI GPT OSS 120B は、 Apache 2.0 ライセンスに基づいて提供され、その条件に従います。Copyright (c) The Apache Software Foundation、All rights reserved。顧客は、該当するモデル ライセンスによるコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-gpt-oss-120b
GPT OSS 120B は、OpenAI によって構築およびトレーニングされた、思考の連鎖と調整可能な推論努力レベルを備えた最先端の推論モデルです。これは OpenAI の主力オープンウェイト モデルであり、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、高品質の推論タスク用に構築されています。
他の大規模言語モデルと同様に、GPT OSS 120B の出力では一部の事実が省略され、場合によっては誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
OpenAI GPT OSS 20B
OpenAI GPT OSS 20B は、 Apache 2.0 ライセンスに基づいて提供され、これに従います。Copyright (c) The Apache Software Foundation、All rights reserved。顧客は、該当するモデル ライセンスによるコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-gpt-oss-20b
GPT OSS 20B は、OpenAI によって構築およびトレーニングされた最先端の軽量推論モデルです。このモデルには 128K トークン コンテキスト ウィンドウがあり、リアルタイムのコパイロットとバッチ推論タスクに優れています。
他の大規模言語モデルと同様に、GPT OSS 20B の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Google Gemma 3 12B
Gemma 3 コミュニティ ライセンスおよび利用規定については、 適用可能なモデル開発者ライセンスおよび条件 を参照してください。
エンドポイント名 : databricks-gemma-3-12b
Gemma 3 12B は、Gemma 3 ファミリーの一部として Google によって開発された、120 億のマルチモーダルおよびビジョン言語モデルです。 Gemma 3 は最大 128K のトークン コンテキストを持ち、140 を超える言語の多言語サポートを提供します。このモデルは、テキストと画像の両方の入力を処理し、テキスト出力を生成するように設計されており、質問への回答を含む対話ユースケース、テキスト生成、画像理解タスクに最適化されています。
他の大規模言語モデルと同様に、Gemma 3 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 4 Maverick
Llama 4 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては、適用されるモデル開発者ライセンスおよび条件を参照してください。
エンドポイント名 : databricks-llama-4-maverick
Llama 4 Maverick は、Meta によって構築およびトレーニングされた最先端の大規模言語モデルです。これは、 Llama モデルファミリーの中で初めて、コンピュートの効率のために専門家のアーキテクチャを組み合わせて使用しました。 Llama 4 Maverickは複数の言語をサポートし、画像とテキストを正確に理解するユースケースに最適化されています。現在、Databricks による Llama 4 Maverick のサポートは、テキスト理解のユースケースに限定されています。Llama 4 Maverick の詳細をご覧ください。
他の大規模言語モデルと同様に、 Llama 4 の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 3.3 70B Instruct
2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル API Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。
LLama 3.3 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては、 適用されるモデル開発者ライセンスと条件 を参照してください。
エンドポイント名 : databricks-meta-llama-3-3-70b-instruct
Meta-Llama-3.3-70B-Instructは、Metaによって構築およびトレーニングされた、コンテキスト128,000トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。 Meta Llama 3.3の詳細をご覧ください。
他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 3.1 405B Instruct
プレビュー
このモデルを基盤モデル API で使用することは、 パブリック プレビュー段階です。 このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。
Llama 3.1 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては 適用されるモデル開発者ライセンスおよび条件 」を参照してください。
エンドポイント名 : databricks-meta-llama-3-1-405b-instruct
Meta-Llama-3.1-405B-Instruct は、Meta によって構築およびトレーニングされた、公開されている最大の最先端の大規模言語モデルです。 このモデルを使用することで、顧客は高度なマルチステップ推論や 高品質の合成データ生成など、新しい機能を引き出すことができます。 このモデルは、品質の面でGPT-4-Turboと競合しています。
meta-llama-3.1-70B-instructのように、 このモデルのコンテキストは 128,000 トークンで、10 の言語がサポートされています。 これは、有用性と安全性に対する人間の好みと一致し、対話のユースケースに最適化されています。 Meta Llama 3.1モデルの詳細をご覧ください。
他の大規模言語モデルと同様に、Llama-3.1 の出力では、一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 3.1 8B Instruct
Llama 3.1 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては 適用されるモデル開発者ライセンスおよび条件 を参照してください。
エンドポイント名 : databricks-meta-llama-3-1-8b-instruct
Meta-Llama-3.1-8B-Instruct は、Meta によって構築およびトレーニングされた、コンテキスト 128,000 トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。Meta Llama 3.1の詳細については、こちらをご覧ください。
他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Anthropic Claude Sonnet 4.5
お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-claude-sonnet-4-5
Claude Sonnet 4.5 は、Anthropic の最も高度なハイブリッド推論モデルです。ほぼ瞬時の応答と、タスクの複雑さに基づいてより深い推論を行う拡張思考の 2 つのモードを提供します。Claude Sonnet 4.5 は、顧客対応エージェント、本番運用コーディング ワークフロー、大規模なコンテンツ生成など、実用的なスループットと高度な思考のバランスを必要とするアプリケーションに特化しています。
他の大規模言語モデルと同様に、Claude Sonnet 4.5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。
Anthropic Claude Sonnet 4
お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-claude-sonnet-4
Claude Sonnet 4 は、Anthropic によって構築および訓練された最先端のハイブリッド推論モデルです。このモデルには、ほぼ即時の応答と、タスクの複雑さに基づいてより深い推論を行うための拡張思考の 2 つのモードがあります。Claude Sonnet 4は、コード開発、大規模コンテンツ分析、エージェントアプリケーション開発など、さまざまなタスクに最適化されています。
他の大規模言語モデルと同様に、Claude Sonnet 4 の出力では、一部の事実が省略されたり、誤った情報が生成されることがあります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。
Anthropic Claude Opus 4.1
お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-claude-opus-4-1
Claude Opus 4.1 は、Anthropic によって構築およびトレーニングされた最先端のハイブリッド推論モデルです。この汎用の大規模言語モデルは、複雑な推論とエンタープライズ規模の実際のアプリケーションの両方に対応するように設計されています。200K トークンのコンテキスト ウィンドウと 32K 出力トークン機能を備え、テキストと画像の入力をサポートします。このモデルは、コード生成、調査およびコンテンツ作成、継続的な人間の介入なしのマルチステップエージェントワークフローなどのタスクに優れています。
他の大規模言語モデルと同様に、Claude Opus 4.1 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。
Anthropic Claude 3.7 Sonnet
お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-claude-3.7-sonnet
Claude 3.7 Sonnetは、Anthropicによって構築および訓練された最先端のハイブリッド推論モデルです。これは、タスクの複雑さに基づいて推論を迅速に応答または拡張できる大規模言語モデルおよび推論モデルです。 拡張思考モードでは、Claude 3.7 Sonnetの推論ステップがユーザーに表示されます。Claude 3.7 Sonnetは、コード生成、数学的推論、命令追従などのさまざまなタスクに最適化されています。
他の大規模言語モデルと同様に、Claude 3.7 の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。
GTE Large (EN)
GTE Large (En) は、 Apache 2.0 ライセンス、Copyright (c) The Apache Software Foundation, All rights reserved.お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。
エンドポイント名 : databricks-gte-large-en
General Text Embedding(GTE) は、任意のテキストを1024次元の埋め込みベクトルと8192トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、モデルの英語版を提供し、正規化された埋め込みは生成しません。
埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 GTE は、LLM のコンテキストで使用できる大きなドキュメント内の関連するテキストスニペットを見つけるために使用できます。
BGE Large (En)
エンドポイント名 : databricks-bge-large-en
BAAI General Embedding(BGE) は、任意のテキストを1024次元の埋め込みベクトルと512トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、英語版のモデルを提供し、正規化された埋め込みを生成します。
埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 BGEは、LLMのコンテキストで使用できるドキュメントの大きなチャンクで関連するテキストスニペットを見つけるために使用できます。
RAGアプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができる場合があります。 BGEの作成者は、クエリの埋め込みに命令 "Represent this sentence for searching relevant passages:" を試すことを推奨していますが、パフォーマンスへの影響はドメインによって異なります。