メインコンテンツまでスキップ

基盤モデルAPIで利用できるDatabricksがホストする基盤モデル

この記事では、Databricks 基盤モデル APIsでサポートされている最先端のオープン モデルについて説明します。

注記

これらのモデルのリージョンの可用性とサポートされている機能領域については、Mosaic AI Model Servingでサポートされている基盤モデルを参照してください。

これらのモデルにクエリ要求を送信するには、 Databricks ワークスペースで使用可能なトークン単位の従量課金エンドポイントを使用します。 使用するモデル・エンドポイントの名前については、 基盤モデルの使用 および トークン単位の従量課金サポート・モデル表 を参照してください。

基盤モデル API は、トークン単位の従量課金モードでモデルをサポートするだけでなく、プロビジョン済みスループット モードも提供します。 Databricks では、本番運用ワークロードのプロビジョン済みスループットを推奨しています。 このモードは、トークン単位の従量課金モードでサポートされているファインチューンされたカスタムの事前トレーニング済みモデルを含む、モデル アーキテクチャ ファミリ (DBRX モデルなど) のすべてのモデルをサポートします。 サポートされているアーキテクチャの一覧については、 プロビジョン済みスループット 基盤モデル API を参照してください。

これらのサポートされているモデルは、 AI Playgroundを使用して操作できます。

OpenAI GPT-5

important

顧客は、OpenAI の利用規約の条項に確実に従う責任があります。

GPT-5 は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、コーディング、チャット、推論、エージェント駆動型タスク用に構築されています。

他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks Inc. によってホストされています。

OpenAI GPT-5 mini

important

顧客は、OpenAI の利用規約の条項に確実に従う責任があります。

GPT-5 mini は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、推論とチャットのワークロードに対してコストが最適化されており、信頼性の高い推論、正確な言語、テキストと画像の迅速な出力を必要とする明確に定義されたタスクに優れています。

他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks Inc. によってホストされています。

OpenAI GPT-5 nano

important

顧客は、OpenAI の利用規約の条項に確実に従う責任があります。

GPT-5 nano は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、単純な指示の遵守や日常的なビジネス プロセスやモバイル アプリケーションの分類などの高スループット タスクに優れています。

他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成されることがあります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks Inc. によってホストされています。

OpenAI GPT OSS 120B

important

OpenAI GPT OSS 120Bは、 Apache 2.0ライセンス、著作権(c)The Apache Software Foundation、無断複写・転載を禁じます。顧客は、該当するモデルライセンスと OpenAIの使用ポリシーでコンプライアンスを確保する責任があります。

GPT OSS 120B は、OpenAI によって構築およびトレーニングされた、思考連鎖と調整可能な推論努力レベルを備えた最先端の推論モデルです。これは OpenAI の主力オープンウェイト モデルであり、128K トークン コンテキスト ウィンドウを備えています。このモデルは、高品質の推論タスク用に構築されています。

他の大規模言語モデルと同様に、GPT OSS 120B の出力では一部の事実が省略され、場合によっては誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

OpenAI GPT OSS 20B

important

OpenAI GPT OSS 20Bは、 Apache 2.0ライセンス、著作権(c)The Apache Software Foundation、無断複写・転載を禁じます。顧客は、該当するモデルライセンスと OpenAIの使用ポリシーでコンプライアンスを確保する責任があります。

GPT OSS 20B は、OpenAI によって構築およびトレーニングされた最先端の軽量推論モデルです。このモデルには 128K トークン コンテキスト ウィンドウがあり、リアルタイムのコパイロットとバッチ推論タスクに優れています。

他の大規模言語モデルと同様に、GPT OSS 20B の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Google Gemma 3 12B

important

Gemma 3 コミュニティ ライセンスおよび利用規定については、 適用可能なモデル開発者ライセンスおよび条件 を参照してください。

Gemma 3 12B は、Gemma 3 ファミリーの一部として Google によって開発された、120 億のマルチモーダルおよびビジョン言語モデルです。 Gemma 3 は最大 128K のトークン コンテキストを持ち、140 を超える言語の多言語サポートを提供します。このモデルは、テキストと画像の両方の入力を処理し、テキスト出力を生成するように設計されており、質問への回答を含む対話ユースケース、テキスト生成、画像理解タスクに最適化されています。

他の大規模言語モデルと同様に、Gemma 3 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 4 Maverick

important

Llama 4 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては、適用されるモデル開発者ライセンスおよび条件を参照してください。

Llama 4 Maverick は、Meta によって構築およびトレーニングされた最先端の大規模言語モデルです。これは、 Llama モデルファミリーの中で初めて、コンピュートの効率のために専門家のアーキテクチャを組み合わせて使用しました。 Llama 4 Maverickは複数の言語をサポートし、画像とテキストを正確に理解するユースケースに最適化されています。現在、Databricks による Llama 4 Maverick のサポートは、テキスト理解のユースケースに限定されています。Llama 4 Maverick の詳細をご覧ください。

他の大規模言語モデルと同様に、 Llama 4 の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 3.3 70B Instruct

important

2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル API Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。

LLama 3.3 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては、 適用されるモデル開発者ライセンスと条件 を参照してください。

Meta-Llama-3.3-70B-Instructは、Metaによって構築およびトレーニングされた、コンテキスト128,000トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。 Meta Llama 3.3の詳細をご覧ください

他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 3.1 405B Instruct

備考

プレビュー

このモデルを基盤モデル API で使用することは、 パブリック プレビュー段階です。 このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。

Llama 3.1 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては 適用されるモデル開発者ライセンスおよび条件 」を参照してください。

Meta-Llama-3.1-405B-Instruct は、Meta によって構築およびトレーニングされた、公開されている最大の最先端の大規模言語モデルです。 このモデルを使用することで、顧客は高度なマルチステップ推論や 高品質の合成データ生成など、新しい機能を引き出すことができます。 このモデルは、品質の面でGPT-4-Turboと競合しています。

meta-llama-3.1-70B-instructのように、 このモデルのコンテキストは 128,000 トークンで、10 の言語がサポートされています。 これは、有用性と安全性に対する人間の好みと一致し、対話のユースケースに最適化されています。 Meta Llama 3.1モデルの詳細をご覧ください。

他の大規模言語モデルと同様に、Llama-3.1 の出力では、一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 3.1 8B Instruct

important

Llama 3.1 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては 適用されるモデル開発者ライセンスおよび条件 」を参照してください。

Meta-Llama-3.1-8B-Instruct は、Meta によって構築およびトレーニングされた、コンテキスト 128,000 トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。Meta Llama 3.1の詳細については、こちらをご覧ください

他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Anthropic Claude Sonnet 4.5

important

お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。

Claude Sonnet 4.5 は、Anthropic の最も高度なハイブリッド推論モデルです。ほぼ瞬時の応答と、タスクの複雑さに基づいてより深い推論を行う拡張思考の 2 つのモードを提供します。Claude Sonnet 4.5 は、顧客対応エージェント、本番運用コーディング ワークフロー、大規模なコンテンツ生成など、実用的なスループットと高度な思考のバランスを必要とするアプリケーションに特化しています。

他の大規模言語モデルと同様に、Claude Sonnet 4.5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。

Anthropic Claude Sonnet 4

important

お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。

Claude Sonnet 4 は、Anthropic によって構築および訓練された最先端のハイブリッド推論モデルです。このモデルには、ほぼ即時の応答と、タスクの複雑さに基づいてより深い推論を行うための拡張思考の 2 つのモードがあります。Claude Sonnet 4は、コード開発、大規模コンテンツ分析、エージェントアプリケーション開発など、さまざまなタスクに最適化されています。

他の大規模言語モデルと同様に、Claude Sonnet 4 の出力では、一部の事実が省略されたり、誤った情報が生成されることがあります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。

Anthropic Claude Opus 4.1

important

お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。

Claude Opus 4.1 は、Anthropic によって構築およびトレーニングされた最先端のハイブリッド推論モデルです。この汎用の大規模言語モデルは、複雑な推論とエンタープライズ規模の実際のアプリケーションの両方に対応するように設計されています。200K トークンのコンテキスト ウィンドウと 32K 出力トークン機能を備え、テキストと画像の入力をサポートします。このモデルは、コード生成、調査およびコンテンツ作成、継続的な人間の介入なしのマルチステップエージェントワークフローなどのタスクに優れています。

他の大規模言語モデルと同様に、Claude Opus 4.1 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。

Anthropic Claude 3.7 Sonnet

important

お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。

Claude 3.7 Sonnetは、Anthropicによって構築および訓練された最先端のハイブリッド推論モデルです。これは、タスクの複雑さに基づいて推論を迅速に応答または拡張できる大規模言語モデルおよび推論モデルです。 拡張思考モードでは、Claude 3.7 Sonnetの推論ステップがユーザーに表示されます。Claude 3.7 Sonnetは、コード生成、数学的推論、命令追従などのさまざまなタスクに最適化されています。

他の大規模言語モデルと同様に、Claude 3.7 の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。

GTE Large (EN)

important

GTE Large (En) は、 Apache 2.0 ライセンス、Copyright (c) The Apache Software Foundation, All rights reserved.お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。

General Text Embedding(GTE) は、任意のテキストを1024次元の埋め込みベクトルと8192トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、モデルの英語版を提供し、正規化された埋め込みは生成しません。

埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 GTE は、LLM のコンテキストで使用できる大きなドキュメント内の関連するテキストスニペットを見つけるために使用できます。

BGE Large (En)

BAAI General Embedding(BGE) は、任意のテキストを1024次元の埋め込みベクトルと512トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、英語版のモデルを提供し、正規化された埋め込みを生成します。

埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 BGEは、LLMのコンテキストで使用できるドキュメントの大きなチャンクで関連するテキストスニペットを見つけるために使用できます。

RAGアプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができる場合があります。 BGEの作成者は、クエリの埋め込みに命令 "Represent this sentence for searching relevant passages:" を試すことを推奨していますが、パフォーマンスへの影響はドメインによって異なります。

追加のリソース