基盤モデルAPIで利用できるDatabricksがホストする基盤モデル
この記事では、Databricks 基盤モデル APIsでサポートされている最先端のオープン モデルについて説明します。
これらのモデルのリージョンの可用性とサポートされている機能領域については、Mosaic AI Model Servingでサポートされている基盤モデルを参照してください。
これらのモデルにクエリ要求を送信するには、 Databricks ワークスペースで使用可能なトークン単位の従量課金エンドポイントを使用します。 使用するモデル・エンドポイントの名前については、 基盤モデルの使用 および トークン単位の従量課金サポート・モデル表 を参照してください。
基盤モデル API は、トークン単位の従量課金モードでモデルをサポートするだけでなく、プロビジョン済みスループット モードも提供します。 Databricks では、本番運用ワークロードのプロビジョン済みスループットを推奨しています。 このモードは、トークン単位の従量課金モードでサポートされているファインチューンされたカスタムの事前トレーニング済みモデルを含む、モデル アーキテクチャ ファミリ (DBRX モデルなど) のすべてのモデルをサポートします。 サポートされているアーキテクチャの一覧については、 プロビジョン済みスループット 基盤モデル API を参照してください。
これらのサポートされているモデルは、 AI Playgroundを使用して操作できます。
OpenAI GPT OSS 120B
OpenAI GPT OSS 120Bは、 Apache 2.0ライセンス、著作権(c)The Apache Software Foundation、無断複写・転載を禁じます。顧客は、該当するモデルライセンスと OpenAIの使用ポリシーでコンプライアンスを確保する責任があります。
GPT OSS 120B は、OpenAI によって構築およびトレーニングされた、思考連鎖と調整可能な推論努力レベルを備えた最先端の推論モデルです。これは OpenAI の主力オープンウェイト モデルであり、128K トークン コンテキスト ウィンドウを備えています。このモデルは、高品質の推論タスク用に構築されています。
他の大規模言語モデルと同様に、GPT OSS 120B の出力では一部の事実が省略され、場合によっては誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
OpenAI GPT OSS 20B
OpenAI GPT OSS 20Bは、 Apache 2.0ライセンス、著作権(c)The Apache Software Foundation、無断複写・転載を禁じます。顧客は、該当するモデルライセンスと OpenAIの使用ポリシーでコンプライアンスを確保する責任があります。
GPT OSS 20B は、OpenAI によって構築およびトレーニングされた最先端の軽量推論モデルです。このモデルには 128K トークン コンテキスト ウィンドウがあり、リアルタイムのコパイロットとバッチ推論タスクに優れています。
他の大規模言語モデルと同様に、GPT OSS 20B の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Google Gemma 3 12B
Gemma 3 コミュニティ ライセンスおよび利用規定については、 適用可能なモデル開発者ライセンスおよび条件 を参照してください。
Gemma 3 12B は、Gemma 3 ファミリの一部として Google によって開発された 120 億パラメーター言語モデルです。 Gemma 3は、最大128Kのトークンコンテキストを持ち、140以上の言語を多言語でサポートしています。このモデルは、テキスト入力を処理し、テキスト出力を生成するように設計されており、質問応答を含むダイアログのユースケースとテキスト生成タスクに最適化されています。
他の大規模言語モデルと同様に、Gemma 3 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 4 Maverick
Llama 4 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては、適用されるモデル開発者ライセンスおよび条件を参照してください。
Llama 4 Maverick は、Meta によって構築およびトレーニングされた最先端の大規模言語モデルです。これは、 Llama モデルファミリーの中で初めて、コンピュートの効率のために専門家のアーキテクチャを組み合わせて使用しました。 Llama 4 Maverickは複数の言語をサポートし、画像とテキストを正確に理解するユースケースに最適化されています。現在、Databricks による Llama 4 Maverick のサポートは、テキスト理解のユースケースに限定されています。Llama 4 Maverick の詳細をご覧ください。
他の大規模言語モデルと同様に、 Llama 4 の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 3.3 70B Instruct
2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル API Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。
LLama 3.3 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては、 適用されるモデル開発者ライセンスと条件 を参照してください。
Meta-Llama-3.3-70B-Instructは、Metaによって構築およびトレーニングされた、コンテキスト128,000トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。 Meta Llama 3.3の詳細をご覧ください。
他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 3.1 405B Instruct
プレビュー
このモデルを基盤モデル API で使用することは、 パブリック プレビュー段階です。 このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。
Llama 3.1 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては 適用されるモデル開発者ライセンスおよび条件 」を参照してください。
Meta-Llama-3.1-405B-Instruct は、Meta によって構築およびトレーニングされた、公開されている最大の最先端の大規模言語モデルです。 このモデルを使用することで、顧客は高度なマルチステップ推論や 高品質の合成データ生成など、新しい機能を引き出すことができます。 このモデルは、品質の面でGPT-4-Turboと競合しています。
meta-llama-3.1-70B-instructのように、 このモデルのコンテキストは 128,000 トークンで、10 の言語がサポートされています。 これは、有用性と安全性に対する人間の好みと一致し、対話のユースケースに最適化されています。 Meta Llama 3.1モデルの詳細をご覧ください。
他の大規模言語モデルと同様に、Llama-3.1 の出力では、一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Meta Llama 3.1 8B Instruct
Llama 3.1 コミュニティ ライセンスおよび利用規定ポリシーの適用に関しては 適用されるモデル開発者ライセンスおよび条件 」を参照してください。
Meta-Llama-3.1-8B-Instruct は、Meta によって構築およびトレーニングされた、コンテキスト 128,000 トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。Meta Llama 3.1の詳細については、こちらをご覧ください。
他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
Anthropic Claude Sonnet 4
お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。
Claude Sonnet 4 は、Anthropic によって構築および訓練された最先端のハイブリッド推論モデルです。このモデルには、ほぼ即時の応答と、タスクの複雑さに基づいてより深い推論を行うための拡張思考の 2 つのモードがあります。Claude Sonnet 4は、コード開発、大規模コンテンツ分析、エージェントアプリケーション開発など、さまざまなタスクに最適化されています。
他の大規模言語モデルと同様に、Claude Sonnet 4 の出力では、一部の事実が省略されたり、誤った情報が生成されることがあります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。
Anthropic Claude Opus 4
お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。
Claude Opus 4 は、Anthropic によって構築およびトレーニングされた最先端のハイブリッド推論モデルです。このモデルには、ほぼ即時の応答と、タスクの複雑さに基づいてより深い推論を行うための拡張思考の 2 つのモードがあります。Claude Opus 4は、高度なコード生成、エージェントオーケストレーション、クロスソースリサーチ、コンテンツ作成、コンテキスト保持を使用した要約など、さまざまなタスクに最適化されています。
他の大規模言語モデルと同様に、Claude Opus 4 の出力では、一部の事実が省略されたり、誤った情報が生成されたりすることがあります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。
Anthropic Claude 3.7 Sonnet
お客様は、 Anthropicの 利用規約の条件に従ってコンプライアンスを確保する責任があります。
Claude 3.7 Sonnetは、Anthropicによって構築および訓練された最先端のハイブリッド推論モデルです。これは、タスクの複雑さに基づいて推論を迅速に応答または拡張できる大規模言語モデルおよび推論モデルです。 拡張思考モードでは、Claude 3.7 Sonnetの推論ステップがユーザーに表示されます。Claude 3.7 Sonnetは、コード生成、数学的推論、命令追従などのさまざまなタスクに最適化されています。
他の大規模言語モデルと同様に、Claude 3.7 の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。
このエンドポイントは、Databricks Inc. によって AWS の Databricks セキュリティ境界内でホストされます。
GTE Large (EN)
GTE Large (En) は、 Apache 2.0 ライセンス、Copyright (c) The Apache Software Foundation, All rights reserved.お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。
General Text Embedding(GTE) は、任意のテキストを1024次元の埋め込みベクトルと8192トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、モデルの英語版を提供し、正規化された埋め込みは生成しません。
埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 GTE は、LLM のコンテキストで使用できる大きなドキュメント内の関連するテキストスニペットを見つけるために使用できます。
BGE Large (En)
BAAI General Embedding(BGE) は、任意のテキストを1024次元の埋め込みベクトルと512トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、英語版のモデルを提供し、正規化された埋め込みを生成します。
埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 BGEは、LLMのコンテキストで使用できるドキュメントの大きなチャンクで関連するテキストスニペットを見つけるために使用できます。
RAGアプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができる場合があります。 BGEの作成者は、クエリの埋め込みに命令 "Represent this sentence for searching relevant passages:"
を試すことを推奨していますが、パフォーマンスへの影響はドメインによって異なります。