メインコンテンツまでスキップ

基盤モデルAPIで利用できるDatabricksがホストする基盤モデル

この記事では、Databricks 基盤モデル APIsでサポートされている最先端のオープン モデルについて説明します。

注記

これらのモデルのリージョン別利用可能性とサポートされている機能領域については、「モデルサービングでサポートされている基盤モデル」を参照してください。

これらのモデルにクエリ要求を送信するには、 Databricks ワークスペースで使用可能なトークン単位の従量課金エンドポイントを使用します。 使用するモデル・エンドポイントの名前については、 基盤モデルの使用 および トークン単位の従量課金サポート・モデル表 を参照してください。

インフラ単位の従量課金モードでのモデルのサポートに加えて、基盤モデルAPIsプロビジョニング スループット モードも提供します。 Databricks 、本番運用ワークロードにはプロビジョニング スループットを推奨します。 このモードは、仮想単位の従量支払いモードでサポートされる微調整されたカスタムの事前トレーニングされたモデルを含む、モデル アーキテクチャ ファミリのすべてのモデルをサポートします。 サポートされているアーキテクチャのリストについては、「プロビジョニング スループット プラットフォームAPIsを参照してください。

これらのサポートされているモデルは、 AI Playgroundを使用して操作できます。

OpenAI GPT-5.5 Pro

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

GPT-5.5 Pro は拡張プロンプト キャッシュを使用します。キャッシュされたテンソルは、GPUローカルストレージに最長24時間保存されます。

エンドポイント名 : databricks-gpt-5-5-pro

対応入力形式 :テキスト、画像

GPT-5.5 Proは、GPT-5.5の高精度版であり、綿密な調査、高度な数学、重大な局面での推論など、最も困難な問題に対応することを目的としています。このモデルはマルチモーダル入力をサポートし、最大出力 128K の合計 400K のウィコン コンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.5 Proの出力は一部の事実を省略したり、時折誤った情報を生成する可能性があります。Databricksは、精度が特に重要なシナリオでは、検索拡張生成(RAG)の使用を推奨しています。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.5

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

GPT-5.5は拡張プロンプトキャッシュを使用します。キャッシュされたテンソルは、GPUローカルストレージに最長24時間保存されます。

エンドポイント名 : databricks-gpt-5-5

対応入力形式 :テキスト、画像

GPT-5.5は、OpenAIが開発した、企業向けエージェントワークフロー、複雑な文書推論、および長期的なコーディングエージェントのための最先端モデルです。GPT-5.5は、OpenAIのコーディングエージェントであるCodexにも搭載されている。このモデルはマルチモーダル入力をサポートし、最大出力 128K の合計 400K のウィコン コンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.5の出力は一部の事実を省略したり、時折誤った情報を生成する可能性があります。Databricksは、精度が特に重要なシナリオでは、検索拡張生成(RAG)の使用を推奨しています。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.4

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5-4

対応入力形式 :テキスト、画像

GPT-5.4は、OpenAI によって開発された推論機能を備えた汎用の大規模言語モデルです。精度の向上と、より慎重なスキャフォールディング推論により、複雑なタスクでのパフォーマンスが向上します。このモデルはマルチモーダル入力をサポートし、最大出力 128K の合計 400K のウィスコンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.4 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.4 mini

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5-4-mini

対応入力形式 :テキスト、画像

GPT-5.4 miniは、OpenAIが開発した、コスト最適化された汎用大規模言語モデルであり、推論機能を備えている。GPT-5.4をベースに構築このモデルは、アーキテクチャ上、信頼性の高い推論、正確な言語、および迅速な出力を必要とする明確に定義されたタスクにおいて、パフォーマンスを向上させます。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.4 miniの出力は一部の事実を省略したり、時折誤った情報を生成する可能性があります。Databricksは、精度が特に重要なシナリオでは、検索拡張生成(RAG)の使用を推奨しています。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.4 nano

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5-4-nano

対応入力形式 :テキスト、画像

GPT-5.4 nanoは、OpenAIが開発した、推論機能を備えた汎用的な大規模言語モデルです。GPT-5.4をベースに構築このアーキテクチャは、単純な指示に従うことや、日常的な業務プロセスやモバイルアプリケーションにおける分類など、高スループットのタスクに優れています。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.4 nanoの出力は一部の事実を省略したり、時折誤った情報を生成する可能性があります。Databricksは、精度が特に重要なシナリオでは、検索拡張生成(RAG)の使用を推奨しています。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.3 Codex

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

注記

このモデルはAI Playgroundではサポートされていません。このモデルと対話するには、 Responses APIを使用します。

エンドポイント名 : databricks-gpt-5-3-codex

対応入力形式 :テキスト、画像

GPT-5.3 Codex は、OpenAI の最も高度なエージェント コーディング モデルであり、調査、ツールの使用、実行を伴う複雑で長時間実行されるタスクを処理するように設計されています。GPT-5.2の最先端のコーディング性能を組み合わせたGPT-5.2 の推論と専門知識を備えた Codex で、動作速度が 25% 高速化されます。このモデルはマルチモーダル入力をサポートし、最大出力 128K の合計 400K のウィスコンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.3Codex の出力では、一部の事実が省略され、誤った情報が生成される場合もあります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.2 Codex

重要
  • 顧客は、該当するモデル条件を確実に遵守する責任があります。

  • OpenAI GPT-5.2Codexは2026年7月16日に廃止されます。推奨される代替モデルおよび廃止期間中の移行方法については、 「廃止モデル」を参照してください。

注記

このモデルはAI Playgroundではサポートされていません。このモデルと対話するには、 Responses APIを使用します。

エンドポイント名 : databricks-gpt-5-2-codex

対応入力形式 :テキスト、画像

GPT-5.2 Codex は、強化されたコーディング機能を備えた GPT-5.2 アーキテクチャ上に構築された、コード特化型の大規模言語モデルであり、コード生成、リファクタリング、デバッグ、およびソフトウェア エンジニアリング タスクに優れています。このモデルはマルチモーダル入力をサポートし、最大出力 128K の合計 400K のウィスコンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.2Codex の出力では、一部の事実が省略され、誤った情報が生成される場合もあります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.2

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5-2

対応入力形式 :テキスト、画像

GPT-5.2 は、OpenAI によって開発された推論機能を備えた汎用の大規模言語モデルです。このモデルは GPT-5.1 を直接基盤として構築されており、より高い精度、中程度から複雑なタスクでのトークン効率の向上、より意図的なスキャフォールディング推論を提供します。このモデルは、構造化抽出、複数ステップのワークフロー、マルチモーダル タスクに優れています。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.2 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.1

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5-1

対応入力形式 :テキスト、画像

GPT-5.1 は、OpenAI によって開発された推論機能を備えた汎用の大規模言語モデルです。このモデルには、素早い会話や深い推論のためのインスタント モードと思考モードの両方が搭載されており、単純なタスクや複雑なタスクに合わせて自動的に調整されます。このモデルは、コンテンツ作成、指導、技術サポート、コーディングに優れており、以前のバージョンよりも厳格なプロンプトエンジニアリングへの依存度が低くなっています。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。 GPT-5.1 の詳細をご覧ください

他の大規模言語モデルと同様に、GPT-5.1 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.1 Codex Max

重要
注記

このモデルはAI Playgroundではサポートされていません。このモデルと対話するには、 Responses APIを使用できます。

エンドポイント名 : databricks-gpt-5-1-codex-max

対応入力形式 :テキスト、画像

GPT-5.1 Codex Max は、OpenAI の高性能コード特化型大規模言語モデルです。最高のコーディング パフォーマンスを備えた GPT-5.1 アーキテクチャに基づいて構築されており、複雑なコード生成、大規模なリファクタリング、エンタープライズ ソフトウェア エンジニアリング タスクに優れています。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.1 Codex Max の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5.1 Codex Mini

重要
注記

このモデルはAI Playgroundではサポートされていません。このモデルと対話するには、 Responses APIを使用できます。

エンドポイント名 : databricks-gpt-5-1-codex-mini

対応入力形式 :テキスト、画像

GPT-5.1 Codex Mini は、OpenAI のコスト最適化されたコード特化型大規模言語モデルです。効率的なコーディング機能を備えた GPT-5.1 アーキテクチャに基づいて構築されており、コード補完、簡単なリファクタリング、日常的なコーディング タスクに優れています。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。

他の大規模言語モデルと同様に、GPT-5.1 Codex Mini の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5

対応入力形式 :テキスト、画像

GPT-5 は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。 このモデルは、コーディング、チャット、推論、エージェント駆動型タスク用に構築されています。

他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5 ミニ

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5-mini

対応入力形式 :テキスト、画像

GPT-5 mini は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。 このモデルは、推論とチャットのワークロードに対してコストが最適化されており、信頼性の高い推論、正確な言語、テキストと画像の迅速な出力を必要とする明確に定義されたタスクに優れています。

他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

OpenAI GPT-5 ナノ

重要

顧客は、該当するモデル条件を確実に遵守する責任があります。

エンドポイント名 : databricks-gpt-5-nano

対応入力形式 :テキスト、画像

GPT-5 nano は、OpenAI によって構築およびトレーニングされた最先端の汎用大規模言語モデルおよび推論モデルです。マルチモーダル入力をサポートし、最大出力 128K の合計 400K のネットワーク コンテキスト ウィンドウを備えています。 このモデルは、単純な指示の遵守や日常的なビジネス プロセスやモバイル アプリケーションの分類などの高スループット タスクに優れています。

他の大規模言語モデルと同様に、GPT-5 の出力では一部の事実が省略され、誤った情報が生成されることがあります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Google Gemini 3.1 フラッシュライト

重要

Gemini 3.1 Flash Liteの適用モデル条件を参照してください。

このモデルはグローバル エンドポイントでホストされており、地理的に離れたルーティングを有効にする必要があります。

エンドポイント名 : databricks-gemini-3-1-flash-lite

対応入力形式 :テキスト、画像、動画、音声

Gemini 3.1 Flash Lite は、Google によって開発およびトレーニングされた、Gemini 3 シリーズの中で最も高速かつ最もコスト効率の高いモデルです。大規模なインテリジェンスを実現するために構築されたこのモデルは、画像機能、関数呼び出し、構造化された出力を備えたマルチモーダル入力をサポートします。Gemini 3.1 Flash Lite は、高スループットでコスト効率の高い導入向けに最適化されています。Gemini 3.1 Flash Lite の詳細をご覧ください

他の大規模言語モデルと同様に、Gemini 3.1 Flash Lite 出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Google Gemini 3.5 フラッシュ

重要

Gemini 3.5 Flashの適用機種に関する規約を参照してください。

このモデルはグローバル エンドポイントでホストされており、地理的に離れたルーティングを有効にする必要があります。

エンドポイント名 : databricks-gemini-3-5-flash

対応入力形式 :テキスト、画像、動画、音声

Gemini 3.5 Flashは、Googleが開発・訓練した、高速かつコスト効率に優れたマルチモーダルAIモデルです。Gemini 3 Flash からの大幅なステップアップとして、このモデルは、より強力な推論、高度なマルチモーダル機能、および本番運用規模の展開向けの価格パフォーマンスの向上を提供します。 Gemini 3.5 Flashは、複雑なビデオ分析、データ抽出、ビジュアルQ&Aなどの高スループットワークロード向けに最適化されています。Gemini 3.5 Flash についてもっと詳しく知りたい方はこちらをご覧ください

他の大規模言語モデルと同様に、Gemini 3.5 Flashの出力では、一部の事実が省略されたり、時折誤った情報が生成されたりする可能性があります。Databricksは、精度が特に重要なシナリオでは、検索拡張生成(RAG)の使用を推奨しています。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Google Gemini 3 フラッシュ

重要

Gemini 3 Flashの適用モデル条件を参照してください。

このモデルはグローバル エンドポイントでホストされており、地理的に離れたルーティングを有効にする必要があります。

エンドポイント名 : databricks-gemini-3-flash

対応入力形式 :テキスト、画像、動画、音声

Gemini 3 Flash は、Google が開発およびトレーニングした高速でコスト効率の高いマルチモーダル AI モデルです。このモデルは、品質を損なうことなく速度とスケールを提供し、複雑なビデオ分析、データ抽出、およびほぼリアルタイムでの視覚的な Q&A を実現する高度なマルチモーダル機能を備えています。Gemini 3 フラッシュは、優れた価格パフォーマンスと高速な速度を実現し、本番運用規模の導入を可能にします。 Gemini 3 Flash の詳細をご覧ください

他の大規模言語モデルと同様に、Gemini 3 の Flash 出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Google Gemini 3.1 Pro プレビュー

重要

Gemini 3.1 Pro Previewの適用モデル規約を参照してください。

このモデルはグローバル エンドポイントでホストされており、地理的に離れたルーティングを有効にする必要があります。

エンドポイント名 : databricks-gemini-3-1-pro

対応入力形式 :テキスト、画像、動画、音声

Gemini 3.1 Pro Preview は、Google が開発およびトレーニングした 100 万トークンのコンテキスト ウィンドウを備えた最先端のハイブリッド推論モデルです。Gemini 3 Pro と比較すると、Gemini 3.1 Pro はより強力な推論機能とドキュメント インテリジェンスを提供し、複雑なワークフローやタスクのための全体的にスマートなモデルとなっています。幅広い入力とタスクにわたる複雑な推論、深い分析、マルチモーダル理解に優れています。

他の大規模言語モデルと同様に、Gemini 3.1 Pro プレビュー出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Google Gemini 3 Pro プレビュー

重要

Gemini 3 Pro Previewの適用モデル規約を参照してください。

このモデルはグローバル エンドポイントでホストされており、地理的に離れたルーティングを有効にする必要があります。

Google Gemini 3 Pro Preview は 2026 年 3 月 26 日に廃止されます。推奨される代替モデルと廃止期間中の移行方法に関するガイダンスについては、「廃止されたモデル」を参照してください。移行にさらに時間をかけるため、2026 年 3 月 26 日から 2026 年 6 月 7 日までの間、Gemini 3 Pro への API 呼び出しは一時的に Gemini 3.1 Pro にリダイレクトされます。両モデルの価格は同じです。

エンドポイント名 : databricks-gemini-3-pro

対応入力形式 :テキスト、画像、動画、音声

Gemini 3 Pro Preview は、Google が開発およびトレーニングした 100 万トークンのコンテキスト ウィンドウを備えた最先端のハイブリッド推論モデルです。Gemini 3 Pro の高度な推論機能と組み込みのマルチモーダル機能により、幅広い入力とタスクにわたる複雑な推論、詳細な分析、マルチモーダル理解に優れた性能を発揮します。

他の大規模言語モデルと同様に、Gemini 3 Pro プレビュー出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Google Gemini 2.5 Pro

重要

Gemini 2.5 Proの適用モデル条件については、該当ページを参照してください。

エンドポイント名 : databricks-gemini-2-5-pro

対応入力形式 :テキスト、画像、動画、音声

Gemini 2.5 Pro は、Google が開発およびトレーニングした 100 万トークンのコンテキスト ウィンドウを備えたハイブリッド推論モデルです。Gemini 2.5 Pro の「ディープ シンクMode 」と組み込みオーディオ出力により、この製品は、エンタープライズ、研究、クリエイティブ アプリケーション向けの主要モデルとして際立っています。 幅広い入力とタスクにわたる複雑な推論、詳細な分析、マルチモーダル理解に優れた性能を発揮するように設計されています。Gemini 2.5 Pro の詳細をご覧ください

他の大規模言語モデルと同様に、Gemini 2.5 Pro の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Google Gemini 2.5 Flash

重要

Gemini 2.5フラッシュの適用モデル条件を参照してください。

エンドポイント名 : databricks-gemini-2-5-flash

対応入力形式 :テキスト、画像、動画、音声

Gemini 2.5 Flash は、Google によって開発およびトレーニングされた高速でコスト効率の高いマルチモーダル AI モデルです。これは、迅速でスケーラブルかつ手頃な価格の AI ソリューションを求める開発者や企業向けに設計された、Google 初の完全ハイブリッド推論モデルです。Gemini 2.5 Flash は、単一のコンテキストで最大 100 万個のトークンを処理できるため、非常に大きなドキュメントやデータセットを処理できます。Gemini 2.5 Flash は、チャットボット、データ抽出、翻訳、ドキュメント解析などのリアルタイムかつ大容量のアプリケーション向けに最適化されています。Gemini 2.5 Flash の詳細をご覧ください

他の大規模言語モデルと同様に、Gemini 2.5 の Flash 出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

アリババクラウド Qwen3.5 122B A10B

備考

プレビュー

Qwen3.5 122B A10Bモデルはパブリックプレビュー版です。

エンドポイント名 : databricks-qwen35-122b-a10b

サポートされている入力形式 : テキスト

Qwen3.5 122B A10B は、アリババ クラウドによって構築およびトレーニングされたハイブリッド専門家混合 (MoE) 推論モデルで、推論ごとに合計 1,220 億件と 100 億件のアクティブな論点を備えています。 このモデルは256Kのコンテキストウィンドウと最大8,000個の出力トークンをサポートし、推論、コーディング、およびエージェントタスクにおいて優れたパフォーマンスを発揮します。Qwen3.5 122B A10Bは推論のみを行うモデルであるため、応答する前に必ず推論を行い、推論を無効にすることはできません。

他の大規模言語モデルと同様に、Qwen3.5 122B A10B の出力では、一部の事実が省略されたり、時折誤った情報が生成されたりする可能性があります。Databricksは、精度が特に重要なシナリオでは、検索拡張生成(RAG)の使用を推奨しています。

Alibaba Cloud Qwen3-Embedding-0.6B

備考

プレビュー

Qwen3-Embedding-0.6B モデルはパブリック プレビュー段階です。

エンドポイント名 : databricks-qwen3-embedding-0-6b

サポートされている入力形式 : テキスト

Qwen3-Embedding-0.6Bは、約 600M の容量を持つコンパクトなテキスト埋め込みモデルで、検索、類似性検索、クラスタリング、分類などのセマンティック タスク向けに設計されています。 テキストを表面的な形式ではなく意味を表す密なベクトルにエンコードします。

このモデルは100以上の言語(コードを含む)をサポートし、最大約32Kの長いコンテキストを処理できるため、長いドキュメントの埋め込みに適しています。 このツールは、最大1024次元まで設定可能な埋め込みベクトルを生成し、指示を認識するため、プロンプトを通じてタスク固有のバイアスをかけることができます。

トランスフォーマー エンコーダー上に構築され、埋め込み生成用に特別に微調整された Qwen3-Embedding-0.6B は、埋め込み品質と効率的な推論のバランスをとります。

埋め込みモデルは、検索拡張生成 (RAG) ユースケースで LLM と併用すると特に効果的です。Qwen3-Embedding-0.6B を使用すると、LLM のコンテキストで使用できる大量のドキュメント内の関連するテキスト スニペットを見つけることができます。

Alibaba Cloud Qwen3-Next 80B A3B Instruct

備考

プレビュー

Qwen3-Next 80B A3B Instructモデルはパブリックプレビュー版です。

エンドポイント名 : databricks-qwen3-next-80b-a3b-instruct

サポートされている入力形式 : テキスト

Qwen3-Next-80B-A3B-Instruct は、Alibaba Cloudによって構築およびトレーニングされた、命令に従うタスク用に最適化された非常に効率的な大規模言語モデルです。 このモデルは、非常に長いコンテキストを処理するように設計されており、マルチステップのワークフロー、RAG、高スループットで確定的な出力を必要とするエンタープライズ アプリケーションに最適です。

他の大規模言語モデルと同様に、Qwen3-Next 80B A3B Instruct 出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

OpenAI GPT OSS 120B

エンドポイント名 : databricks-gpt-oss-120b

サポートされている入力形式 : テキスト

GPT OSS 120B は、OpenAI によって構築およびトレーニングされた、思考の連鎖と調整可能な推論努力レベルを備えた最先端の推論モデルです。これは OpenAI の主力オープンウェイト モデルであり、128K トークンのコンテキスト ウィンドウを備えています。このモデルは、高品質の推論タスク用に構築されています。

他の大規模言語モデルと同様に、GPT OSS 120B の出力では一部の事実が省略され、場合によっては誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

OpenAI GPT OSS 20B

エンドポイント名 : databricks-gpt-oss-20b

サポートされている入力形式 : テキスト

GPT OSS 20B は、OpenAI によって構築およびトレーニングされた最先端の軽量推論モデルです。このモデルには 128K トークン コンテキスト ウィンドウがあり、リアルタイムのコパイロットとバッチ推論タスクに優れています。

他の大規模言語モデルと同様に、GPT OSS 20B の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Google Gemma 3 12B

重要

Gemma 3の利用規約および利用許諾ポリシーについては、 「適用されるモデル規約」を参照してください。

エンドポイント名 : databricks-gemma-3-12b

対応入力形式 :テキスト、画像

Gemma 3 12B は、Gemma 3 ファミリーの一部として Google によって開発された、120 億のマルチモーダルおよびビジョン言語モデルです。 Gemma 3 は最大 128K のトークン コンテキストを持ち、140 を超える言語の多言語サポートを提供します。このモデルは、テキストと画像の両方の入力を処理し、テキスト出力を生成するように設計されており、質問への回答を含む対話ユースケース、テキスト生成、画像理解タスクに最適化されています。

他の大規模言語モデルと同様に、Gemma 3 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 4 Maverick

重要

Llama 4 コミュニティのライセンスおよび利用規約に適用されるモデル条件を参照してください。

エンドポイント名 : databricks-llama-4-maverick

対応入力形式 :テキスト、画像

Llama 4 Maverick は、Meta によって構築およびトレーニングされた最先端の大規模言語モデルです。これは、 Llama モデルファミリーの中で初めて、コンピュートの効率のために専門家のアーキテクチャを組み合わせて使用しました。 Llama 4 Maverickは複数の言語をサポートし、画像とテキストを正確に理解するユースケースに最適化されています。Llama 4 Maverick の詳細をご覧ください。

他の大規模言語モデルと同様に、 Llama 4 の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 3.3 70B Instruct

重要

2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル API Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。

LLama 3.3 コミュニティ ライセンスおよび利用規約に適用されるモデル条件を参照してください。

エンドポイント名 : databricks-meta-llama-3-3-70b-instruct

サポートされている入力形式 : テキスト

Meta-Llama-3.3-70B-Instructは、Metaによって構築およびトレーニングされた、コンテキスト128,000トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。 Meta Llama 3.3の詳細をご覧ください

他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 3.1 405B Instruct

重要

Meta-Llama-3.1-405B-Instructは廃止されます。

  • 2026 年 2 月 15 日から、VPN単位の従量課金ワークロードが開始されます。
  • プロビジョニングされたスループット ワークロードについては、2026 年 5 月 15 日から開始されます。

推奨される代替モデルと廃止期間中の移行方法に関するガイダンスについては、「廃止されたモデル」を参照してください。

備考

プレビュー

このモデルを基盤モデル API で使用することは、 パブリック プレビュー段階です。 このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。

Llama 3.1 コミュニティ ライセンスおよび利用規約の適用モデル条件を参照してください。

エンドポイント名 : databricks-meta-llama-3-1-405b-instruct

サポートされている入力形式 : テキスト

Meta-Llama-3.1-405B-Instruct は、Meta によって構築およびトレーニングされた、公開されている最大の最先端の大規模言語モデルです。 このモデルを使用することで、顧客は高度なマルチステップ推論や 高品質の合成データ生成など、新しい機能を引き出すことができます。 このモデルは、品質の面でGPT-4-Turboと競合しています。

meta-llama-3.1-70B-instructのように、 このモデルのコンテキストは 128,000 トークンで、10 の言語がサポートされています。 これは、有用性と安全性に対する人間の好みと一致し、対話のユースケースに最適化されています。 Meta Llama 3.1モデルの詳細をご覧ください。

他の大規模言語モデルと同様に、Llama-3.1 の出力では、一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Meta Llama 3.1 8B Instruct

重要

LLama 3.1 コミュニティ ライセンスおよび利用規約に適用されるモデル条件を参照してください。

エンドポイント名 : databricks-meta-llama-3-1-8b-instruct

サポートされている入力形式 : テキスト

Meta-Llama-3.1-8B-Instruct は、Meta によって構築およびトレーニングされた、コンテキスト 128,000 トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。Meta Llama 3.1の詳細については、こちらをご覧ください

他の大規模言語モデルと同様に、Llama-3の出力では一部の事実が省略され、誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

Anthropic Claude Haiku 4.5

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-haiku-4-5

対応入力形式 :テキスト、画像

Claude Haiku 4.5 は、Anthropic の最速かつ最もコスト効率に優れたモデルであり、卓越した速度と効率で最高レベルのコーディング品質を実現します。チャット アシスタント、カスタマー サービス エージェント、ペア プログラミング、ラピッド プロトタイピングなどの、短期の低遅延アプリケーションに優れています。 このモデルは、コスト意識の高い本番運用の展開や、応答性の高いAIアシスタンスを必要とするエージェント システムに最適です。

他の大規模言語モデルと同様に、Claude Haiku 4.5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Anthropic Claude Sonnet 4.6

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-sonnet-4-6

対応入力形式 :テキスト、画像

Claude Sonnet 4.6 は、Anthropic の最も高度なハイブリッド推論モデルです。ほぼ瞬時の応答と、タスクの複雑さに基づいてより深い推論を行う拡張思考の 2 つのモードを提供します。Claude Sonnet 4.6 は、顧客対応エージェント、本番運用コーディング ワークフロー、大規模なコンテンツ生成など、実用的なスループットと高度な思考のバランスを必要とするアプリケーションに特化しています。

他の大規模言語モデルと同様に、Claude Sonnet 4.6 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Anthropic Claude Sonnet 4.5

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-sonnet-4-5

対応入力形式 :テキスト、画像

Claude Sonnet 4.5 は、Anthropic の最も高度なハイブリッド推論モデルです。ほぼ瞬時の応答と、タスクの複雑さに基づいてより深い推論を行う拡張思考の 2 つのモードを提供します。Claude Sonnet 4.5 は、顧客対応エージェント、本番運用コーディング ワークフロー、大規模なコンテンツ生成など、実用的なスループットと高度な思考のバランスを必要とするアプリケーションに特化しています。

他の大規模言語モデルと同様に、Claude Sonnet 4.5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Anthropic Claude Opus 4.7

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-opus-4-7

対応入力形式 :テキスト、画像

Claude Opus 4.7は、Anthropic社が開発した最も高性能なハイブリッド推論モデルであり、精度、効率性、そして視覚機能の向上により、Opusシリーズをさらに進化させたものです。このモデルは、前モデルよりも少ない出力トークンで、複雑な抽出タスクやエージェント推論タスクにおいて、より優れたパフォーマンスを発揮します。Claude Opus 4.7は、100万トークンのコンテキストウィンドウと画像解像度のサポート強化を備えており、詳細な分析、文書の理解、高度な複数ステップのワークフローを必要とするエンタープライズアプリケーションに最適です。

他の大規模言語モデルと同様に、Claude Opus 4.7の出力は一部の事実を省略したり、時折誤った情報を生成する可能性があります。Databricksは、精度が特に重要なシナリオでは、検索拡張生成(RAG)の使用を推奨しています。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Anthropic Claude Opus 4.6

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-opus-4-6

対応入力形式 :テキスト、画像

Claude Opus 4.6 は、適応型思考機能を備えた Anthropic の最も優れたハイブリッド推論モデルです。このモデルは、最も要求の厳しいタスクに対して新しい最大努力レベルを導入し、最適なパフォーマンスを得るために高い努力をデフォルトとして設定します。Claude Opus 4.6 は、複雑な推論、詳細な分析、コード生成、調査、洗練されたマルチステップのワークフローに優れています。100 万トークンのコンテキスト ウィンドウを備えているため、広範な分析と包括的な出力の両方を必要とするエンタープライズ アプリケーションに最適です。

他の大規模言語モデルと同様に、Claude Opus 4.6 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Anthropic Claude Opus 4.5

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-opus-4-5

対応入力形式 :テキスト、画像

Claude Opus 4.5 は、深い分析と拡張された思考を必要とする最も複雑なタスク向けに構築された、Anthropic の最も優れたハイブリッド推論モデルです。このモデルは、強力な汎用機能と高度な推論を組み合わせ、コード生成、調査、コンテンツ作成、洗練されたマルチステップのエージェントワークフローに優れています。Claude Opus 4.5 は、200K トークンのコンテキスト ウィンドウによるテキストとビジョンの入力をサポートしており、理解の幅と深さの両方が求められるエンタープライズ アプリケーションに最適です。

他の大規模言語モデルと同様に、Claude Opus 4.5 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Anthropic Claude Sonnet 4

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-sonnet-4

対応入力形式 :テキスト、画像

Claude Sonnet 4 は、Anthropic によって構築および訓練された最先端のハイブリッド推論モデルです。このモデルには、ほぼ即時の応答と、タスクの複雑さに基づいてより深い推論を行うための拡張思考の 2 つのモードがあります。Claude Sonnet 4は、コード開発、大規模コンテンツ分析、エージェントアプリケーション開発など、さまざまなタスクに最適化されています。

他の大規模言語モデルと同様に、Claude Sonnet 4 の出力では、一部の事実が省略されたり、誤った情報が生成されることがあります。Databricks では、精度が特に重要なシナリオで取得拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

Anthropic Claude Opus 4.1

重要

顧客は、 Anthropicの使用ポリシーの条件に従ってコンプライアンスを確保する責任があります。

エンドポイント名 : databricks-claude-opus-4-1

対応入力形式 :テキスト、画像

Claude Opus 4.1 は、Anthropic によって構築およびトレーニングされた最先端のハイブリッド推論モデルです。この汎用の大規模言語モデルは、複雑な推論とエンタープライズ規模の実際のアプリケーションの両方に対応するように設計されています。200K トークンのコンテキスト ウィンドウと 32K 出力トークン機能を備え、テキストと画像の入力をサポートします。このモデルは、コード生成、調査およびコンテンツ作成、継続的な人間の介入なしのマルチステップエージェントワークフローなどのタスクに優れています。

他の大規模言語モデルと同様に、Claude Opus 4.1 の出力では一部の事実が省略され、誤った情報が生成される場合があります。Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

このエンドポイントは、Databricks セキュリティ境界内で Databricks によってホストされます。

GTE Large (EN)

エンドポイント名 : databricks-gte-large-en

サポートされている入力形式 : テキスト

General Text Embedding(GTE) は、任意のテキストを1024次元の埋め込みベクトルと8192トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、モデルの英語版を提供し、正規化された埋め込みは生成しません。

埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 GTE は、LLM のコンテキストで使用できる大きなドキュメント内の関連するテキストスニペットを見つけるために使用できます。

BGE Large (En)

エンドポイント名 : databricks-bge-large-en

サポートされている入力形式 : テキスト

BAAI General Embedding(BGE) は、任意のテキストを1024次元の埋め込みベクトルと512トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル インデックスや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。このエンドポイントは、英語版のモデルを提供し、正規化された埋め込みを生成します。

埋め込みモデルは、取得拡張生成(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 BGEは、LLMのコンテキストで使用できるドキュメントの大きなチャンクで関連するテキストスニペットを見つけるために使用できます。

RAGアプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができる場合があります。 BGEの作成者は、クエリの埋め込みに命令 "Represent this sentence for searching relevant passages:" を試すことを推奨していますが、パフォーマンスへの影響はドメインによって異なります。

追加のリソース