トークン単位の従量課金がサポートされるモデル

重要

GTE Large (En) および Meta Llama 3.3 70B Instruct モデルのみが、トークン単位の従量課金 EU および米国のサポート地域で利用できます。

米国リージョンでのみサポートされているトークン単位の従量課金モデルについては、 基盤モデルの APIs 制限 を参照してください。

この記事では、 Databricks基盤APIsによってトークン単位の従量課金モードでサポートされる最先端のオープン・モデルについて説明します。

これらのモデルにクエリ要求を送信するには、 Databricks ワークスペースで使用可能なトークン単位の従量課金エンドポイントを使用します。 使用するモデルエンドポイントの名前については、Query 生成AI models とトークン単位の従量課金をサポートするモデルの表を参照してください。

トークン単位の従量課金モードでのモデルのサポートに加えて、基盤APIsはプロビジョニング・スループット・モードも提供します。 Databricks本番運用ワークロードにはプロビジョニング スループットを推奨します。 このモードは、トークン単位の従量課金モードでサポートされる微調整されたカスタムの事前トレーニングされたモデルを含む、モデル アーキテクチャ ファミリのすべてのモデル (DBRX モデルなど) をサポートします。 サポートされているアーキテクチャのリストについては、「プロビジョニング スループット プラットフォームAPIsを参照してください。

AI Playgroundを使用して、これらのサポートされているモデルと対話できます。

Meta Llama 3.3 70B インストラクション

重要

2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル APIs Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。

重要

Meta Llama 3.3 は、 LLAMA 3.3 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、このライセンスおよび Llama 3.3 Acceptable Use ポリシーの条件に対するコンプライアンスを確保する責任があります。

Meta-Llama-3.3-70B-Instructは、Metaによって構築およびトレーニングされた、コンテキスト128,000トークンの最先端の大規模言語モデルです。 このモデルは複数の言語をサポートし、対話のユースケースに最適化されています。 Meta Llama 3.3の詳細をご覧ください

他の大規模言語モデルと同様に、Llama-3 の出力では一部の事実が省略され、誤った情報が生成されることがあります。 Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

Llama 3.1 405B インストラクト

プレビュー

このモデルを基盤モデル APIs で使用することは、 パブリック プレビュー段階です。 このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。

重要

Meta Llama 3.1 は、LLAMA 3.1 コミュニティ ライセンス、著作権 © Meta Platforms, Inc. に基づいてライセンスされています。 全著作権所有。 顧客は、該当するモデル ライセンスによるコンプライアンスを確保する責任があります。

Meta-Llama-3.1-405B-Instruct は、Meta によって構築およびトレーニングされた、公開されている最大の最先端の大規模言語モデルです。 このモデルを使用することで、顧客は高度なマルチステップ推論や高品質の合成データ生成などの新しい機能を実現できます。 このモデルは、品質の面でGPT-4-Turboと競合しています。

meta-llama-3.1-70B-instructのように、 このモデルには 128,000 個のトークンのコンテキストがあり、10 の言語がサポートされています。 これは、有用性と安全性に対する人間の好みと一致し、対話のユースケースに最適化されています。 Meta Llama 3.1 モデルの詳細をご覧ください

他の大規模言語モデルと同様に、Llama-3.1の 出力では一部の事実が省略され、誤った情報が生成される場合もあります。 Databricks では、精度が特に重要なシナリオでは、検索拡張生成 (RAG) を使用することをお勧めします。

DBRX Instruct

重要

DBRX は、Databricks オープン モデル ライセンス、著作権© Databricks, Inc. に基づいて提供されます。 無断転載を禁じます。 顧客は、 Databricksの利用規約を含む、該当するモデル ライセンスのコンプライアンスを確保する責任があります。

DBRX Instruct は、Databricks によってトレーニングされた最先端の専門家混合 (MoE) 言語モデルです。

このモデルは、標準ベンチマークで確立されたオープンソース モデルよりも優れたパフォーマンスを示し、テキストの要約、質問応答、抽出、コーディングなどの幅広い自然言語タスクで優れています。

DBRX Instructは、最大 32,000 個の入力長トークンを処理でき、最大 4,000 個のトークンの出力を生成します。 MoE アーキテクチャのおかげで、DBRX Instruct は推論効率が高く、合計 132B のトレーニング済みパラメーターのうち 36B パラメーターのみをアクティブにします。 このモデルを提供するトークン単位の従量課金のエンドポイントには、1 秒あたり 1 つのクエリというレート制限があります。 「モデルサービングの制限と地域」を参照してください。

他の大規模言語モデルと同様に、DBRX Instructの出力では一部の事実が省略され、場合によっては誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオでは、取得拡張生成 (RAG) を使用することをお勧めします。

DBRX モデルは、次のデフォルトのシステム プロンプトを使用して、モデル応答の関連性と正確性を確保します。

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instruct

Mixtral-8x7B Instructは、Mistral AIによってトレーニングされた高品質のスパース・ミックス・オブ・エキスパート・モデル(SMoE)です。 Mixtral-8x7B Instructは、質問応答、要約、抽出など、さまざまなタスクに使用できます。

Mixtral は最大 32k トークンのコンテキスト長を処理できます。 Mixtral は、英語、フランス語、イタリア語、ドイツ語、スペイン語を処理できます。 Mixtral は、ほとんどのベンチマーク ( Mixtral パフォーマンス) で Llama 2 70B および GPT3.5 と同等かそれ以上の性能を発揮し、推論時には Llama 70B より 4 倍高速です。

他の大規模言語モデルと同様に、Mixtral-8x7B Instructモデルは、事実に基づいた正確な情報を生成するために依存すべきではありません。 事前学習データのクリーニングには多大な努力が払われていますが、このモデルでは、わいせつな、偏った、またはその他の不快な出力が生成される可能性があります。 リスクを軽減するために、Databricks では Mistral の セーフ モード システム プロンプトのバリアントを使用します。

GTE Large (英語)

重要

GTE Large (En) は、 Apache 2.0 ライセンスに基づいて提供され、これに従います。Copyright © The Apache Software Foundation、All rights reserved。 お客様は、該当するモデルライセンスに準拠することを保証する責任を負います。

General Text Embedding(GTE) は、任意のテキストを1024次元の埋め込みベクトルと8192トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル データベースや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。 このエンドポイントは、モデルの英語版を提供し、正規化された埋め込みは生成しません。

埋め込みモデルは、検索拡張世代(RAG)のユースケースでLLMと組み合わせて使用する場合に特に効果的です。 GTE を使用すると、LLM のコンテキストで使用できる大量のドキュメント内の関連するテキスト スニペットを見つけることができます。

BGE ラージ (ja)

BAAI General Embedding(BGE) は、任意のテキストを1024次元の埋め込みベクトルと512トークンの埋め込みウィンドウにマップできるテキスト埋め込みモデルです。 これらのベクトルは、LLM のベクトル データベースや、検索、分類、質問応答、クラスタリング、セマンティック検索などのタスクに使用できます。 このエンドポイントは、英語版のモデルを提供し、正規化された埋め込みを生成します。

埋め込みモデルは、検索拡張世代(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 BGEは、LLMのコンテキストで使用できるドキュメントの大きなチャンクから関連するテキストスニペットを見つけるために使用できます。

RAGアプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができる場合があります。 BGEの著者は、クエリー埋め込みの命令 "Represent this sentence for searching relevant passages:" を試すことを推奨していますが、パフォーマンスへの影響はドメインに依存します。