トークンごとの支払いでサポートされるモデル

プレビュー

この機能は パブリックプレビュー版です。

この記事では、 Databricks基盤APIsによってペイ・パー・ウイルス・モードでサポートされる最先端のオープン・モデルについて説明します。

Databricks ワークスペースで利用可能なトークンごとの支払いエンドポイントを使用して、これらのモデルにクエリ リクエストを送信できます。 「クエリ基盤モデル」を参照してください。

ペイ・パー・オンライン・モードでのモデルのサポートに加えて、基盤APIsはプロビジョニング・スループット・モードも提供します。 Databricks本番運用ワークロードにはプロビジョニング スループットを推奨します。 このモードは、トークンごとの支払いモードでサポートされる微調整されたカスタムの事前トレーニングされたモデルを含む、モデル アーキテクチャ ファミリのすべてのモデル (DBRX モデルなど) をサポートします。 サポートされているアーキテクチャのリストについては、「プロビジョニング スループット プラットフォームAPIsを参照してください。

AI Playgroundを使用して、これらのサポートされているモデルと対話できます。

DBRX Instruct

重要

DBRX は、Databricks オープン モデル ライセンス、著作権© Databricks, Inc. に基づいて提供されます。 無断転載を禁じます。 顧客は、 Databricksの利用規約を含む、該当するモデル ライセンスのコンプライアンスを確保する責任があります。

DBRX Instruct は、Databricks によってトレーニングされた最先端の専門家混合 (MoE) 言語モデルです。

このモデルは、標準ベンチマークで確立されたオープンソース モデルよりも優れたパフォーマンスを示し、テキストの要約、質問応答、抽出、コーディングなどの幅広い自然言語タスクで優れています。

DBRX Instructは、最大 32,000 個の入力長トークンを処理でき、最大 4,000 個のトークンの出力を生成します。 MoE アーキテクチャのおかげで、DBRX Instruct は推論効率が高く、合計 132B のトレーニング済みパラメーターのうち 36B パラメーターのみをアクティブにします。 このモデルを提供するトークンごとの支払いエンドポイントには、1 秒あたり 1 つのクエリというレート制限があります。 「モデルサービングの制限と地域」を参照してください。

他の大規模言語モデルと同様に、DBRX Instructの出力では一部の事実が省略され、場合によっては誤った情報が生成される場合があります。 Databricks では、精度が特に重要なシナリオでは、取得拡張生成 (RAG) を使用することをお勧めします。

DBRX モデルは、次のデフォルトのシステム プロンプトを使用して、モデル応答の関連性と正確性を確保します。

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Llama 2 70B Chat

重要

Llama 2 は LLAMA 2 コミュニティ ライセンス (Copyright Meta © Platforms, Inc.) に基づいてライセンスされています。 無断複写・転載を禁じます。 お客様は、該当するモデルライセンスへの準拠を確保する責任があります。

Llama-2-70B-Chatは、Metaによってトレーニングされた、コンテキスト長が4,096トークンの最先端の70Bパラメーター言語モデルです。 要約、質問応答、チャット アプリケーションなど、強力な推論機能を必要とする対話型アプリケーションを得意としています。

パラメーター数が少ない他のモデルと比較して、Llama-2 は、従来の自然言語理解ベンチマークですぐに使用できる最強のパフォーマンスを示します。 他の大規模言語モデルと同様に、Llama-2-70Bの出力はいくつかの事実を省略し、時折誤った情報を生成することがあります。 Databricks では、精度が特に重要なシナリオで Retrieval Augmented Generation (RAG) を使用することを推奨しています。

Mixtral-8x7B Instruct

Mixtral-8x7B Instructは、Mistral AIによってトレーニングされた高品質のスパース・ミックス・オブ・エキスパート・モデル(SMoE)です。 Mixtral-8x7B Instructは、質問応答、要約、抽出など、さまざまなタスクに使用できます。

Mixtral は、最大 32k トークンのコンテキスト長を処理できます。 Mixtral は、英語、フランス語、イタリア語、ドイツ語、スペイン語を処理できます。 Mixtral は、ほとんどのベンチマーク (Mixtral パフォーマンス) で Llama 2 70B と GPT3.5 に匹敵するか、それを上回り、推論では LLaMA 70B の 4 倍高速です。

他の大規模言語モデルと同様に、Mixtral-8x7B Instructモデルは、事実に基づいた正確な情報を生成するために依存すべきではありません。 事前学習データのクリーニングには多大な努力が払われていますが、このモデルでは、わいせつな、偏った、またはその他の不快な出力が生成される可能性があります。 リスクを軽減するために、Databricks では Mistral の セーフ モード システム プロンプトのバリアントを使用します。

MPT 7B Instruct

MPT-7B-8K-Instruct は、長い形式の命令のフォロー、特に長いドキュメントに対する質問応答と要約のために MosaicML によってトレーニングされた 6.7B パラメーター モデルです。 このモデルは、複数のデータセットで 1.5T トークン用に事前トレーニングされており、Databricks Dolly-15k と Anthropic Helpful and Harmless (HH-RLHF) データセットから派生したデータセットで微調整されています 製品に表示されるモデル名は mpt-7b-instruct ですが、具体的に使用されているモデルは新しいバージョンのモデルです。

MPT-7B-8K-Instructは、質問応答、要約、抽出などのさまざまなタスクに使用できます。 Llama-2-70Bに比べて非常に高速ですが、応答の品質が低下する可能性があります。 このモデルでは、8,000 トークンのコンテキスト長がサポートされます。 MPT-7B-8k-Instructモデルの詳細をご覧ください

このサイズの他の言語モデルと同様に、MPT-7B-8K-Instructは、事実上正確な情報を生成するために信頼すべきではありません。 このモデルは、さまざまな公開データセットでトレーニングされました。 事前学習データのクリーニングには多大な努力が払われていますが、このモデルでは、わいせつな、偏った、またはその他の不快な出力が生成される可能性があります。

MPT 30B Instruct

MPT-30B-Instructは、MosaicMLで学習した命令追従用の30Bパラメーターモデルです。 このモデルは、英語のテキストとコードが混在する 1T トークン用に事前トレーニングされ、Databricks Dolly-15k、Anthropic Helpful and Harmless (HH-RLHF)、CompetitionMath、DuoRC、CoT GSM8k、QASPER、QuALITY、SummScreen、Spider データセットから派生したデータセットでさらに指示が微調整されます。

MPT-30B-Instructは、質問応答、要約、抽出など、さまざまなタスクに使用できます。 Llama-2-70Bに比べて非常に高速ですが、応答の品質が低下する可能性があり、マルチターンチャットをサポートしていません。 このモデルでは、8,192 トークンのコンテキスト長がサポートされます。 MPT-30B-Instructモデルの詳細をご覧ください

このサイズの他の言語モデルと同様に、MPT-30B-Instructは、事実に基づく正確な情報を生成するために信頼すべきではありません。 このモデルは、さまざまな公開データセットでトレーニングされました。 事前トレーニング データのクリーニングには多大な努力が払われていますが、このモデルでは、わいせつな、偏った、またはその他の不快な出力が生成される可能性があります。

BGE ラージ (ja)

BAAI General Embedding (BGE) は、任意のテキストを 1024 次元の埋め込みベクトルにマッピングできるテキスト埋め込みモデルです。 これらのベクトルは、LLMのベクトルデータベースや、検索、分類、質問応答、クラスター、セマンティック検索などのタスクで使用できます。 このエンドポイントは、英語版のモデルを提供します。

埋め込みモデルは、検索拡張世代(RAG)のユースケースでLLMと組み合わせて使用すると特に効果的です。 BGEは、LLMのコンテキストで使用できるドキュメントの大きなチャンクから関連するテキストスニペットを見つけるために使用できます。

RAGアプリケーションでは、命令パラメーターを含めることで、取得システムのパフォーマンスを向上させることができる場合があります。 BGEの著者は、クエリー埋め込みの命令 "Represent this sentence for searching relevant passages:" を試すことを推奨していますが、パフォーマンスへの影響はドメインに依存します。