Mosaic AI Model Serving でサポートされている基盤モデル
この記事では、Mosaic AI Model Servingを使用して提供できる基盤モデルについて説明します。
基盤モデルは、大規模な事前トレーニング済みのニューラルネットワークであり、大規模なデータと広範なデータの両方でトレーニングされています。 これらのモデルは、言語、画像、またはその他のデータ型の一般的なパターンを学習するように設計されており、追加のトレーニングを使用して特定のタスクに合わせて微調整できます。お客様による特定の基盤モデルの使用には、モデル開発者のライセンスおよび利用規定が適用されます。 「適用可能なモデル開発者のライセンスと条件」を参照してください。
モデルサービングは、お客様のニーズに基づいて基盤モデルをホスティングおよびクエリするための柔軟なオプションを提供します。
- トークン単位の従量課金: 実験や迅速な探索に最適です。 このオプションを使用すると、事前のインフラストラクチャ コミットメントなしで、Databricks ワークスペース内の事前構成済みエンドポイントに対してクエリを実行できます。
- プロビジョニング スループット: パフォーマンスの保証が必要な本番運用のユースケースに推奨されます。 このオプションを使用すると、最適化されたサービスエンドポイントを使用して、微調整された基盤モデルをデプロイできます。
- 外部モデル: このオプションを使用すると、OpenAI や Anthropic によって提供されるモデルなど、Databricks の外部でホストされている基盤モデルにアクセスできます。 これらのモデルは、Databricks 内で一元管理して、ガバナンスを効率化できます。
Databricks でホストされる基盤モデル
Databricks は、Meta Llamaのような最先端のオープン基盤モデルをホストしています。 これらのモデルは、基盤モデル APIs を使用して使用でき、トークン単位の従量課金またはプロビジョニング スループットを使用してアクセスできます。
トークン単位の従量課金
基盤モデル APIs トークン単位の従量課金 は、作業の開始と迅速な探索に推奨されます。 モデルが基盤モデル APIs トークン単位の従量課金を使用してサポートされている場合、 Databricks は、テストとクエリを実行できる事前構成済みのエンドポイントを Databricks ワークスペースに提供します。 また、AI Playground を使用して、これらのモデルと対話したりチャットしたりすることもできます。
- 2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル API Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。
- 以下のモデルは現在廃止されています。 推奨される交換モデルについては 、廃止されたモデル を参照してください。
- Llama 2 70B Chat
- MPT 7B Instruct
- MPT 30B Instruct
次の表は、トークン単位の従量課金でサポートされているモデルをまとめたものです。 モデル固有のリージョンの可用性については 、「基盤モデルの APIs の制限 」を参照してください。
モデル | タスクのタイプ | エンドポイント | 注 |
---|---|---|---|
Chat |
| ||
Chat |
| ||
Embeddings |
| 正規化されたエンベディングは生成されません。 | |
Chat |
| ||
Chat |
| ||
Chat |
| ||
Chat |
| このモデルは、2025 年 4 月 30 日以降はサポートされなくなりました。 | |
Chat |
| このモデルは、2025 年 4 月 30 日以降はサポートされなくなりました。 | |
Embeddings |
|
*
このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。
プロビジョニングされたスループット
基盤モデル APIs プロビジョニング スループット は、本番運用のケースに推奨されます。 プロビジョニングされたスループットを使用するエンドポイントを作成して、微調整された基盤モデルアーキテクチャをデプロイできます。 プロビジョニングされたスループットを使用すると、サービスエンドポイントは、パフォーマンスの保証が必要な基盤モデルのワークロードに最適化されます。
次の表は、プロビジョニングされたスループットでサポートされているモデル アーキテクチャをまとめたものです。Databricks では、 Unity Catalog の事前トレーニング済み基盤モデル を使用することをお勧めします。これらのモデルは、プロビジョニングされたスループット ワークロードに対して特別に最適化されているためです。
- 「 プロビジョニングされたスループットの制限 」を参照して、サポートされているモデルのバリエーションとリージョンの可用性を確認してください。
- これらのモデル の適用可能なモデル開発者ライセンスと条件 を参照してください。
モデルアーキテクチャ | タスクのタイプ | 注 |
---|---|---|
DeepSeek R1 | Chat | これらのモデルをダウンロードして Unity Catalogに登録し、プロビジョニング スループットを使用してデプロイできます。 |
Meta Llama 3.3 | ChatまたはCompletion | |
Meta Llama 3.2 3B | ChatまたはCompletion | |
Meta Llama 3.2 1B | ChatまたはCompletion | |
Meta Llama 3.1 | ChatまたはCompletion | |
Meta Llama 3 | ChatまたはCompletion | |
Meta Llama 2 | ChatまたはCompletion | |
DBRX | ChatまたはCompletion | |
Mistral | ChatまたはCompletion | |
Mixtral | ChatまたはCompletion | |
MPT | ChatまたはCompletion | |
GTE v1.5 (英語) | Embeddings | 正規化されたエンベディングは生成されません。 |
BGE v1.5 (英語) | Embeddings |
Databricks の外部でホストされている基盤モデルにアクセスする
OpenAI や Anthropic などの LLM プロバイダーによって作成された基盤モデルには、 Databricks で外部モデルを使用してアクセスすることもできます。 これらのモデルは Databricks の外部でホストされており、クエリを実行するためのエンドポイントを作成できます。 これらのエンドポイントは Databricks から一元的に管理できるため、組織内のさまざまな LLM プロバイダーの使用と管理が効率化されます。
次の表に、サポートされているモデルと対応する エンドポイントの種類の一覧を示します。 一覧表示されているモデルの関連付けを使用すると、新しくリリースされたモデルの種類が特定のプロバイダーで利用可能になったときに、エンドポイントとして構成できます。 お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。
LLMの急速な発展に伴い、このリストが常に最新であるという保証はありません。 同じプロバイダーの新しいモデル バージョンは、通常、リストにない場合でもサポートされます。
モデルプロバイダー | llm/v1/completions | llm/v1/chat | llm/v1/embeddings |
---|---|---|---|
OpenAI** |
|
|
|
Azure OpenAI** |
|
|
|
Anthropic |
|
| |
Cohere** |
|
|
|
Mosaic AI モデルサービング | Databricks サービス エンドポイント | Databricks サービス エンドポイント | Databricks サービス エンドポイント |
Amazon Bedrock | Anthropic: - クロードインスタントV1 - クロード-V2 Cohere: - コマンドテキストV14 - コマンドライトテキストV14 AI21 Labs: - J2-グランデ-インストラクション - J2-ジャンボインストラクション - J2-ミッド - J2-ミッド-V1 - J2-ウルトラ - J2-ウルトラV1 | Anthropic: - クロード-3-5-ソネット-20241022-v2:0 - クロード-3-5-俳句-20241022-v1:0 - クロード-3-OPUS-20240229-V1:0 - クロード-3-ソネット-20240229-V1:0 - クロード-3-5-ソネット-20240620-V1:0 Cohere: - コマンド-r-plus-v1:0 - コマンド-r-v1:0 Amazon: - nova-lite-v1:0 - nova-micro-v1:0 - nova-pro-v1:0 | Amazon: - タイタン埋め込みテキストv2:0 - タイタン埋め込みテキスト-v1 - タイタン-embed-g1-text-02 Cohere: - 埋め込み英語-v3 - embed-multilingual-v3 (英語) |
AI21 Labs |
| ||
Google Cloud Vertex AI | text-bison |
|
|
**
モデル プロバイダーは、ファインチューニングされた補完モデルとチャット モデルをサポートしています。 ファインチューニングされたモデルをクエリするには、external model
構成の name
フィールドにファインチューニングされたモデルの名前を入力します。
†
モデル プロバイダーは、カスタム完了モデルをサポートしています。
エンドポイントを提供する基盤モデルの作成
AIアプリケーションで基盤モデルをクエリして使用するには、まずモデルサービング エンドポイントを作成する必要があります。モデルサービングは、統合された API とUIを使用して、基盤モデルを提供するエンドポイントを作成および更新します。
- 「基盤モデル APIs プロビジョニング スループットを使用して利用可能になった基盤モデルの微調整されたバリアントを提供するエンドポイントを作成するには、「REST APIを使用してプロビジョニング スループット エンドポイントを作成する」を参照してください。
- 外部モデルオファリングを使用して利用可能になった基盤モデルにアクセスするサービングエンドポイントを作成するには、「 外部モデルサービングエンドポイントを作成する」を参照してください。
クエリ基盤モデルの提供エンドポイント
サービングエンドポイントを作成したら、基盤モデルをクエリできます。 モデルサービングは、基盤モデルのクエリに統一されたOpenAI互換の API と SDK を使用します。 この統一されたエクスペリエンスにより、エクスペリメントを行い、サポートされているクラウドやプロバイダー間での本番運用のための基盤モデルをカスタマイズする方法が簡素化されます。
「基盤モデルの使用」を参照してください。