メインコンテンツまでスキップ

Mosaic AI Model Serving でサポートされている基盤モデル

この記事では、Mosaic AI Model Servingを使用して提供できる基盤モデルについて説明します。

基盤モデルは、大規模な事前トレーニング済みのニューラルネットワークであり、大規模なデータと広範なデータの両方でトレーニングされています。 これらのモデルは、言語、画像、またはその他のデータ型の一般的なパターンを学習するように設計されており、追加のトレーニングを使用して特定のタスクに合わせて微調整できます。

モデルサービングは、お客様のニーズに基づいて基盤モデルをホスティングおよびクエリするための柔軟なオプションを提供します。

  • トークン単位の従量課金: 実験や迅速な探索に最適です。 このオプションを使用すると、事前のインフラストラクチャ コミットメントなしで、Databricks ワークスペース内の事前構成済みエンドポイントに対してクエリを実行できます。
  • プロビジョニング スループット: パフォーマンスの保証が必要な本番運用のユースケースに推奨されます。 このオプションを使用すると、最適化されたサービスエンドポイントを使用して、微調整された基盤モデルをデプロイできます。
  • 外部モデル: このオプションを使用すると、OpenAI や Anthropic によって提供されるモデルなど、Databricks の外部でホストされている基盤モデルにアクセスできます。 これらのモデルは、Databricks 内で一元管理して、ガバナンスを効率化できます。

Databricks でホストされる基盤モデル

Databricks は、Meta Llamaのような最先端のオープン基盤モデルをホストしています。 これらのモデルは、基盤モデル APIs を使用して使用でき、トークン単位の従量課金またはプロビジョニング スループットを使用してアクセスできます。

トークン単位の従量課金

基盤モデル APIs トークン単位の従量課金 は、作業の開始と迅速な探索に推奨されます。 モデルが基盤モデル APIs トークン単位の従量課金を使用してサポートされている場合、 Databricks は、テストとクエリを実行できる事前構成済みのエンドポイントを Databricks ワークスペースに提供します。 また、AI Playground を使用して、これらのモデルと対話したりチャットしたりすることもできます。

次の表は、トークン単位の従量課金でサポートされているモデルをまとめたものです。 モデル固有のリージョンの可用性については 、「基盤モデルの APIs の制限 」を参照してください。

important
  • 2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル API Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。
  • 以下のモデルは現在廃止されています。 推奨される交換モデルについては 、廃止されたモデル を参照してください。
    • Llama 2 70B Chat
    • MPT 7B Instruct
    • MPT 30B Instruct

モデル

タスクのタイプ

エンドポイント

GTE Large (英語)

Embeddings

databricks-gte-large-en

正規化されたエンベディングは生成されません。

Meta-Llama-3.3-70B-Instruct

Chat

databricks-meta-llama-3-3-70b-instruct

Meta-Llama-3.1-405B-Instruct*

Chat

databricks-meta-llama-3-1-405b-instruct

DBRX Instruct

Chat

databricks-dbrx-instruct

このモデルは、2025 年 4 月 30 日以降はサポートされなくなりました。

Mixtral-8x7B Instruct

Chat

databricks-mixtral-8x7b-instruct

このモデルは、2025 年 4 月 30 日以降はサポートされなくなりました。

BGE Large (英語)

Embeddings

databricks-bge-large-en

* このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。

プロビジョニングされたスループット

基盤モデル APIs プロビジョニング スループット は、本番運用のケースに推奨されます。 プロビジョニングされたスループットを使用するエンドポイントを作成して、微調整された基盤モデルアーキテクチャをデプロイできます。 プロビジョニングされたスループットを使用すると、サービスエンドポイントは、パフォーマンスの保証が必要な基盤モデルのワークロードに最適化されます。

次の表は、プロビジョニングされたスループットでサポートされているモデル アーキテクチャをまとめたものです。 Databricks では、 Unity Catalog の事前トレーニング済み基盤モデル を使用することをお勧めします。これらのモデルは、プロビジョニングされたスループット ワークロードに対して特別に最適化されているためです。 「 プロビジョニングされたスループットの制限 」を参照して、サポートされているモデルのバリエーションとリージョンの可用性を確認してください。

important

Meta Llama 3.3 は、 LLAMA 3.3 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、このライセンスおよび Llama 3.3 Acceptable Use ポリシーの条件に対するコンプライアンスを確保する責任があります。

Meta Llama 3.2 は、 LLAMA 3.2 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、本ライセンスおよび Llama 3.2 Acceptable Use ポリシーの条項に対するコンプライアンスを確保する責任があります。

Meta Llama 3.1 は 、LLAMA 3.1 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。

モデルアーキテクチャ

タスクのタイプ

DeepSeek R1

Chat

これらのモデルをダウンロードして Unity Catalogに登録し、プロビジョニング スループットを使用してデプロイできます。

Meta Llama 3.3

ChatまたはCompletion

Meta Llama 3.2 3B

ChatまたはCompletion

Meta Llama 3.2 1B

ChatまたはCompletion

Meta Llama 3.1

ChatまたはCompletion

Meta Llama 3

ChatまたはCompletion

Meta Llama 2

ChatまたはCompletion

DBRX

ChatまたはCompletion

Mistral

ChatまたはCompletion

Mixtral

ChatまたはCompletion

MPT

ChatまたはCompletion

GTE v1.5 (英語)

Embeddings

正規化されたエンベディングは生成されません。

BGE v1.5 (英語)

Embeddings

Databricks の外部でホストされている基盤モデルにアクセスする

OpenAI や Anthropic などの LLM プロバイダーによって作成された基盤モデルには、 Databricks で外部モデルを使用してアクセスすることもできます。 これらのモデルは Databricks の外部でホストされており、クエリを実行するためのエンドポイントを作成できます。 これらのエンドポイントは Databricks から一元的に管理できるため、組織内のさまざまな LLM プロバイダーの使用と管理が効率化されます。

次の表に、サポートされているモデルと対応する エンドポイントの種類の一覧を示します。 一覧表示されているモデルの関連付けを使用すると、新しくリリースされたモデルの種類が特定のプロバイダーで利用可能になったときに、エンドポイントとして構成できます。 お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。

注記

LLMの急速な発展に伴い、このリストが常に最新であるという保証はありません。 同じプロバイダーの新しいモデル バージョンは、通常、リストにない場合でもサポートされます。

モデルプロバイダー

llm/v1/completions

llm/v1/chat

llm/v1/embeddings

OpenAI**

  • GPT-3.5-ターボインストラクション - バベッジ-002 - ダビンチ-002
  • O1 - O1-ミニ - O1-ミニ-2024-09-12 - GPT-3.5ターボ - GPT-4 - GPT-4ターボ - GPT-4ターボ-2024-04 - GPT-4O - GPT-4O-2024-05-13 - GPT-4O-ミニ
  • テキスト埋め込み-ADA-002 - テキスト埋め込み-3-ラージ - テキスト埋め込み-3-小さい

Azure OpenAI**

  • テキスト-ダビンチ-003 - GPT-35-ターボインストラクション
  • O1 - O1-ミニ - GPT-35ターボ - GPT-35ターボ-16K - GPT-4 - GPT-4ターボ - GPT-4-32K - GPT-4O - GPT-4O-ミニ
  • テキスト埋め込み-ADA-002 - テキスト埋め込み-3-ラージ - テキスト埋め込み-3-小さい

Anthropic

  • クロード1号 - クロード-1.3-100K - クロード-2 - クロード-2.1 - クロード-2.0 - クロードインスタント-1.2
  • クロード-3-5-ソネット-最新 - クロード-3-5-俳句-最新 - クロード-3-5-オプス-最新 - クロード-3-5-ソネット-20241022 - クロード-3-5-俳句-20241022 - クロード-3-5-ソネット-20240620 - クロード-3-俳句-20240307 - クロード-3-OPUS-20240229 - クロード-3-ソネット-20240229

Cohere**

  • コマンド - コマンドライト
  • コマンド-R7B-12-2024 - コマンド-R-プラス-08-2024 - コマンド-R-08-2024 - command-r-plus (コマンド-r-プラス) - コマンド-R - コマンド - コマンドライトナイトリー - コマンドライト - コマンド-夜間
  • 埋め込み英語-v2.0 - embed-multilingual-v2.0 (英語) - 埋め込み英語ライト-v2.0 - 埋め込み英語-v3.0 - 埋め込み英語ライト-v3.0 - embed-multilingual-v3.0 (英語) - embed-multilingual-light-v3.0 (英語)

Mosaic AI モデルサービング

Databricks サービス エンドポイント

Databricks サービス エンドポイント

Databricks サービス エンドポイント

Amazon Bedrock

Anthropic: - クロードインスタントV1 - クロード-V2 Cohere: - コマンドテキストV14 - コマンドライトテキストV14 AI21 Labs: - J2-グランデ-インストラクション - J2-ジャンボインストラクション - J2-ミッド - J2-ミッド-V1 - J2-ウルトラ - J2-ウルトラV1

Anthropic: - クロード-3-5-ソネット-20241022-v2:0 - クロード-3-5-俳句-20241022-v1:0 - クロード-3-OPUS-20240229-V1:0 - クロード-3-ソネット-20240229-V1:0 - クロード-3-5-ソネット-20240620-V1:0 Cohere: - コマンド-r-plus-v1:0 - コマンド-r-v1:0

Amazon: - タイタン埋め込みテキスト-v1 - タイタン-embed-g1-text-02 Cohere: - 埋め込み英語-v3 - embed-multilingual-v3 (英語)

AI21 Labs†

  • J2-ミッド - J2-ライト - J2-ウルトラ

Google Cloud Vertex AI

text-bison

  • チャットバイソン - ジェミニプロ - ジェミニ-1.0-PRO - ジェミニ-1.5-PRO - ジェミニ-1.5-フラッシュ - ジェミニ-2.0-フラッシュ
  • テキスト埋め込み-004 - テキスト埋め込み-005 - textembedding-gecko

** モデル プロバイダーは、ファインチューニングされた補完モデルとチャット モデルをサポートしています。 ファインチューニングされたモデルをクエリするには、external model構成の name フィールドにファインチューニングされたモデルの名前を入力します。

† モデル プロバイダーは、カスタム入力候補モデルをサポートしています。

エンドポイントを提供する基盤モデルの作成

AIアプリケーションで基盤モデルをクエリして使用するには、まずモデルサービング エンドポイントを作成する必要があります。モデルサービングは、統合された API とUIを使用して、基盤モデルを提供するエンドポイントを作成および更新します。

クエリ基盤モデルの提供エンドポイント

サービングエンドポイントを作成したら、基盤モデルをクエリできます。 モデルサービングは、基盤モデルのクエリに統一されたOpenAI互換の API と SDK を使用します。 この統一されたエクスペリエンスにより、エクスペリメントを行い、サポートされているクラウドやプロバイダー間での本番運用のための基盤モデルをカスタマイズする方法が簡素化されます。

「クエリ基盤モデル」を参照してください。