Mosaic AI Model Serving でサポートされている基盤モデル

この記事では、Mosaic AI Model Servingを使用して提供できる基盤モデルについて説明します。

基盤モデルは、大規模な事前トレーニング済みのニューラルネットワークであり、大規模なデータと広範なデータの両方でトレーニングされています。 これらのモデルは、言語、画像、またはその他のデータ型の一般的なパターンを学習するように設計されており、追加のトレーニングを使用して特定のタスクに合わせて微調整できます。

モデルサービングは、お客様のニーズに基づいて基盤モデルをホスティングおよびクエリするための柔軟なオプションを提供します。

  • トークン単位の従量課金: 実験や迅速な探索に最適です。 このオプションを使用すると、事前のインフラストラクチャ コミットメントなしで、Databricks ワークスペース内の事前構成済みエンドポイントに対してクエリを実行できます。

  • プロビジョニング スループット: パフォーマンスの保証が必要な本番運用のユースケースに推奨されます。 このオプションを使用すると、最適化されたサービスエンドポイントを使用して、微調整された基盤モデルをデプロイできます。

  • 外部モデル: このオプションを使用すると、OpenAI や Anthropic によって提供されるモデルなど、Databricks の外部でホストされている基盤モデルにアクセスできます。 これらのモデルは、Databricks 内で一元管理して、ガバナンスを効率化できます。

Databricks でホストされる基盤モデル

Databricks は、Meta Llamaのような最先端のオープン基盤モデルをホストしています。 これらのモデルは、基盤モデル APIs を使用して使用でき、トークン単位の従量課金またはプロビジョニング スループットを使用してアクセスできます。

トークン単位の従量課金

基盤モデル APIs トークン単位の従量課金は、作業の開始と迅速な探索に推奨されます。 基盤モデル APIs トークン単位の従量課金を使用してサポートされる各モデルには、テストおよびクエリを実行できる事前構成済みのエンドポイントが Databricks ワークスペースにあります。 また、AI Playground を使用して、これらのモデルと対話したりチャットしたりすることもできます。

次の表は、トークン単位の従量課金でサポートされているモデルをまとめたものです。 モデル固有のリージョンの可用性については 、「基盤モデルの APIs の制限 」を参照してください。

重要

  • 2024 年 12 月 11 日以降、Meta-Llama-3.3-70B-Instruct は、トークン単位の従量課金エンドポイントの基盤モデル APIs Meta-Llama-3.1-70B-Instruct のサポートを置き換えます。

  • 以下のモデルは現在廃止されています。 推奨される交換モデルについては 、廃止されたモデル を参照してください。

    • Llama 2 70B Chat

    • MPT 7B Instruct

    • MPT 30B Instruct

モデル

タスクのタイプ

エンドポイント

GTE Large (英語)

Embeddings

databricks-gte-large-en

正規化された埋め込みは生成されません。

メタラマ-3.3-70B-指示

Chat

databricks-meta-llama-3-3-70b-instruct

Meta-Llama-3.1-405B-Instruct*

Chat

databricks-meta-llama-3-1-405b-instruct

DBRX Instruct

Chat

databricks-dbrx-instruct

Mixtral-8x7B Instruct

Chat

databricks-mixtral-8x7b-instruct

BGE Large (英語)

Embeddings

databricks-bge-large-en

* このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウント チームにお問い合わせください。

プロビジョニングされたスループット

基盤モデル APIs プロビジョニング スループットは、本番運用の場合に推奨されます。 プロビジョニングされたスループットを使用するエンドポイントを作成して、微調整された基盤モデルアーキテクチャをデプロイできます。 プロビジョニングされたスループットを使用すると、サービスエンドポイントは、パフォーマンスの保証が必要な基盤モデルのワークロードに最適化されます。

次の表は、プロビジョニングされたスループットでサポートされているモデル アーキテクチャをまとめたものです。 Databricks では、 Unity Catalog の事前トレーニング済み基盤モデル を使用することをお勧めします。これらのモデルは、プロビジョニングされたスループット ワークロードに対して特別に最適化されているためです。 「 プロビジョニングされたスループットの制限 」を参照して、サポートされているモデルのバリエーションとリージョンの可用性を確認してください。

重要

Meta Llama 3.3 は、 LLAMA 3.3 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、このライセンスおよび Llama 3.3 Acceptable Use ポリシーの条件に対するコンプライアンスを確保する責任があります。

Meta Llama 3.2 は、 LLAMA 3.2 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、本ライセンスおよび Llama 3.2 Acceptable Use ポリシーの条項に対するコンプライアンスを確保する責任があります。

Meta Llama 3.1 は、 LLAMA 3.1 コミュニティ ライセンス、Copyright © Meta Platforms, Inc. の下でライセンスされています。 全著作権所有。 お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。

モデルアーキテクチャ

タスクのタイプ

メタ Llama 3.3

ChatまたはCompletion

メタ Llama 3.2 3B

ChatまたはCompletion

メタ Llama 3.2 1B

ChatまたはCompletion

Meta Llama 3.1

ChatまたはCompletion

Meta Llama 3

ChatまたはCompletion

Meta Llama 2

ChatまたはCompletion

DBRX

ChatまたはCompletion

Mistral

ChatまたはCompletion

Mixtral

ChatまたはCompletion

MPT

ChatまたはCompletion

GTE v1.5 (英語)

Embeddings

正規化された埋め込みは生成されません。

BGE v1.5 (英語)

Embeddings

Databricks の外部でホストされている基盤モデルにアクセスする

OpenAI や Anthropic などの LLM プロバイダーによって作成された基盤モデルには、 Databricks で外部モデルを使用してアクセスすることもできます。 これらのモデルは Databricks の外部でホストされており、クエリを実行するためのエンドポイントを作成できます。 これらのエンドポイントは Databricks から一元的に管理できるため、組織内のさまざまな LLM プロバイダーの使用と管理が効率化されます。

次の表に、サポートされているモデルと対応する エンドポイントの種類の一覧を示します。 一覧表示されているモデルの関連付けを使用すると、新しくリリースされたモデルの種類が特定のプロバイダーで利用可能になったときに、エンドポイントとして構成できます。 お客様は、該当するモデルライセンスでコンプライアンスを確保する責任があります。

注:

LLMの急速な発展に伴い、このリストが常に最新であるという保証はありません。 同じプロバイダーの新しいモデル バージョンは、通常、リストにない場合でもサポートされます。

モデルプロバイダー

llm/v1/completions

llm/v1/chat

llm/v1/embeddings

OpenAI(オープンAI)**

  • gpt-3.5-turbo-instruct

  • babbage-002

  • davinci-002

  • O1

  • O1-ミニ

  • O1-ミニ-2024-09-12

  • gpt-3.5-turbo

  • gpt-4

  • GPT-4ターボ

  • GPT-4-ターボ-2024-04

  • GPT-4O(英語)

  • GPT-4O-2024-05-13

  • GPT-4O-ミニ

  • text-embedding-ada-002

  • text-embedding-3-large

  • text-embedding-3-small

Azure OpenAI**

  • text-davinci-003

  • gpt-35-turbo-instruct

  • O1

  • O1-ミニ

  • gpt-35-turbo

  • gpt-35-turbo-16k

  • gpt-4

  • GPT-4ターボ

  • gpt-4-32k

  • GPT-4O(英語)

  • GPT-4O-ミニ

  • text-embedding-ada-002

  • text-embedding-3-large

  • text-embedding-3-small

Anthropic

  • claude-1

  • claude-1.3-100k

  • claude-2

  • claude-2.1

  • claude-2.0

  • claude-instant-1.2

  • クロード-3-5-ソネット-最新

  • クロード-3-5-俳句-最新

  • クロード-3-5-オーパス-最新

  • クロード-3-5-ソネット-20241022

  • クロード-3-5-俳句-20241022

  • クロード-3-5-ソネット-20240620

  • claude-3-haiku-20240307

  • claude-3-opus-20240229

  • claude-3-sonnet-20240229

Cohere**

  • command

  • command-light

  • コマンド-R7B-12-2024

  • コマンド-R-プラス-08-2024

  • コマンド-R-08-2024

  • コマンド-r-plus

  • コマンド-R

  • command

  • command-light-nightly

  • command-light

  • command-nightly

  • embed-english-v2.0

  • embed-multilingual-v2.0

  • embed-english-light-v2.0

  • embed-english-v3.0

  • embed-english-light-v3.0

  • embed-multilingual-v3.0

  • embed-multilingual-light-v3.0

Mosaic AI モデルサービング

Databricks サービス エンドポイント

Databricks サービス エンドポイント

Databricks サービス エンドポイント

Amazon Bedrock

Anthropic:

  • claude-instant-v1

  • claude-v2

Cohere:

  • command-text-v14

  • command-light-text-v14

AI21 Labs:

  • j2-grande-instruct

  • j2-jumbo-instruct

  • j2-mid

  • j2-mid-v1

  • j2-ultra

  • J2-ウルトラ-V1

Anthropic:

  • クロード-3-5-ソネット-20241022-v2:0

  • クロード-3-5-俳句-20241022-V1:0

  • クロード-3-OPUS-20240229-V1:0

  • claude-3-sonnet-20240229-v1:0

  • クロード-3-5-ソネット-20240620-V1:0

Cohere:

  • コマンド-r-plus-v1:0

  • コマンド-r-v1:0

Amazon:

  • titan-embed-text-v1

  • titan-embed-g1-text-02

Cohere:

  • 埋め込み-英語-v3

  • embed-multilingual-v3 (英語)

AI21 Labs†

  • j2-mid

  • j2-light

  • j2-ultra

Google Cloud Vertex AI

text-bison

  • chat-bison

  • gemini-pro

  • ジェミニ-1.0-PRO

  • ジェミニ-1.5-PRO

  • ジェミニ-1.5-フラッシュ

  • ジェミニ-2.0-フラッシュ

  • テキスト埋め込み-004

  • テキスト埋め込み-005

  • textembedding-gecko

** モデル プロバイダーは、ファインチューニングされた補完モデルとチャット モデルをサポートしています。 ファインチューニングされたモデルをクエリするには、external model構成の name フィールドにファインチューニングされたモデルの名前を入力します。

† モデル プロバイダーは、カスタム入力候補モデルをサポートしています。

エンドポイントを提供する基盤モデルの作成

AIアプリケーションで基盤モデルをクエリして使用するには、まずモデルサービング エンドポイントを作成する必要があります。モデルサービングは、統合された API とUIを使用して、基盤モデルを提供するエンドポイントを作成および更新します。

クエリ基盤モデルの提供エンドポイント

サービングエンドポイントを作成したら、基盤モデルをクエリできます。 モデルサービングは、基盤モデルのクエリに統一されたOpenAI互換の API と SDK を使用します。 この統一されたエクスペリエンスにより、エクスペリメントを行い、サポートされているクラウドやプロバイダー間での本番運用のための基盤モデルをカスタマイズする方法が簡素化されます。

「クエリ基盤モデル」を参照してください。