プロビジョニングされたスループットのモデル単位

モデルユニットは、エンドポイントが 1 分あたりに処理できる作業量を決定するスループットの単位です。新しいプロビジョニングスループットエンドポイントを作成するときは、提供されるモデルごとにプロビジョニングするモデルユニットの数を指定します。

エンドポイントへの各リクエストを処理するために必要な作業量は、入力と生成された出力の両方のサイズによって異なります。入力トークンと出力トークンの数が増えると、リクエストを処理するために必要な作業量も増加します。出力トークンの生成には、入力トークンの処理よりも多くのリソースが必要になります。各リクエストに必要な作業は、入力トークンまたは出力トークンの数が増えるにつれて非線形に増加します。つまり、特定の量のモデルユニットに対して、エンドポイントは次のいずれかを処理できます。

一度に 複数の小さなリクエスト 。
容量不足になる前に、 長時間コンテキストのリクエストが少なくなります 。

たとえば、3500 個の入力トークンと 300 個の出力トークンを持つ中規模のワークロードでは、特定の数のモデルユニットの 1 秒あたりのトークンのスループットを見積もることができます。

モデル	モデルユニット	1秒あたりの推定トークン数
Llama 4 Maverick	50	3250

モデル単位を使用するモデル

次のモデルでは、 モデルユニットを 使用して推論能力をプロビジョニングします。

Google Gemini 2.5 プロ
Google Gemini 2.5 フラッシュ
OpenAI GPT-5
OpenAI GPT-5 ミニ
OpenAI GPT-5 ナノ
OpenAI GPT OSS 120B
OpenAI GPT OSS 20B
Google Gemma 3 12B
Meta Llama 4 Maverick（プレビュー）

注記

次のレガシーモデルファミリのモデルを提供するモデルサービングエンドポイント1 秒あたりのバンドに基づいたプロビジョニング推論容量:

Meta Llama 3.3
Meta Llama 3.2 3B
Meta Llama 3.2 1B
Meta Llama 3.1
GTE v1.5 (英語)
BGE v1.5 (英語)
DeepSeek R1 ( Unity Catalogでは利用できません)
Meta Llama 3
Meta Llama 2
DBRX
Mistral
Mixtral
MPT

モデル単位を使用するモデル​

モデル単位を使用するモデル