プロビジョニングされたスループットのモデル単位
モデル ユニットは、エンドポイントが 1 分あたりに処理できる作業量を決定するスループットの単位です。新しいプロビジョニング スループット エンドポイントを作成するときは、提供されるモデルごとにプロビジョニングするモデル ユニットの数を指定します。
エンドポイントへの各リクエストを処理するために必要な作業量は、入力と生成された出力の両方のサイズによって異なります。入力トークンと出力トークンの数が増えると、リクエストを処理するために必要な作業量も増加します。出力トークンの生成には、入力トークンの処理よりも多くのリソースが必要になります。各リクエストに必要な作業は、入力トークンまたは出力トークンの数が増えるにつれて非線形に増加します。つまり、特定の量のモデル ユニットに対して、エンドポイントは次のいずれかを処理できます。
- 一度に 複数の小さなリクエスト 。
- 容量不足になる前に、 長時間コンテキストのリクエストが少なくなります 。
たとえば、3500 個の入力トークンと 300 個の出力トークンを持つ中規模のワークロードでは、特定の数のモデル ユニットの 1 秒あたりのトークンのスループットを見積もることができます。
モデル | モデルユニット | 1秒あたりの推定トークン数 |
|---|---|---|
Llama 4 Maverick | 50 | 3250 |
モデル単位を使用するモデル
次のモデルでは、 モデル ユニットを 使用して推論能力をプロビジョニングします。
- Google Gemini 2.5 プロ
- Google Gemini 2.5 フラッシュ
- OpenAI GPT-5
- OpenAI GPT-5 ミニ
- OpenAI GPT-5 ナノ
- OpenAI GPT OSS 120B
- OpenAI GPT OSS 20B
- Google Gemma 3 12B
- Meta Llama 4 Maverick(プレビュー)
注記
次のレガシー モデル ファミリのモデルを提供するモデルサービング エンドポイント1 秒あたりのバンドに基づいたプロビジョニング推論容量:
- Meta Llama 3.3
- Meta Llama 3.2 3B
- Meta Llama 3.2 1B
- Meta Llama 3.1
- GTE v1.5 (英語)
- BGE v1.5 (英語)
- DeepSeek R1 ( Unity Catalogでは利用できません)
- Meta Llama 3
- Meta Llama 2
- DBRX
- Mistral
- Mixtral
- MPT