Unidades modelo em provisionamento Taxa de transferência

As unidades de modelo são uma unidade de Taxa de transferência que determina a quantidade de trabalho que seu endpoint pode processar por minuto. Ao criar um novo endpointprovisionamento Taxa de transferência, você especifica quantas unidades de modelo provisionar para cada modelo atendido.

A quantidade de trabalho necessária para processar cada solicitação ao seu endpoint depende do tamanho tanto da entrada quanto da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. A geração de tokens de saída consome mais recursos do que o processamento tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que a quantidade de tokens de entrada ou saída aumenta, o que significa que, para uma determinada quantidade de unidades do modelo, seu endpoint pode lidar com:

Vários pedidos pequenos de uma só vez.
Menos solicitações de contexto longo por vez, antes que a execução fique sem capacidade.

Por exemplo, com uma carga de trabalho de tamanho médio, com 3500 tokens de entrada e 300 tokens de saída, você pode estimar a taxa de transferência tokens por segundo para um determinado número de unidades do modelo:

Modelo	Unidades de modelo	Tokens estimados por segundo
Llama 4 Maverick	50	3250

Modelos que utilizam unidades de modelo

Os seguintes modelos utilizam unidades de modelo para provisionar capacidade de inferência:

Google Gemini 2.5 Pro
Google Gemini 2.5 Flash
OpenAI GPT-5
OpenAI GPT-5 mini
OpenAI GPT-5 nano
OpenAI GPT OSS 120B
OpenAI GPT OSS 20B
Google Gemma 3 12B
Meta Llama 4 Maverick (prévia)

nota

endpoint de modelo que serve modelos das seguintes famílias de modelos legados, provisionando capacidade de inferência com base em bandastokens por segundo:

Meta Llama 3.3
Meta Llama 3.2 3B
Meta Llama 3.2 1B
Meta Llama 3.1
GTE v1.5 (Inglês)
BGE v1.5 (inglês)
DeepSeek R1 (não disponível no Unity Catalog)
Meta Llama 3
Meta Llama 2
DBRX
Mistral
Mixtral
MPT

Modelos que utilizam unidades de modelo​

Modelos que utilizam unidades de modelo