Unidades modelo em provisionamento Taxa de transferência
As unidades de modelo são uma unidade de Taxa de transferência que determina a quantidade de trabalho que seu endpoint pode processar por minuto. Ao criar um novo endpointprovisionamento Taxa de transferência, você especifica quantas unidades de modelo provisionar para cada modelo atendido.
A quantidade de trabalho necessária para processar cada solicitação ao seu endpoint depende do tamanho tanto da entrada quanto da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. A geração de tokens de saída consome mais recursos do que o processamento tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que a quantidade de tokens de entrada ou saída aumenta, o que significa que, para uma determinada quantidade de unidades do modelo, seu endpoint pode lidar com:
- Vários pedidos pequenos de uma só vez.
- Menos solicitações de contexto longo em um determinado momento, antes que a execução fique fora da capacidade.
Por exemplo, com uma carga de trabalho de tamanho médio, com 3500 tokens de entrada e 300 tokens de saída, você pode estimar a taxa de transferência tokens por segundo para um determinado número de unidades do modelo:
Modelo | Unidades de modelo | Tokens estimados por segundo |
|---|---|---|
Llama 4 Maverick | 50 | 3250 |
Modelos que utilizam unidades de modelo
Os seguintes modelos utilizam unidades de modelo para provisionar capacidade de inferência:
- Google Gemini 2.5 Pro
- Google Gemini 2.5 Flash
- OpenAI GPT-5
- OpenAI GPT-5 mini
- OpenAI GPT-5 nano
- OpenAI GPT OSS 120B
- OpenAI GPT OSS 20B
- Google Gemma 3 12B
- Meta Llama 4 Maverick (prévia)
endpoint de modelo que serve modelos das seguintes famílias de modelos legados, provisionando capacidade de inferência com base em bandastokens por segundo:
- Meta Llama 3.3
- Meta Llama 3.2 3B
- Meta Llama 3.2 1B
- Meta Llama 3.1
- GTE v1.5 (Inglês)
- BGE v1.5 (inglês)
- DeepSeek R1 (não disponível no Unity Catalog)
- Meta Llama 3
- Meta Llama 2
- DBRX
- Mistral
- Mixtral
- MPT