Pular para o conteúdo principal

Unidades modelo em provisionamento Taxa de transferência

As unidades de modelo são uma unidade de Taxa de transferência que determina a quantidade de trabalho que seu endpoint pode processar por minuto. Ao criar um novo endpointprovisionamento Taxa de transferência, você especifica quantas unidades de modelo provisionar para cada modelo atendido.

A quantidade de trabalho necessária para processar cada solicitação ao seu endpoint depende do tamanho tanto da entrada quanto da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. A geração de tokens de saída consome mais recursos do que o processamento tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que a quantidade de tokens de entrada ou saída aumenta, o que significa que, para uma determinada quantidade de unidades do modelo, seu endpoint pode lidar com:

  • Vários pedidos pequenos de uma só vez.
  • Menos solicitações de contexto longo em um determinado momento, antes que a execução fique fora da capacidade.

Por exemplo, com uma carga de trabalho de tamanho médio, com 3500 tokens de entrada e 300 tokens de saída, você pode estimar a taxa de transferência tokens por segundo para um determinado número de unidades do modelo:

Modelo

Unidades de modelo

Tokens estimados por segundo

Llama 4 Maverick

50

3250

Modelos que utilizam unidades de modelo

Os seguintes modelos utilizam unidades de modelo para provisionar capacidade de inferência:

  • Google Gemini 2.5 Pro
  • Google Gemini 2.5 Flash
  • OpenAI GPT-5
  • OpenAI GPT-5 mini
  • OpenAI GPT-5 nano
  • OpenAI GPT OSS 120B
  • OpenAI GPT OSS 20B
  • Google Gemma 3 12B
  • Meta Llama 4 Maverick (prévia)
nota

endpoint de modelo que serve modelos das seguintes famílias de modelos legados, provisionando capacidade de inferência com base em bandastokens por segundo:

  • Meta Llama 3.3
  • Meta Llama 3.2 3B
  • Meta Llama 3.2 1B
  • Meta Llama 3.1
  • GTE v1.5 (Inglês)
  • BGE v1.5 (inglês)
  • DeepSeek R1 (não disponível no Unity Catalog)
  • Meta Llama 3
  • Meta Llama 2
  • DBRX
  • Mistral
  • Mixtral
  • MPT