inferência de lotes usando o Foundation Model API provisionamento Taxa de transferência

Este artigo fornece um exemplo de Notebook que realiza a inferência de lotes em um provisionamento Taxa de transferência endpoint usando o Foundation Model APIs. Ele também inclui um exemplo de Notebook para determinar a concorrência ideal para o site endpoint com base na carga de trabalho de inferência de lotes.

Requisitos

execução lotes inference

Em geral, a configuração da inferência de lotes envolve 3 passos:

  1. Preparar dados de amostra e configurar um benchmark endpoint.

  2. Executar um teste de carga com os dados de amostra no benchmark endpoint para determinar a configuração ideal do endpoint.

  3. Crie o site endpoint para ser usado na inferência de lotes e envie as solicitações de inferência de lotes.

O exemplo do Notebook configura a inferência de lotes e usa o modelo Meta Llama 3.1 70B e PySpark para realizar o seguinte:

  • Amostragem dos dados de entrada para criar um representante dataset

  • Criar um endpoint de benchmark com o modelo escolhido

  • Teste de carga do endpoint de benchmark usando os dados de amostra para determinar a latência e a simultaneidade

  • Criar um provisionamento Taxa de transferência endpoint para inferência de lotes com base nos resultados do teste de carga

  • Construa as solicitações de lotes e envie-as para a inferência de lotes endpoint

lotes inference with a provisionamento Taxa de transferência endpoint Notebook

Abra o bloco de anotações em outra guia

Determine a simultaneidade ideal para sua carga de trabalho de inferência de lotes

O Notebook a seguir fornece uma ferramenta alternativa para testar a carga do benchmark endpoint usando PySpark.

Determinar a simultaneidade ideal para o notebook de inferência de lotes

Abra o bloco de anotações em outra guia