inferência de lotes usando o Foundation Model API provisionamento Taxa de transferência
Este artigo fornece um exemplo de Notebook que realiza a inferência de lotes em um provisionamento Taxa de transferência endpoint usando o Foundation Model APIs. Ele também inclui um exemplo de Notebook para determinar a concorrência ideal para o site endpoint com base na carga de trabalho de inferência de lotes.
Requisitos
Um workspace em uma região com suporte do Foundation Model APIs .
Databricks Runtime 14.3 ML LTS ou acima.
execução lotes inference
Em geral, a configuração da inferência de lotes envolve 3 passos:
Preparar dados de amostra e configurar um benchmark endpoint.
Executar um teste de carga com os dados de amostra no benchmark endpoint para determinar a configuração ideal do endpoint.
Crie o site endpoint para ser usado na inferência de lotes e envie as solicitações de inferência de lotes.
O exemplo do Notebook configura a inferência de lotes e usa o modelo Meta Llama 3.1 70B e PySpark para realizar o seguinte:
Amostragem dos dados de entrada para criar um representante dataset
Criar um endpoint de benchmark com o modelo escolhido
Teste de carga do endpoint de benchmark usando os dados de amostra para determinar a latência e a simultaneidade
Criar um provisionamento Taxa de transferência endpoint para inferência de lotes com base nos resultados do teste de carga
Construa as solicitações de lotes e envie-as para a inferência de lotes endpoint
Determine a simultaneidade ideal para sua carga de trabalho de inferência de lotes
O Notebook a seguir fornece uma ferramenta alternativa para testar a carga do benchmark endpoint usando PySpark.