inferência de lotes usando o Foundation Model APIs provisionamento Taxa de transferência
Este artigo fornece um exemplo de Notebook que realiza inferência de lotes em um provisionamento Taxa de transferência endpoint usando o Foundation Model APIs e ai_query.
Requisitos
Um workspace em uma região com suporte do Foundation Model APIs .
Um dos seguintes:
compute para todos os fins com compute tamanho
i3.2xlarge
ou maior executando Databricks Runtime 15.4 ML LTS ou acima com pelo menos 2 trabalhadores.SQL warehouse médio e maior.
execução lotes inference
Em geral, a configuração da inferência de lotes envolve 2 passos:
Criação do site endpoint para ser usado na inferência de lotes.
Construir as solicitações de lotes e enviar essas solicitações para a inferência de lotes endpoint usando
ai_query
.
O Notebook de exemplo abrange esses passos e demonstra a inferência de lotes usando o modelo Meta Llama 3.1 70B.