inferência de lotes usando o Foundation Model APIs provisionamento Taxa de transferência

Este artigo fornece um exemplo de Notebook que realiza inferência de lotes em um provisionamento Taxa de transferência endpoint usando o Foundation Model APIs e ai_query.

Requisitos

  • Um workspace em uma região com suporte do Foundation Model APIs .

  • Um dos seguintes:

    • compute para todos os fins com compute tamanho i3.2xlarge ou maior executando Databricks Runtime 15.4 ML LTS ou acima com pelo menos 2 trabalhadores.

    • SQL warehouse médio e maior.

execução lotes inference

Em geral, a configuração da inferência de lotes envolve 2 passos:

  1. Criação do site endpoint para ser usado na inferência de lotes.

  2. Construir as solicitações de lotes e enviar essas solicitações para a inferência de lotes endpoint usando ai_query.

O Notebook de exemplo abrange esses passos e demonstra a inferência de lotes usando o modelo Meta Llama 3.1 70B.

lotes inference with a provisionamento Taxa de transferência endpoint Notebook

Abra o bloco de anotações em outra guia