Pular para o conteúdo principal

Inferência de lotes LLM distribuídos

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página fornece exemplos em formato de notebook para inferência de lotes LLM usando dados Ray. Uma biblioteca de processamento de dados escalável para cargas de trabalho AI , em compute GPU serverless .

Inferência de lotes usando vLLM com dados Ray

Este notebook demonstra como executar inferência LLM em escala usando Ray Data e vLLM em GPU serverless . Ele utiliza a API de GPU distribuída serverless para provisionar e gerenciar automaticamente GPUs A10 em vários nós para inferência distribuída.

lotes vLLM Inferência

Open notebook in new tab

Inferência de lotes usando SGLang com dados de raio

SGLang é uma estrutura de servidor de alto desempenho para LLMs. Este notebook demonstra como executar inferência de lotes LLM usando SGLang e Ray Data em uma GPU serverless Databricks .

Lotes SGLang Inferência

Open notebook in new tab